FAQ

Q Analysis분야 챔피언리그 문제 및 데이터 자주 묻는 질문 (ver. 8/13)
A


1. 잔존가치의 정확한 의미가 무엇인가요?


잔존 가치는 고객의 이탈을 방지하여 창출되는 추가 가치를 의미합니다.

잔존 가치는 추가 생존 기간, 일별 평균 결제 금액, 전환율 등으로 산정 되며 세부 사항은 대회홈페이지에 게시된 설명회 자료와 

단비 블로그 글(https://danbi-ncsoft.github.io/competition/2019/07/22/competition-2019-bigcontest.html)을 참조하시길 바랍니다.

 

 

2. 제공된 데이터가 리마스터에서 수집된 데이터인가요?


, 리니지(1998 출시, 현 리니지 리마스터)의 데이터가 맞습니다. 리니지 리마스터(2019-03-27) 이전의 데이터를 제공하고 있습니다.

 


3. 단발성 전투와 기타 전투는 무엇인가요?


단발성 전투는 전투한 캐릭터 수가 일정 기준 이하인 캐릭터 간의 전투를 의미합니다. 기타 전투는 제공된 전투 유형에 해당하지 않는 전투를 의미합니다.



4. train_activity.csv 파일에 playtime0인데 fishing0이 아닌 경우가 존재합니다.

    플레이 타임에 낚시 시간이 포함이 되는 건지 안되는 건지 궁금합니다.


 낚시에 소요한 시간(fishing)은 일일 플레이 시간(playtime)에 포함되는 것이 옳습니다.

 간혹 통신 오류 등의 사유에 따라 유저의 활동이 정확하게 기록되지 않는 경우가 있습니다

 문의하신 건은, 낚시의 시작 또는 종료가 원인 미상의 사유로 인해 정확하게 기록되지 않아 낚시 시간이 잘못 집계된 경우로 보입니다

 주어진 데이터 중 오류에 해당하는 소량의 데이터가 있을 수도 있다는 점을 고려하여 분석을 진행하시기 바랍니다.


 

5. 유저(acc_id) 및 캐릭터(char_id)식별 기준은 어떻게 되나요?  


 l 유저 식별 기준은 acc_id입니다

 l 캐릭터 식별 기준은 acc_id, char_id입니다., 다른 캐릭터이더라도 같은 char_id를 가질 수 있습니다.

       acc_id char_id key로 이용해야만 캐릭터 식별이 가능합니다.

   n 같은 캐릭터이지만 (acc_id char_id가 같지만)다수의 서버에서 기록이 있는 경우가 존재합니다.

         n 여러 서버의 캐릭터들이 모여서 즐기는 통합 서버 컨텐츠(e.g.월드 공성)는 일반 서버(데포르쥬,켄라우헬 등)가 아닌 특수 서버에서 진행되며

             일반 서버 컨텐츠 활동은 일반 서버에, 통합 서버 컨텐츠 활동은 특수 서버에 기록이 됩니다

             따라서 동일한 캐릭터의 활동이 일반 서버와 특수 서버 모두에 기록될 수 있습니다.



6. 표준화 이전 데이터의 값, 상세 데이터 추출 기간 등 주어진 정보 이외의 추가적인 정보 제공이 가능한가요?


 l 타 참가자와의 형평성 및 보안상의 이슈로 표준화 이전 데이터 및 데이터의 실제 값에 대한 정보는 제공 불가능한 점 양해 부탁 드립니다.



7.  최종 답안지는 어떻게 제출하면 되나요?


  l 예측 대상은 test1_activity test2_activity에 존재하는 유저(acc_id)각각 20,000명입니다.

  l 이들의 생존 기간(survival_time) 및 일별 평균 결제 금액(amount_spent) 예측치를 각각 test1_predict.csv test2_predict.csv파일로 제출하시면 됩니다


Q Innovation분야 문제 및 데이터 자주 묻는 질문 (ver. 8/5)
A
1. GS리테일 데이터 "동별매출지수" 에 노란색으로 100% 표기가 되어있습니다. 무엇을 의미하는 건가요? 
   동별 일자별 매출은 노란색 표기일인 상계6, 7동의 4월 12일이 매출  기준일입니다. 즉 지수가 100인 날짜입니다.
   (전체의  평균과 가장 유사한 평균 매출을 가진 일자이며 동이기에 선정)
 
   이를 중심으로 일자별 동별의 매출을 지수화가 되도록 조정하였습니다.
   즉 어느 동의 6월 15일의 매출지수가 95이면,  상계6, 7동의 4월 12일 대비 5%매출이 저조하다는 것을 의미합니다.
   카테고리매출은  일자별 매출 지수와 상관 없이 100%가 되도록 하였습니다. 즉 특정 동의 특정 일의 일별 지수는 95라도
   카테고리의 합은 95%가 아닌 100%가 되도록 하였습니다.  
  

2. 환경 기상데이터에서 -999는 무엇을 의미하는 건가요?
    "-999"는 결측치를 의미합니다.  "-999", "-9999" 등으로 표시하는 경우가 많습니다.
   현재 데이터에서는 이 두 표기 방법이 혼용되어 사용됩니다. 


3. pm10, pm25 값이 케이웨더에서 제공한 기준점보다 너무 높은데, 정상적인 수치인가요?  

   현재 제공되는 데이터는 1분단위의 대기질 농도값 데이터 입니다.

   보내주신 대기질 기준의 데이터 기본 시간 단위는 1시간 평균 농도값입니다.

   이러한 차이로 인해서 상세 시간단위의 현황값은 1시간 평균 농도 값보다 높은 농도를 띄기도 합니다.

   이러한 높은 값들이 이상치인지 확인을 위해서는 시계열 분석을 통해 전후 연속적 상황을 체크해야합니다.

 

   미세먼지의 경우 이벤트성으로 발생하기 때문에 몇시간 혹은 몇십분전에 비해 농도가 상승하는것은 이치에 맞지만

   시간에 따른 순차적 농도변화가 없이 포인트 시간만 고농도가 발생하는지에 관해서 확인해보시고 판단하시기 바랍니다.

 

   실외 대기질 데이터는 1분단위의 시계열 데이터로 기본적으로 이상치 전처리를 실행한 후 제공 되었습니다.

   하지만 짧은 시간단위의 데이터를 실시간 보정하면서 누락된 부분이 발생할 수도 있습니다.

   

   제공된 데이터에 관하여 이상치에 관해서 다음과 같이 재확인 해보았습니다.

 

   ===================================================

   - 재확인 이상치 -

   <종로구>

   - 지점 : V10O1611289, 날짜 : 201808290738, pm2.5 : 4406 /

   - 지점 : V10O1611698, 날짜 : 201804031938, pm2.5 : 6900 /

   <노원구>

   - 지점 : V10O1611097, 날짜 : 201807160538, pm2.5 : 4104 /

   - 지점 : V10O1611100, 날짜 : 201806160646, pm10 : 1057 /㎥ 

   - 지점 : V10O1611100, 날짜 : 201808311238, pm2.5 : 3803 /

   ====================================================

  

Q Analysis분야 퓨처스리그(항공지연예측) 문제 및 데이터 자주 묻는 질문 (ver. 8/13)
A

  

1. 항공기 지연확률 예측에 대한 평가 기준이 어떻게 되나요?

 

첫 번째로 지연건수에 대한 정확도를 평가하고, 두 번째로 정확도가 우수한 모델의 지연확률을 실제값과의 차이인 RMSE를 기준으로 최종 수상자를 결정합니다.

지연건수에 대한 정확도는 단순히 0(정상) 또는 1(지연) 으로 일괄 입력하는 등 임의의 값으로 입력하는 것을 방지하고자 AUROC(the Area Under a ROC Curve : ROC CURVE의 밑면적) 로 산출할 예정이며, 양성률(True Positive Rate; TPR; 1-위음성률이며 지연에 대해서 지연이라고 예측한 비율)과 위양성률(False Positive Rate; FPR, 정상운항인데 지연이라고 예측한 경우)을 기준으로 ROC Curve를 도출하고, 이를 바탕으로 AUROC를 산출하여 정확도의 지표로 사용할 예정입니다.

 

지연건수의 AUROC 가 높은 모델을 선정한 후, 지연확률을 실제값(지연일 경우 1, 정상운항은 0의 값을 사용)과 예측값에 대해 RMSE 기준으로 최종 모델의 우수성을 

평가할 예정이며, 수치 외 함께 제출한 설계 모델도 참고하니 함께 제출해주시기 바랍니다.

 

 

2. 인천공항의 데이터는 왜 포함되어 있나요?

 

설명회 내용과 같이 한국공항공사는 인천을 제외한 전국 14개의 공항을 운영하고 있습니다. 인천 데이터가 포함되어 있는 이유는 인천공항에서 해외로 나가는 항공편 중 한국공항공사가 운영하는 공항을 경유하는 항공편이 있기 때문입니다. (: 인천 김해 )

예를 들어 인천 괌으로 운항되는 항공편이 김해를 경유할 경우, 국토교통부에서 인가한 최종 스케줄에 인천 김해 노선은 국내선, 김해 괌 노선은 국제선이 됩니다.

인천 : 국제선

인천 김해 : 국내선

김해 : 국제선

 

한국공항공사가 인천공항을 운영하지는 않지만, 한국공항공사 공항에서 운항하는 국내선 항공편이 이번 대회 문제이므로 인천 한국공항공사 14개 공항 간 운항하는 

국내선편도 대상에 포함되었습니다.

 

 

3. 지연사유 중 A/C 접속(항공편 연결 지연) 은 무엇인가요?

 

A/C 접속 항공편 연결 지연은 하나의 항공기가 여러 공항을 운항하여야 하나 어느 한 공항에서 지연이 발생함에 따라 다음 운항편도 연쇄로 지연되는 경우를 말합니다.

예를 들어 김포 제주 A항공기가 제주 광주로 연결되어 운항하여야 하나, 처음 김포 제주에서 지연이 발생하여 다음 제주 광주 노선도 지연이 되는 경우입니다.

   

 

4. 항공기상청 데이터는 어디에 있나요?

 

일반 기상청과는 다른 항공기상청 사이트에 가셔야 데이터를 찾으실 수 있습니다.

http://amo.kma.go.kr/new/html/news/api.jsp

에서 METAR 데이터를 열람하시면 됩니다.



5. REG(등록기호)가 정확히 무엇을 의미하나요?


등록기호란 항공기의 일련번호입니다.

등록기호가 금번 대회에 활용될 수 있는 부분은 예를 들어 날짜가 같은 김포-제주 A111, 제주-김포 A1112편의 등록기호가 동일할 경우,

같은 항공기가 김포에서 제주, 제주에서 김포로 다시 돌아온 경우입니다. 항공기의 전체적인 이동흐름을 파악할 수 있고

설명회 때 말씀드린 A/C 접속(항공편연결 지연) 을 분석할 때 활용될 수 있을 것이라 사료되어 등록기호를 포함하여 제공했습니다.



6. 제공된 데이터에서 공항명이 apr1 2 3처럼 임의로 명시되어있던데, 정확한 공항명은 알 수 없는 건가요?


설명회에서 말씀드린대로 공항명, 등록기호 및 편명은 여러 관계기관의 제공 동의를 얻지 못하여 비식별화 처리했습니다. 

항공기 스케줄에서 계획시간과 날짜를 기준으로 조회하시면 공항과 상대공항을 유추하기에 용이하실 것으로 보입니다.



7. 출발만 있고 도착이 없거나, 도착만 있고 출발이 없는 항공편은 어떤 경우인가요?


출발과 도착이 쌍을 이루지 않는 경우는 해당 항공기가 왕복 노선이 아닌 다른 편으로 운항되었기 때문입니다

예를 들어, 김포->제주로 운항한 항공기가 제주-> 오사카 편으로 국제선으로 이용되기도 합니다.

국제선은 본 경연 데이터에 포함되지 않기 때문에 쌍을 이루지 않는 경우가 다수 발생합니다.



8. 916일부터 30일까지의 항공편의 지연을 예측해야하는 부분에 있어서, 결항을 예측하는것이 아닌데 

   테스트 데이터인 AFSNT_DLY 파일에서 실제로 결항된 항공편은 제외하여 성능을 평가하는지 궁금합니다


, 결항된 항공편 대회 문제에서 제외됩니다

문제 대상에 포함되지 않으니 9.16 ~ 9.30 내에 결항이 되었다면, 1 또는 0으로 채워주셔도 평가에서는 제외됩니다.

 


9. FLT 앞 부분 말고 뒤에 알파벳이 붙는 것은 어떤 의미인가요?

      A1821A F1711F F1712F H1961F I1559A I1941F

   위의 예시처럼 숫자 뒤에 붙은 AF의 의미가 궁금합니다.

 

맨 뒤에 알파벳이 붙은 이유는 같은 날짜에 같은 항공편이 있을 경우 구분하기 위하여 붙이는 경우가 대부분입니다.

예를 들면, 178166공항->3공항으로 도착하는 F1704편이 두 번 존재한다면,

하나는 F1704A, 나머지 운항편은 F1704 이런 식으로 구분합니다.

* 이와 별개로 T는 훈련비행 M은 항공기 시험비행(실제 운항 전 성능테스트), F는 회항 및 대체편 구분으로 많이 사용됩니다.



10. AFSNT_DLY 파일에 ARP 칼럼에 작은따옴표(‘) 표시가 있는데 무엇인가요?


엑셀에서 CSV 변환 중 오타가 함께 들어간 것으로 보입니다.  ARP의 누락부분은 ARP1입니다. 불편을 드려 죄송합니다. 



11. afsnt.csv 파일에서 AOD 피쳐가 A인 값이 도착을 의미하는데, 그러면 ARP 피쳐에 쓰인 공항에 도착한다는 것인지 궁금합니다.

     만약 위의 내용이 맞다면, AOD 피쳐가 A일 때 STT 피쳐의 값이 도착 계획시각을 의미하는 것인가요?


예를 들어 설명드리겠습니다.

ex) ARP      ODP    AOD    STT

     ARP3    ARP7      D     18:15

     ARP7    ARP3      A     19:00    인 경우,

ARP3 에서 ARP7 으로 18:15 에 출발 예정인 항공편이 ARP7 공항에 19:00 도착할 예정이다.

라고 해석하시면 됩니다

 

 


 

 

 12. 데이터 AFSNT_DLY.CSV와 SFSNT.CSV에는 항공사 'M' 관련 데이터가 있는데 AFSNT.CSV에는 항공사 'M'관련 자료가 없습니다.

   

 M항공사는 이번 정기 하계 스케줄에 처음으로 인가된 항공사로

기존에는 임시편 또는 소형항공기로만 운항하였습니다.

새로운 항공사를 추가한 이유는 항공사에 따른 지연 영향도가 거의 없으며,

신규 항공사는 지속적으로 추가되고 있기 때문에

추후 분석모델의 가용성과 확장성을 고려하여 제외하지 않고 추가하였습니다.

   

 

13. 항공기상청의 항공기상정보 공공데이터 METAR(XML)의 2017.01.01. ~ 2019.06.30. 데이터를 불러오는 방법을 알고 싶습니다.

   

METAR 데이터를 활용하기 어려우시면 같은 페이지에 있는 통계csv 파일을 다운받아 사용하시는 것이 좋을 것 같습니다.

예시 : http://amoapi.kma.go.kr/amoApi/air_stcs?icao=RKSI& yyyymm=201701

파라미터 중 icao = 공항명, yyyymm = 날짜를 변경하시면 원하는 공항과 날짜의 날씨를 추출하실 수 있습니다.



14. 데이터에서 출발시간보다 도착시간이 더 빠른 경우가 존재합니다. 


이런 경우는 조기출발편 또는 부정기 페리편(공기비행, 승객이 탑승하지 않는 항공편)에 해당합니다.

일반적으로 조기출발편은 실제시각이 계획시간보다 10분 내외로 조기 출발할 수 있지만, 시간 차이가 많이 발생하는 경우는 페리편에 해당하니 참고하시기 바랍니다.

 * 페리편 : 왕복 중 편도편만 운항, 나머지는 빈 항공기로 운항하거나 음 운항 목적지까지 운항하기 위해 빈 항공기로 이동하는 경우 

               또는 전세편의 경우, 탑승객의 요청으로 출발시간이 변경되기도 합니다. 



15. 예측할 데이터(AFSNT_DLY)에 있는 열 이외에 새로운 데이터를 추가해도 되나요? (ex. 기상 등등)


새로운 데이터를 추가하여 분석하셔도 됩니다. 

다만 공사 제공 데이터가 아닌 경우 데이터의 출처와 활용방법에 대해 상세히 명시해주시기 바랍니다. 



16. AFSNT_DLY는 제출용 데이터, AFSNT는 학습용 데이터임을 확인했는데 시즌 데이터에 포함되어 있는 SFSNT는 무엇인가요?

     

AFSNT 파일은 공모전 시작 당시 실제로 운항했던 운항실적데이터이며,

SFSNT는 하계 스케줄 데이터로 공모전 시작일 기준 아직 운항되지 않고 운항이 계획된 항공편입니다.

계획된 운항편은 등록기호를 알 수 없어(등록기호는 운항편이 확정된 후 운항 전 항공사에서 입력하는 데이터입니다.) 일부 컬럼이 차이가 나지만,

최대한 많은 정보를 제공하고자 SFSNT 파일을 추가로 제공하였습니다. 



17. 실체 예측해야 할 AFSNT_DLY데이터에는 REG(등록기호)가 존재하지 않습니다.


REG 데이터는  실제 운항 전 항공사에서 확정 배정한 항공기의 등록기호로서 

앞으로 운항될 항공기에 대한 등록기호는 미리 알 수 없습니다. 

AFSNT_DLY 데이터는 9월 중반 이후의 데이터로 항공편에 대한 항공기 배정이 끝나지 않은 상태이므로 사전에 제공하기 어려운 점 참고하시기 바랍니다. 

Q 지난 대회 이미지가 보입니다.
A

대회요강, 대회헤택등 지난 대회참가시 즐겨찾기를 하신경우

쿠키로 인해 이전대회 관련 이미지가 보이는 경우가 있습니다.

 

이런 경우에는 쿠키 삭제후 이용 부탁드립니다

 

IE기준 : 도구 > 인터넷옵션 > 일반탭에서 검색기록 삭제

 

Q 데이터 분석과 무관한 재직자는 참여 가능한가요?
A

빅데이터 관련 컨설팅, 솔루션 회사에 근무중이라면 부서와 무관하게 참여가 불가합니다.

(정규직, 인턴, 계약직 모두 포함)

 

일반인 수상자의 경우, 재직여부 확인을 위해 재직증명서 등을 요청할 수 있습니다.

Q 대회 문제별 개인과 팀으로 중복 참여가 가능한가요?
A

대회 참가는 개인 또는 팀(팀장/팀원)으로 중복 참여는 불가합니다.

(개인 또는 팀 참여를 선택한 후, 대회 문제별 중복 참여는 가능)

 

팀장, 팀원으로 소속되어 있을 경우, 개인으로 참여가 불가합니다.

팀으로 참여시, 다수의 팀을 구성하거나 타 팀의 팀원으로 참여가 불가하며 단일 팀으로만 참여가 가능합니다.

Q 제공되는 데이터를 개인적으로 이용이 가능한가요?
A

제공되는 데이터는 대회 참가용 이외에 이용이 불가합니다.

 

경진대회 참가신청시 제공되는 데이터는 대회기간중 대회 참가용으로만 이용이 가능하며,

대회 종료이후에는 일체 활용이 불가합니다.

상기 사항 위반으로 발생되는 문제에 대하여 민·형사상 책임은 참가자 본인에게 있습니다.

Q 분야별 중복 참가가 가능한가요?
A

대회 문제(총4개)별 중복 참가는 가능합니다.

 

다만, 중복 수상시 최상위 등급 1개만 시상합니다.

Q 설명회 불참시 불이익이 있나요?
A

설명회 불참에 따른 불이익은 없습니다.

 

7.17에 개최될 설명회에서는

대회 문제별 출제 의도, 평가방향 등에 대하여 상세한 설명 및 질의응답과

전년도 빅콘테스트 수상자 발표를 통한 노하우 공유가 있을 예정이오니 적극 참석하여 주시기 바랍니다.

Q 회원가입은 꼭 필요한가요?
A

본 대회는 빅데이터 분석을 통한 새로운 비지니스 모델 및 참신한 아이디어를 제시하고, 빅데이터 인재 발굴 및 육성을 취지로 개최됩니다.

회원가입을 한 참가자를 대상으로 빅데이터 인재Pool 등록, 취업 연계 프로그램 참여 지원 등의 서비스를 제공할 예정입니다.

 

회원가입을 하지 않더라도 대회 요강 등의 기본적인 정보는 확인이 가능하나, 대회 문제 데이터 등 일부 서비스 이용에 제한이 있을 수 있습니다.

  • 주최
  • NIA 한국정보화진흥원
  • KBD 빅데이터포럼
  • 주관
  • KAIT한국정보통신진흥협회
  • SK telecom
  • 신한카드
  • NCSOFT
  • 와이즈넛
  • gs리테일
  • 케이웨더
  • 한국공항공사
  • 후원
  • 과학기술정보통신부