The Korean Question Answering Dataset
What is KorQuAD 2.0?
KorQuAD 2.0은 KorQuAD 1.0에서 질문답변 20,000+ 쌍을 포함하여 총 100,000+ 쌍으로 구성된 한국어 Machine Reading Comprehension 데이터셋 입니다. KorQuAD 1.0과는 다르게 1~2 문단이 아닌 Wikipedia article 전체에서 답을 찾아야 합니다. 매우 긴 문서들이 있기 때문에 탐색 시간에 대한 고려가 필요할 것 입니다. 또한 표와 리스트도 포함되어 있기 때문에 HTML tag를 통한 문서의 구조 이해도 필요합니다. 이 데이터셋을 통해서 다양한 형태와 길이의 문서들에서도 기계독해가 가능해질 것 입니다.
Getting Started
KorQuAD 2.1의 전체 데이터는 47,957 개의 Wikipedia article에 대해 102,960 개의 질의응답 쌍으로, Training set 83,486 개, Dev set 10,165 개의 질의응답쌍으로 구분하였습니다. KorQuAD 2.0 데이터 중 HTML 태그의 속성이 완벽하게 제거되지 않은 오류를 수정하여 재배포한 데이터셋으로, KorQuAD 2.0의 태그 속성을 제외한 원본과 정답 텍스트가 바뀌는 경우는 없습니다.
KorQuAD 2.0의 데이터셋은 CC BY-ND 2.0 KR 라이센스를 따릅니다.
Codalab을 통한 모델 제출시 테스트 스코어 계산 및 리더보드를 통한 스코어 공개에 동의한 것으로 간주합니다. 참고로 제출한 모델 및 소스 코드 등에 대해서는 참가자가 직접 라이센스를 부여하고 이를 명시할 경우 그에 따릅니다.
모델을 평가하기 위한 공식적인 evaluation script와 입력 샘플 prediction 파일을 제공합니다. 평가를 실행하려면 python evaluate-korquad_2.0.py [path_to_dev-2.0] [path_to_predictions] 를 입력하세요.
Dev set에 대해 만족하는 모델을 만들었다면 공식 점수를 얻고 leaderboard에 올리기 위해 모델을 제줄하세요. 무분별한 제출을 방지하는 차원에서 일주일에 하나의 모델을 제출하는 것으로 제한합니다. 테스트 결과의 무결성을 위하여 Test set은 공개되지 않습니다. 대신 모델을 제출하여 Test set에서 실행할 수 있도록 해야 합니다. 다음은 모델의 공식적인 평가를 위한 과정 안내 튜토리얼입니다.
Leaderboard
KorQuAD 2.0의 Test set으로 평가한 Exact Match(EM) 및 F1 score 입니다.
Rank | Reg. Date | Model | EM | F1 |
---|---|---|---|---|
- | 2019.09.05 | Human Performance | 68.82 | 83.86 |
1 | 2023.10.28 | EXAONE-LM-v1.0
LG AI Research |
79.26 | 90.93 |
2 | 2022.03.08 | LittleBird-large (single model)
KakaoEnterprise - Minchul Lee, DongHyun Choi, Seung Woo Cho, Ae Lim Ahn https://arxiv.org/abs/2210.11870 |
78.70< | 90.22 |
3 | 2022.09.02 | LAYN (single model)
Naver Search Language and Vision (Soonhwan Kwon & Sunghyun Park |
78.06 | 89.99 |
4 | 2020.09.21 | SDS-NET v1.3 (single model)
Samsung SDS AI Research |
77.86 | 89.82 |
5 | 2020.08.28 | Ko-LongBERT (single model)
LAIR |
77.88 | 89.62 |
6 | 2020.08.28 | SkERT-Large 1.1 (single model)
Skelter Labs |
77.44 | 88.81 |
7 | 2020.07.01 | SDS-NET v1.2 (single model)
Samsung SDS AI Research (Bae & Kwon) |
76.73 | 88.78 |
8 | 2022.02.09 | LittleBird-base (single model)
KakaoEnterprise - Minchul Lee, DongHyun Choi, Seung Woo Cho, Ae Lim Ahn https://arxiv.org/abs/2210.11870 |
76.66 | 88.57 |
9 | 2020.06.24 | SkERT-Large (Single model)
Skelter Labs |
76.64 | 88.09 |
10 | 2020.05.03 | SDS-NET v1.1
Samsung SDS AI Research (Bae & Kwon) |
73.87 | 86.81 |
11 | 2020.04.29 | SDS-NET (single model)
Sanghwan Bae & Soonhwan Kwon |
73.51 | 86.56 |
12 | 2020.08.31 | anonymous-baseline (single model)
Anonymous |
71.24 | 86.37 |
13 | 2020.06.22 | SkERT-Large (Single model)
Skelter Labs |
73.29 | 86.03 |
14 | 2020.06.15 | CNS-BERT (single model)
Seungyoung Lim |
70.67 | 83.57 |
15 | 2020.04.20 | LaRva (single model)
NAVER Clova AI LaRva |
66.95 | 83.54 |
16 | 2022.11.08 | LDCC-LM (single model)
Lotte Data Communication AI Technical Team |
69.07 | 83.06 |
17 | 2021.05.03 | SkERT-Petit 1.1 (single model)
Skelter Labs |
68.5 | 82.93 |
18 | 2020.02.21 | CNS-BERT (single model)
Seungyoung Lim |
68.39 | 82.62 |
19 | 2020.03.10 | CNS-BERT_light (single model)
Seungyoung Lim |
66.96 | 80.48 |
20 | 2020.11.18 | table_plus (single model)
Anonymous |
59.20 | 77.52 |
21 | 2020.12.04 | SkERT-Petit 1.0 (single model)
Skelter Labs |
62.36 | 77.49 |
22 | 2020.01.29 | onepick-open-simple (single model)
SeoHyeong Jeong |
58.21 | 77.33 |
23 | 2020.11.02 | bert-base_model (single model)
Anonymous |
57.33 | 75.87 |
24 | 2019.12.23 | HanBert-54k-N (single model)
TwoBlock Ai |
55.28 | 71.19 |
25 | 2019.12.24 | HanBert-90k-N (single model)
TwoBlock Ai |
54.28 | 70.44 |
26 | 2019.11.28 | KNU-baseline (single model)
Kangwon National University, Intelligent Software Lab. |
26.53 | 66.69 |
- | 2019.09.05 | Baseline | 30.24 | 45.96 |
KorQuAD 2.0의 Test set으로 평가한 Time (ms), Exact Match(EM) 및 F1 score 입니다.
Rank | Reg. Date | Model | 1-example Latency | EM | F1 |
---|---|---|---|---|---|
1 | 2020.12.04 | SkERT-Petit 1.0 (single model)
Skelter Labs |
882 ms | 62.36 | 77.49 |
2 | 2021.05.03 | SkERT-Petit 1.1 (single model)
Skelter Labs |
1134 ms | 68.5 | 82.93 |
3 | 2020.01.29 | onepick-open-simple (single model)
SeoHyeong Jeong |
1629 ms | 58.21 | 77.33 |
4 | 2019.12.24 | HanBert-90k-N (single model)
TwoBlock Ai |
1642 ms | 54.28 | 70.44 |
5 | 2019.12.23 | HanBert-54k-N (single model)
TwoBlock Ai |
1675 ms | 55.28 | 71.19 |
6 | 2022.02.09 | LittleBird-base (single model)
Anonymous |
2286 ms | 76.66 | 88.57 |
7 | 2020.03.10 | CNS-BERT_light (single model)
Seungyoung Lim |
2396 ms | 66.96 | 80.48 |
8 | 2020.08.31 | anonymous-baseline (single model)
Anonymous |
3362 ms | 71.24 | 86.37 |
9 | 2019.11.28 | KNU-baseline (single model)
Kangwon National University, Intelligent Software Lab. |
3684 ms | 26.53 | 66.69 |
10 | 2022.11.08 | LDCC-LM (single model)
Lotte Data Communication AI Technical Team |
3697 ms | 69.07 | 83.06 |
11 | 2020.02.21 | CNS-BERT (single model)
Seungyoung Lim |
3903 ms | 68.39 | 82.62 |
12 | 2020.06.15 | CNS-BERT (single model)
Seungyoung Lim |
4257 ms | 70.67 | 83.57 |
13 | 2020.11.02 | bert-base_model (single model)
Anonymous |
4856 ms | 57.33 | 75.87 |
14 | 2020.11.18 | table_plus (single model)
Anonymous |
5990 ms | 59.20 | 77.52 |
15 | 2020.04.20 | LaRva (single model)
NAVER Clova AI LaRva |
6015 ms | 66.95 | 83.54 |
16 | 2022.03.08 | LittleBird-large (single model)
Anonymous |
6157 ms | 78.70 | 90.22 |
17 | 2020.07.01 | SDS-NET v1.2 (single model)
Samsung SDS AI Research (Bae & Kwon) |
7851 ms | 76.73 | 88.78 |
18 | 2020.05.03 | SDS-NET v1.1
Samsung SDS AI Research (Bae & Kwon) |
8869 ms | 73.87 | 86.81 |
19 | 2020.04.29 | SDS-NET (single model)
Sanghwan Bae & Soonhwan Kwon |
8875 ms | 73.51 | 86.56 |
20 | 2020.08.28 | Ko-LongBERT (single model)
LAIR |
10047 ms | 77.88 | 89.62 |
21 | 2020.08.28 | SkERT-Large 1.1 (single model)
Skelter Labs |
10047 ms | 77.44 | 88.81 |
22 | 2020.09.21 | SDS-NET v1.3 (single model)
Samsung SDS AI Research |
10434 ms | 77.86 | 89.82 |
23 | 2020.06.24 | SkERT-Large (Single model)
Skelter Labs |
10434 ms | 76.64 | 88.09 |
24 | 2020.06.22 | SkERT-Large (Single model)
Skelter Labs |
11593 ms | 73.29 | 86.03 |
25 | 2022.09.02 | LAYN (single model)
Naver Search Language and Vision (Soonhwan Kwon & Sunghyun Park |
15071 ms | 78.06 | 89.99 |
26 | 2023.10.28 | EXAONE-LM-v1.0
LG AI Research |
23020 ms | 79.26 | 90.93 |
- | 2019.09.05 | Baseline | 13484 ms | 30.24 | 45.96 |