kordic.txt 파일은 국립국어원 "표준국어대사전 자료"의 "6개 사전의 표제어 목록 DB"에서 추출한 자료입니다.
옛한글은 첫가끝 코드로 변환하였으며, UTF-8 인코딩으로 저장하였습니다.

각 열은 아래 설명에 있는 num, lemma, lemindex, kum, min, sam, uri, nor, seo, origin순으로 정렬되어 있으며,
각 열은 Tab으로 구분되어 있습니다.

이 자료는 저작권이 어디에도 속하지 않은 "Public Domain" 입니다.

== 국립국어원의 설명 ==
연구원에서 오려 붙인 6개 사전의 목록을 관리하던 파일입니다. 6개 사전은 금성출판사, 민중서림, 삼성출판사, 한글학회에서 나온 우리말 큰사전과 북한에서 간행된 조선말사전(1962), 조선말대사전(1992)입니다. 원래 폭스프로(foxpro)에서 파일로 작성된 것이지만 지금은 이 파일을 읽기가 쉽지 않아 액세스(access)로 전환한 것입니다. 입력한 후 제대로 수정을 하지 않았기 때문에 오류가 많습니다. 주의하시기 바랍니다. 그리고 액세스 파일로 전환하는 중에 일부 옛글자들은 깨져서 무슨 글자인지 알 수 없게 되었습니다. 또한 불필요한 필드는 삭제했습니다.

   각 필드의 내용은 다음과 같습니다.

   - num : 관리를 위해 각 단어별로 붙여둔 번호를 기록한 필드입니다. 자모는 영문자로 구분하고 뒤에 숫자로 각 단어를 구분하였습니다.

   - lemma : 표제어를 수록한 필드입니다. 사전에 나오는 기호를 그대로 사용하였는데 띄어쓰기가 된 단어에는 공백 대신 "$"를 넣었습니다. 동음이의어는 사전을 오려 붙인 순서대로 원내에서 번호로 구분하였습니다.

   - lemindex : lemma 필드의 내용 중에서 각종 기호를 삭제하고 한글과 숫자만 남긴 필드입니다. 인덱스나 검색을 위해 만든 필드입니다.

   - kum, min, sam, uri, nor, seo : 사전별로 표제어의 수록 여부를 기록한 필드입니다.(1:주표제어, 2:부표제어)

   - origin : 원어를 기록한 필드입니다. 나중에 추가했기 때문에 원어 정보가 기록되지 않은 경우도 있습니다. 


