(더이에스지뉴스 = 최봉혁기자) 카카오가 텍스트와 이미지를 이해하는 데 특화된 멀티모달 대형언어모델(LLM) 고도화 작업 중간 결과와 향후 개발 계획을 공개했다.
차범준 카카오 카나나알파 조직 개발자는 카카오테크 공식 기술 블로그를 통해 자체적으로 개발 중인 멀티모달 LLM ‘카나나-v’의 개발 진행 상황을 밝혔다. 카나나-v는 앞서 공개된 LLM ‘허니비’ 연구 성과를 기반으로 개발된 모델로, 이미지와 텍스트를 다루는 것을 목적으로 고도화가 진행 중이다.
글로벌 AI 모델 시장에서 멀티모달 LLM은 다양하지만, 한국어 기반 이미지에 대한 텍스트 추출·이해 능력에 특화된 모델은 찾아보기 힘든 실정이다. 카나나-v는 한국어를 기반으로 한 아날로그 문서 이미지에서 광학문자인식(OCR), 문서 이해, 포스터 그림·문자 이해 등에서 강점을 보인다.
차 개발자는 블로그에서 “자체 개발한 벤치마크로 타사 모델과 비교해 ‘한국형 지식’ 영역에서 두 번째로 높은 성능을 기록했다”며 “향후 한국형 지식 관련 데이터를 지속적으로 확보해, 해당 영역에서 가장 높은 성능을 달성할 수 있도록 개선할 계획”이라고 전했다.
한국어 특화에 집중한다고는 하지만, 글로벌 경쟁력도 등한시 할 수는 없다. 카카오는 고품질 영어 데이터도 활용해 카나나-v 모델 역량을 강화함과 동시에, 이를 한국어 도메인으로 확장하는 전략을 통해 효율성을 높일 계획이다. 영어 기반 성능은 모델 확장성과 글로벌 경쟁력을 확보하는 데 필수적이다.
차 개발자는 “고성능 멀티모달 언어모델을 학습하기 위해서는 고품질의 대규모 데이터셋이 필수”라며 “풍부한 양질 데이터를 확보하기 위해 많은 비용과 시간이 소요되며, 퍼블릭 데이터를 사용할 때에는 라이선스를 신경 써서 사용해야 한다”고 강조했다.
또한, 데이터 수집 및 학습 과정도 소개했다. 카나나-v에 영어 데이터를 추가할 때는 관련 직원이 데이터를 검토하고, 모델 학습에 적합하도록 전처리한다. 이후 정제한 데이터를 학습에 이용해 데이터의 가치를 판단하고 사용 양을 결정한다.
영어와 달리 한국어 경우, 멀티모달 언어모델을 위한 퍼블릭 데이터를 찾기 어렵기 때문에 대부분의 데이터를 개발자들이 직접 제작했다. 멀티모달 언어모델만을 위한 데이터가 아니더라도 사용 가능한 모든 한국어 데이터셋을 모았다. 카카오 그룹 내 확보하고 있던 한국어 데이터들과 AI HUB에 공개된 한국어 데이터를 가져왔다.
카나나-v 개발팀은 모은 데이터셋을 멀티모달 언어모델이 학습할 수 있도록 이미지에 대한 ‘질문-답변’ 형태로 변환했다. 기존 데이터셋에 따라 변환 과정이 다르며, 이미지만 활용하고 적절한 질문-답변을 새로 만들어야 했던 경우도 있었다.
차 개발자는 “결과적으로 데이터를 모았음에도 한국어 데이터는 상대적으로 부족했다”며 “모은 한국어 데이터가 적은 양은 아니었지만, 도메인 다양성이 부족했다”고 말했다.
개발팀은 데이터가 부족한 도메인을 살펴보고, 필요한 데이터의 품질과 종류에 따라 수집 방법을 추가하는 해결책을 고안했다. 고품질 데이터가 필요한 경우 직접 이미지를 모으고 어노테이션(각 데이터에 태그를 지정하는 과정)을 수행해 데이터셋을 구축했다.
마지막으로 차 개발자는 “현재 카카오에서는 카나나-v 외에도 통합 멀티모달 언어모델 카나나-o를 개발 중”이라며 “2025년에는 비디오 입력까지 처리할 수 있는 모델로 확장할 예정이다. AI가 우리 일상에 보다 실질적인 도움을 주는 진정한 파트너로 발전하길 기대한다”고 강조했다.
미래사회의 AI 기대 효과
멀티모달 LLM의 발전은 단순히 텍스트와 이미지를 이해하는 것을 넘어, 다양한 형태의 데이터와 상호작용할 수 있는 AI 모델의 탄생을 의미한다. 미래에는 이러한 기술이 일상에서 보다 광범위하게 사용될 수 있다.
1. 교육 분야: AI는 학생 개개인의 학습 스타일에 맞춘 맞춤형 교육을 제공할 수 있다. 복잡한 개념을 시각적으로 설명하거나, 학생들의 이해도를 실시간으로 평가하여 학습 계획을 조정하는 것이 가능해질 것이다.
2. 의료 분야: AI는 의료 영상과 텍스트 기록을 분석하여 질병을 조기에 진단하고, 개인별 맞춤 치료법을 추천하는 등 의료 서비스의 질을 크게 향상시킬 수 있다.
3. 업무 자동화: 문서 처리, 데이터 분석 등의 업무를 AI가 대신함으로써, 사람들은 보다 창의적이고 전략적인 업무에 집중할 수 있게 될 것이다.
4. 고객 서비스: 멀티모달 AI는 텍스트, 음성, 이미지 등의 다양한 입력을 이해하고 처리함으로써, 보다 인간적인 고객 서비스를 제공할 수 있다.
5. 스마트 도시: 교통 관리, 에너지 효율화, 환경 모니터링 등 스마트 도시의 다양한 요소에 AI가 적용되어 도시 생활의 편의성과 효율성을 높일 수 있다.
카카오의 멀티모달 LLM인 카나나-v와 향후 계획된 카나나-o는 이러한 미래 사회의 일환으로, AI가 우리 생활에 실질적인 도움을 줄 수 있도록 지속적으로 발전해 나가고 있다.
https://www.esgre100.com/news/articleView.html?idxno=599
'키워드' 카테고리의 다른 글
[사자성어한문풀이]사분오열(四分五裂),살인멸구(殺人滅口),소이부답(笑而不答) (3) | 2024.12.13 |
---|---|
[사자성어한문풀이]단비구도(斷臂求道)/단비구법(斷臂求法) (4) | 2024.12.13 |
[RE100]한국을 위한 재생에너지의 미래: RE100과의 협력 (2) | 2024.12.03 |
소상공인시장진흥공단_상가(상권)정보_20240930 (1) | 2024.11.28 |
1138회 로또 당첨번호 조회결과 1등 14명 19억씩 (1) | 2024.09.21 |