카카오 테크블로그 리뷰: 카나나-o 개발기전세계 A > 기타문의

본문 바로가기

팝업레이어 알림

팝업레이어 알림이 없습니다.

  • 고객지원 기타문의
  • 기타문의

    카카오 테크블로그 리뷰: 카나나-o 개발기전세계 A

    페이지 정보

    작성자 oreo 댓글 0건 조회 9회 작성일 25-05-07 13:27

    본문

    카카오 테크블로그 리뷰:카나나-o 개발기전세계 AI 산·학·연이 공개하는 AI 논문, 연구 결과 중에는 꽤 흥미로운 주제가 많습니다. 다만 대부분 복잡하고 읽기 어렵습니다. 일반인도 AI 트렌드 추종에 유익한 인사이트로 활용할 수 있도록, 이를 AI리서치뷰로 쉽게 압축해 드립니다. <편집자주>[디지털데일리 이건한 기자] 최근 전세계 AI 패권 경쟁에 한국이 뒤쳐졌다는 위기감이 높아지면서 국내 AI 선두기업들은 추격의 고삐를 바짝 죄고 있습니다. 그중 카카오는 지난해 '카나나(Kanana)'라는 브랜드의 자체 AI 모델 라인업 확정 이후 텍스트부터 이미지, 오디오까지 통합 처리할 수 있는 한국형 '멀티모달 AI' 개발에 전념 중인데요. 특히 카카오 같은 기업의 AI 모델은 우리가 널리 사용하는 일상 서비스들과도 밀접한 연관성을 갖습니다. 그만큼 개발 현황과 전략, 성능과 품질 등에도 자연스레 관심이 쏠립니다.텍스트-이미지-음성 등을 통합 처리할 수 있게 된 카나나-o 개발 과정을 묘사한 이미지 (ⓒ ChatGPT gen)■ 읽어볼 이유지난 1일 카카오 테크블로그에 게시된 '카나나-o' 개발기는 카카오가 글로벌급 AI 모델 개발 경쟁에서 신속한 추격을 위해 어떤 전략을 취하고 있는지, 또한 한국어 특화 멀티모달AI 개발의 의미는 무엇인지 생각해볼만한 이야기를 담고 있습니다. 참고로 현재 카나나 라인업은 이미지 처리에 특화된 'Kanana-v(비전)', 음성 처리에 특화된 'Kanana-a(오디오)', 텍스트, 이미지, 음성 통합 처리를 지원하는 'Kanana-o(옴니)' 등의 모델로 구분됩니다. 카카오는 지난해 말 'Kanana-v'에 관한 상세 내용을 미리 공개했고 이번 개발기에서는 카나나 'a'와 'o' 버전에 대한 현황을 소개했습니다.카나나 AI 모델 라인업 (ⓒ 카카오)■ 핵심 내용① 카나나-a: 음성은 글자 다음으로 편리한 입력 수단입니다. 하지만 “안녕하세요” 같은 1초짜리 문장도 텍스트가 아닌 음성 데이터로 전환하면 무려 1만6000개의 연속된 숫자 데이터로 변환됩니다. 이를 AI에게 그대로 전달할 경우 막대한 연산량(서비스 비용)과 지연(반응속도)이 발생하므로 음성 AI 모델은 데이터 처리에 관한 효율화 노하우가 중요합니다.카카오는 우선 96개 언어에 대한 정확한 음성인식, 카카오 테크블로그 리뷰:카나나-o 개발기전세계 AI 산·학·연이 공개하는 AI 논문, 연구 결과 중에는 꽤 흥미로운 주제가 많습니다. 다만 대부분 복잡하고 읽기 어렵습니다. 일반인도 AI 트렌드 추종에 유익한 인사이트로 활용할 수 있도록, 이를 AI리서치뷰로 쉽게 압축해 드립니다. <편집자주>[디지털데일리 이건한 기자] 최근 전세계 AI 패권 경쟁에 한국이 뒤쳐졌다는 위기감이 높아지면서 국내 AI 선두기업들은 추격의 고삐를 바짝 죄고 있습니다. 그중 카카오는 지난해 '카나나(Kanana)'라는 브랜드의 자체 AI 모델 라인업 확정 이후 텍스트부터 이미지, 오디오까지 통합 처리할 수 있는 한국형 '멀티모달 AI' 개발에 전념 중인데요. 특히 카카오 같은 기업의 AI 모델은 우리가 널리 사용하는 일상 서비스들과도 밀접한 연관성을 갖습니다. 그만큼 개발 현황과 전략, 성능과 품질 등에도 자연스레 관심이 쏠립니다.텍스트-이미지-음성 등을 통합 처리할 수 있게 된 카나나-o 개발 과정을 묘사한 이미지 (ⓒ ChatGPT gen)■ 읽어볼 이유지난 1일 카카오 테크블로그에 게시된 '카나나-o' 개발기는 카카오가 글로벌급 AI 모델 개발 경쟁에서 신속한 추격을 위해 어떤 전략을 취하고 있는지, 또한 한국어 특화 멀티모달AI 개발의 의미는 무엇인지 생각해볼만한 이야기를 담고 있습니다. 참고로 현재 카나나 라인업은 이미지 처리에 특화된 'Kanana-v(비전)', 음성 처리에 특화된 'Kanana-a(오디오)', 텍스트, 이미지, 음성 통합 처리를 지원하는 'Kanana-o(옴니)' 등의 모델로 구분됩니다. 카카오는 지난해 말 'Kanana-v'에 관한 상세 내용을 미리 공개했고 이번 개발기에서는 카나나 'a'와 'o' 버전에 대한 현황을 소개했습니다.카나나 AI 모델 라인업 (ⓒ 카카오)■ 핵심 내용① 카나나-a: 음성은 글자 다음으로 편리한 입력 수단입니다. 하지만 “안녕하세요” 같은 1초짜리 문장도 텍스트가 아닌 음성 데이터로 전환하면 무려 1만6000개의 연속된 숫자 데이터로 변환됩니다. 이를 AI에게 그대로 전달할 경우 막대한 연산량(서비스 비용)과 지연(반응속도)이 발생하므로 음성 AI 모델은 데이터 처리에 관한 효율화 노하우가 중요합니다.카카오는 우선 96개 언어에 대한 정확한 음성인식, 초당 1만6000개의 음성데이터를 50개의

    댓글목록

    등록된 댓글이 없습니다.


(주)한야대표이사 : 신성용사업자등록번호 : 306-81-24189
대전광역시 유성구 테크노2로 284TEL : 042-933-0808FAX : 042-933-0809
ⓒ 주식회사 한야. All Rights Reserved.