상명대학교 학내언론사 학보사 | 학술 · 사회 게시판읽기(인공지능이 인간의 언어를 말하는 시대 … 한국어 기반 AI 언어 모델의 등장 )

제 696 호 인공지능이 인간의 언어를 말하는 시대 … 한국어 기반 AI 언어 모델의 등장

작성일 2021-09-02
좋아요 Like 0
조회수 9133

정유빈

전 세계가 주목하는 인공지능 언어처리

인공지능(AI, Artificial Intelligence)은 이미 의료, 문서 요약 및 번역, 대화 등 우리 일상 속 다양한 분야에서 활용되고 있다. 그 중에서도 특히 전 세계가 주목하는 기술은 자연스러운 언어처리를 통해 다채로운 AI 서비스를 만들어내는 것이 가능한 초거대 언어 모델이다. 인공지능 언어 모델은 자동 번역, 음성인식, 문장생성, 요약 및 분류 등을 할 수 있다는 것이 특징이다. 2018년 10월, 구글은 자연어 처리의 첨단 인공지능(AI) 언어 모델인 ‘BERT’를 출시했다. 곧바로 미국 AI 전문 기업인 오픈AI가 초거대 인공지능 ‘GPT-3’을 발표하는 등 글로벌 AI 업계는 다양한 연구와 과감한 투자로 언어 모델 분야에서 괄목할 만한 성과를 내었다. 이에 국내에서도 언어 모델 개발을 위한 AI 연구 역량을 점차 확대해 나가고 있다.

▲ 한국어 기반 초거대 언어 모델, 하이퍼클로바 (제공 : 네이버)

다양한 인공지능 언어 모델이 등장했지만, 기존에는 영어로 된 글로벌 AI 모델밖에 존재하지 않아 국내 AI 시장이 글로벌 시장에 종속된다는 우려의 목소리가 있었다. 하지만 올해 5월 네이버가 국내 기업 최초로 한국어 기반 언어 모델인 초대규모 인공지능 ‘하이퍼클로바(HyperCLOVA)’를 출시하며 AI 시장에서 존재감을 드러냈다.

수많은 데이터를 구축해야 하는 언어 모델 1세대, 딥러닝 기술을 도입한 2세대와 달리 하이클로바는 자기지도학습 방법을 사용하여 사람처럼 스스로 생각하고 창작할 수 있도록 설계되었다. 하이퍼클로바는 한국어 데이터를 이전 세대의 6,500배 이상 학습하였으며 현재 전 세계에서 가장 큰 한국어 초거대 언어모델이다. 네이버는 하이퍼클로바 개발을 위해 5,600억 개 토큰의 한국어 대용량 데이터를 구축하였는데, 이러한 기술을 네이버 서비스에 적용해 사용자들에게 차별화된 경험을 제공하고 있다.

국내 최초 한국어 기반 언어 모델 “하이퍼클로바”

국내 최초로 한국어 기반 언어 모델 개발에 성공한 네이버는 검색 서비스에 하이퍼클로바를 적용해 다양하고 새로운 기능을 선보였다. 사용자가 검색어를 잘못 입력하는 경우 올바른 단어로 전환하거나 적절한 검색어를 추천해 주는 기능이다. 이 기능은 앞으로 마케팅 문구 자동 작성이나 텍스트 요약 등의 작업에도 활용될 것으로 보인다. 또한, 하이퍼클로바의 딥러닝 기술을 음성인식 Ai에 접목하여 성능을 대폭 강화했다. 따라서 음성기록 서비스 클로바노트와 뉴스 자동 자막 서비스 등에 적용하여 서비스를 점차 확대할 예정이다.

▲쇼핑 리뷰 X HyperCLOVA (제공 : 네이버)

마치 사람이 작성한 리뷰처럼 신조어는 물론이고 매끄러운 문장을 생성하는 AI 언어 모델의 특징을 살려 네이버는 국내 최초 초대규모 인공지능인 ‘하이퍼클로바’를 기반으로 AI 리뷰 요약을 선보이기도 했다. 온라인 쇼핑몰에는 하루에도 수백만 건의 리뷰가 작성된다. 리뷰는 판매자가 제공하는 정보와 함께, 각 상품의 주요 특성을 사용자 관점에서 살펴볼 수 있어 매우 중요한 정보이다. 하지만 이러한 리뷰가 너무 많아서 모두 읽기 힘들기 때문에, 상품에 대한 정보수집과 구매 결정을 위한 시간과 노력이 비효율적으로 드는 문제가 발생한다. Ai 리뷰 요약은 상품 리뷰를 분석해 제품의 특성을 한 줄의 문장으로 추출하는 기능으로 수많은 리뷰를 모두 읽지 않아도 구매자들이 남긴 리뷰 요약본을 한눈에 파악할 수 있어 쇼핑하는 데 효율적이다. 그동안 국내외 쇼핑 서비스는 상품 리뷰에 필터를 적용하거나 일부를 선별해 상단에 보여주는 수준에 그쳤다면, 네이버가 선보이는 ‘AI 리뷰 요약’은 방대한 리뷰를 분석한 후 하나의 자연스러운 문장으로 만들어 낸다는 장점이 있다.

인간의 언어를 처리하는 AI 언어 모델

자연언어란, 누가 만들었는지 알 수 없이 아주 오래전부터 사용한 언어를 일컫는다. 반대로 C나 Java와 같은 각종 프로그래밍 언어, 수식 등 만든 이가 확실한 언어를 인공언어라고 부른다. 자연에서 만들어진 말과 글, 특히 이 글을 다루는 과정을 자연언어처리(NLP)라고 하는데, 인공지능 언어 모델은 자연 언어처리 기술로 대표된다. 인공지능 언어 모델은 글을 인지하고, 글 속에 담긴 의미를 해석하여 이해할 뿐만 아니라 문서 등 방대한 문자가 포함된 데이터로부터 정보를 수집하고 추출하여 분류하는 것까지 가능하다. 직접 인간의 언어로 구성된 글을 생성해낼 수 있는 AI는 심지어 신문 기사 작성을 위한 코드 작성을 하는 직관적인 능력까지 갖추고 있다. 이처럼 AI 언어모델은 일상 속에서 대화하고 글을 쓸 때 사용하는 인류의 언어를 자연스럽게 처리하는 능력이 있다.

개인정보 유출의 위험성도 존재

한편, 언어 모델을 비롯한 대규모 AI 모델이 우리 사회에 미칠 영향에 대해서도 주의를 기울일 필요가 있다. AI 모델이 학습데이터를 대상으로 높은 성능을 보이기 위해 특정 데이터를 암기하는데 문제는 만약 AI 모델이 암기한 데이터 안에 개인정보가 포함돼 있으면, 외부 공격자가 그 모델로부터 개인정보를 추출할 위험이 발생한다는 점이다. 따라서 이를 방지하기 위한 다양한 방법들이 연구되고 있다. 학습데이터에서 개인정보를 삭제하거나 다른 정보로 치환하는 방법 등이 있다. 앞으로 AI가 우리 사회에 가져올 수 있는 혁신과 위험을 균형 있게 수용할 수 있도록 접근해야 한다.

금융, 기업면접 등 다방면에서 활용되는 AI 언어 모델

일상에 편리함을 더해주는 인공지능 기반 서비스의 등장도 눈길을 끈다. 서울시는 인공지능 면접 체험 등 취업 지원 서비스를 운영하고 있다. 인공지능 면접 체험은 AI가 체험자의 개인별 강‧약점, 역량 수준 등을 객관적으로 파악할 수 있는 결과를 분석하고, 이를 바탕으로 인공지능 비대면 채용에 대비한 서비스를 제공하는 것이다. 인공지능 면접은 대기업·은행권·IT업계 등 다양한 기업으로 확산되고 있는 추세이다. 기존 면접 방식보다 참여 장벽이 낮고 채용담당자의 공정성 문제가 없어서 앞으로도 넓은 범위에서 활용될 예정이다.

▲ KB국민은행의 ‘AI 체험존’ ( 출처 : KB국민은행 )

위 사진은 KB국민은행 여의도 신관에 있는 ‘AI 체험존’이다. KB국민은행은 소비자들이 자사의 AI 기술을 체험해볼 수 있게 체험존을 운영하고 있다. 이곳에서는 키오스크에 있는 아바타와 아나운서를 통해 AI 가상 상담 서비스를 받을 수 있다. AI 상담 서비스로 음성 합성, 자연어 처리, 음성 인식 등 기술이 적용돼 실제 상담원과 같은 수준으로 상담할 수 있다. 또한 이 AI는 영상 분석을 통해 이상을 감지하고, 필기체 인식과 같은 서명 대조 범죄를 예방할 수 있다.

우리 일상 곳곳에 녹아들고 있는 인공지능

기술 발전으로 인해 우리의 삶은 더욱 편리해지고 있다. 초거대 언어 모델, 하이퍼클로바를 공개한 네이버는 AI 윤리 준칙 전문에서 “첨단 AI 기술을 누구나 쉽고 편리하게 활용할 수 있는 일상의 도구로 만들겠다”고 밝혔다. 하이퍼클로바를 활용한 AI 리뷰 요약 외에도 “클로바 케어 콜”이 코로나바이러스가 확산됨에 따라 확진자의 접촉자를 관리하는 업무에 활용되며 국민의 건강과 안전을 케어하는 도구로써 코로나19 방역을 도왔다. 또한 “클로바 램프”는 일상에서도 아이들에게 독서 경험을 제공해 독서습관을 길러주는 도구의 역할을 하고 있다.

이처럼 첨단 AI 기술은 문서 요약, 번역, 대화 등 다양한 경험을 선보이며 우리의 일상 곳곳에 녹아들고 있다. Big Ai의 가능성은 무궁히 열려있다. 앞으로도 대규모 유저 서비스에 상용화하기 위해 모델을 최적화하고 데이터 처리 속도를 개선하는 등 고도의 기술력이 뒷받침되어 더욱 발전된 모습을 보여줄 것으로 기대한다.

정유빈 기자, 김효정 수습기자

언론 정화인가, 언론에 물리는 재갈인가

구글 트렌드, 여론조사 대체할까?

학내 언론사

학술·사회