보도자료 배포 서비스 뉴스와이어가 제공합니다.
뉴스와이어 제공

서울공대 전기정보공학부 도재영 교수팀, 글자·사진·소리·영상 동시에 이해하고 만드는 차세대 통합 AI 파운데이션 모델 ‘Dynin-Omni’ 개발

‘읽기’와 ‘쓰기’ 하나로 합쳐… ChatGPT 등 기존 인공지능 한계 극복
19개 글로벌 AI 성능 지표 평가서 기존 모델 능가해 세계적 수준 성능 증명
로봇·AI 비서·스마트 기기 등 다양한 산업의 핵심 지능 역할 기대돼

2026-04-07 08:55 출처: 서울대학교 공과대학

왼쪽 상단에서 시계방향으로 서울대학교 전기정보공학부·협동과정 인공지능전공 도재영 교수, 김재익 연구원, 김우진 연구원, 홍지환 연구원, 이예준 연구원, 현시은 연구원, 임민택 연구원, 한윤석 연구원, 김도근 연구원, 이호은 연구원, 김형근 연구원, 김진혁 연구원

서울--(뉴스와이어)--서울대학교 공과대학은 전기정보공학부 도재영 교수 연구팀(AIDAS 연구실)이 글자, 사진, 영상, 소리를 하나의 모델이 동시에 이해하고 만들어낼 수 있는 차세대 인공지능(AI) 파운데이션 모델 ‘Dynin-Omni’를 개발했다고 밝혔다.

연구진은 AI 모델이 모든 감각 정보를 동시에 처리하는 혁신적 구조를 설계해 정보를 순서대로 하나씩 생성하는 ChatGPT 방식의 문제점을 해결했다. 글자부터 영상까지 모든 정보를 단일 모델이 동시에 이해하고 생성하는 진정한 ‘올인원’ 옴니모달(Omnimodal)* AI를 세계 최초로 구현한 것이다.

* 옴니모달: 하나의 AI가 모든 형태의 데이터를 통합적으로 이해하고 처리하는 능력

이 기술은 향후 로봇, AI 비서, 스마트 기기처럼 AI 모델이 여러 형태의 정보를 동시에 이해하고 즉각 반응해야 하는 다양한 산업 분야에서 핵심 지능으로 활용될 것으로 기대된다.

연구 배경

최근 AI는 글자는 물론이고 사진, 소리, 영상까지 다루며 빠르게 발전하고 있다. 그러나 현실에서 사람과 자연스럽게 소통하려면 단순히 정보를 읽는 기능을 넘어 복합적인 상호작용 능력이 필요하다. 예를 들어 사람의 말을 듣고 즉시 그림을 그리거나 영상을 분석해 음성으로 설명하는 기능은 사람처럼 여러 감각을 동시에 사용하는 ‘통합 지능’이 있어야 구현할 수 있다.

하지만 기존 AI 시스템은 정보를 이해하는 기능과 만드는 기능을 따로 떼어 놓거나 여러 AI 모델을 복잡하게 이어 붙여 사용했기 때문에 다양한 형태의 정보를 유기적으로 처리하는 데 한계가 있었다. 특히 하나의 모델이 모든 감각 정보를 동시에 이해하고 결과물까지 직접 만들어내는 ‘완전 통합형’ 구조는 기술 구현이 매우 어려운 과제로 꼽혀왔다.

연구 성과

이러한 한계의 극복에 나선 연구팀은 하나의 모델이 모든 정보를 통합적으로 처리하는 구조를 설계해 차세대 통합 AI 파운데이션 모델인 ‘Dynin-Omni’를 개발하는 데 성공했다. 이 모델은 글자, 사진, 영상, 소리를 한데 묶어 처리하며, 정보를 이해하고 결과를 생성하기까지의 모든 과정을 하나의 모델 안에서 동시에 수행한다.

Dynin-Omni의 핵심 차별점은 세 가지다.

첫째, 모든 정보를 하나의 방식으로 통합해 처리한다. 기존 AI는 이미지나 음성 정보를 글자 중심으로 해석했다면 Dynin-Omni는 모든 정보를 동일한 기준에 따라 있는 그대로 동시에 이해한다. 덕분에 변환 과정 없이도 서로 다른 형태의 정보를 더욱 정확하고 유기적으로 연결할 수 있다.

둘째, 결과물 전체를 한꺼번에 생성한 뒤 정교하게 다듬는 ‘디퓨전(diffusion) 방식*’으로 속도를 높인다. ChatGPT 등과 같이 단어를 하나씩 순서대로 생성하는 기존 방식과 달리 Dynin-Omni는 결과물 전체의 윤곽을 먼저 잡는 동시에 완성도를 높인다. 따라서 영상이나 음성처럼 용량이 큰 데이터도 더 빠르고 효율적으로 처리할 수 있다.

* 디퓨전 방식: 결과물 전체를 한 번에 생성한 뒤 반복적인 연산을 통해 품질을 정밀하게 높여 완성하는 기술

셋째, 이해하는 지능과 만드는 기능을 하나의 모델로 합쳤다. 여러 AI 모델을 복잡하게 조립해 사용하던 기존 방식과 달리 Dynin-Omni라는 하나의 지능이 사람처럼 보고, 듣고, 말하는 모든 과정을 끊김 없이 수행한다.

Dynin-Omni의 성과는 실제 성능 평가에서도 두드러졌다. 총 19개의 글로벌 AI 성능 지표 평가(벤치마크)에서 Dynin-Omni는 정보 추론, 영상 이해, 이미지 생성 및 편집, 소리 처리 등 다양한 작업에서 기존에 공개된 통합 모델들을 앞지르는 성과를 거뒀다. 특히 특정 분야에만 특화된 전문가용 AI 모델들과 비교해도 뒤지지 않는 우수한 성능을 입증했다. 그리고 Dynin-Omni는 기존 통합 AI 모델 대비 최대 4~5배 빠른 생성 속도를 구현하며 속도 측면에서도 강점을 보였다.

기대 효과

이번 연구는 AI가 사람처럼 보고, 듣고, 말하는 모든 감각을 하나의 ‘뇌’로 통합했다는 점에서 그 의미가 깊다. 이 기술을 활용하면 우리 주변의 AI 비서가 목소리뿐만 아니라 사진과 영상까지 한꺼번에 이해하고 즉각 반응하는 수준으로 진화할 수 있다. 또한 여러 개의 AI를 복잡하게 연결할 필요가 없어 서비스가 한층 빠르고 가벼워진다.

무엇보다도 하나의 모델이 다양한 감각 정보를 동시에 처리하도록 설계됐기 때문에 공장, 의료, 주거 공간 등 새로운 환경에서도 별도의 모델 재구성 없이 즉시 적용할 수 있다는 것이 큰 강점이다. 특히 로봇이 스스로 주변 상황을 판단하고 행동해야 하는 현실 세계에서 Dynin-Omni의 통합 구조는 핵심적 역할을 수행할 것으로 기대된다. 따라서 이 모델은 AI가 화면 속 세계를 넘어 우리 곁의 로봇이나 스마트 기기를 통해 실제 삶의 문제를 해결하는 ‘피지컬 AI(Physical AI)’ 시대를 앞당길 강력한 핵심 기술로 자리매김할 전망이다.

연구진 의견

연구를 지도한 도재영 교수는 “이번 연구는 AI가 정보를 이해하는 능력과 결과물을 만들어내는 능력을 하나로 합쳐 글자나 이미지 등 다양한 정보를 사람처럼 동시에 처리하는 통합 AI의 가능성을 열었다는 점에서 큰 의미가 있다”며 “앞으로는 단순히 화면 속 데이터를 처리하는 수준을 뛰어넘어 사람과 실시간으로 소통하며 현실 세계에서 직접 작동하는 지능형 로봇이나 스마트 기기처럼 우리 삶에 실질적 도움을 주는 기술로 연구를 확장해 나갈 계획”이라고 밝혔다.

후속 연구

최근 전 세계적으로 AI 연구의 주도권은 기존의 거대 기업에서 대학 중심의 혁신적 연구로 빠르게 옮겨가고 있다. 중국 칭화대의 ‘GLM’ 시리즈나 상하이 AI 실험실의 ‘InternLM’처럼 대학이 모델을 처음부터 직접 설계하고 학습시키며 국가의 AI 경쟁력을 이끄는 사례가 대표적이다.

이번 연구를 주도한 핵심 연구진들은 앞으로도 서울대 AI 및 빅데이터 시스템(AIDAS) 연구실에서 학업과 연구를 병행하며 Dynin-Omni를 더욱 정교하고 강력한 모델로 발전시켜 나갈 계획이다. 특히 이번 모델을 한국을 대표하는 통합 옴니모달 AI 시리즈의 첫 출발로 삼아 처리 속도와 정확도를 높이는 한편, 이를 로봇의 두뇌로 활용해 실제 현실 세계에서 정교하게 움직이는 Physical AI 모델(Dynin-Robotics)로 연구 범위를 확장할 계획이다. 나아가 국내 연구 생태계와 긴밀히 협력해 한국이 글로벌 옴니모달 AI 분야에서 독보적 위상을 확보할 수 있도록 연구의 깊이를 더해 나갈 예정이다.

한편 이번 연구는 한국연구재단 이공분야 기초연구사업(우수신진)과 과학기술정보통신부 및 정보통신산업진흥원의 ‘고성능 컴퓨팅 지원사업’의 지원으로 수행됐다.

※ 참고자료

- 연구 소개 페이지: https://dynin.ai/omni

이 뉴스는 기업·기관·단체가 뉴스와이어를 통해 배포한 보도자료입니다. 배포 안내 >
뉴스와이어 제공