OmniVinci: 전-모달 이해를 위한 아키텍처와 데이터 강화 대형 언어 모델(LLM)
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
October 17, 2025
저자: Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang, Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, Sreyan Ghosh, Daguang Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Jason Lu, Oluwatobi Olabiyi, Frank Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin, Pavlo Molchanov
cs.AI
초록
머신 인텔리전스의 발전은 인간이 세상을 지각하는 방식과 유사하게 다중 모달리티에 걸쳐 지각할 수 있는 능력을 개발하는 것을 요구합니다. 우리는 강력한 오픈소스 오므니모달 대형 언어 모델(LLM)을 구축하기 위한 이니셔티브인 OmniVinci를 소개합니다. 우리는 모델 아키텍처와 데이터 큐레이션 전반에 걸친 설계 선택을 신중하게 연구했습니다. 모델 아키텍처 측면에서 우리는 세 가지 주요 혁신을 제시합니다: (i) 공유된 오므니모달 잠재 공간에서 비전과 오디오 임베딩 간의 정렬을 강화하는 OmniAlignNet; (ii) 비전과 오디오 신호 간의 상대적 시간적 정렬을 포착하는 Temporal Embedding Grouping; 그리고 (iii) 오므니모달 임베딩에 절대적 시간 정보를 인코딩하는 Constrained Rotary Time Embedding. 우리는 24M개의 단일 모달 및 오므니모달 대화를 생성하는 큐레이션 및 합성 파이프라인을 소개합니다. 우리는 모달리티들이 지각과 추론 모두에서 서로를 강화한다는 것을 발견했습니다. 우리의 모델인 OmniVinci는 DailyOmni(크로스모달 이해)에서 +19.05, MMAR(오디오)에서 +1.7, Video-MME(비전)에서 +3.9의 성능 향상을 보이며, 단지 0.2T의 학습 토큰을 사용했습니다. 이는 Qwen2.5-Omni의 1.2T에 비해 6배 감소한 수치입니다. 마지막으로, 우리는 로보틱스, 의료 AI, 스마트 팩토리에 이르는 다운스트림 애플리케이션에서 오므니모달의 장점을 입증합니다.
English
Advancing machine intelligence requires developing the ability to perceive
across multiple modalities, much as humans sense the world. We introduce
OmniVinci, an initiative to build a strong, open-source, omni-modal LLM. We
carefully study the design choices across model architecture and data curation.
For model architecture, we present three key innovations: (i) OmniAlignNet for
strengthening alignment between vision and audio embeddings in a shared
omni-modal latent space; (ii) Temporal Embedding Grouping for capturing
relative temporal alignment between vision and audio signals; and (iii)
Constrained Rotary Time Embedding for encoding absolute temporal information in
omni-modal embeddings. We introduce a curation and synthesis pipeline that
generates 24M single-modal and omni-modal conversations. We find that
modalities reinforce one another in both perception and reasoning. Our model,
OmniVinci, outperforms Qwen2.5-Omni with +19.05 on DailyOmni (cross-modal
understanding), +1.7 on MMAR (audio), and +3.9 on Video-MME (vision), while
using just 0.2T training tokens - a 6 times reduction compared to
Qwen2.5-Omni's 1.2T. We finally demonstrate omni-modal advantages in downstream
applications spanning robotics, medical AI, and smart factory.