OmniVinci : Amélioration de l'architecture et des données pour une compréhension omni-modale LLM
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
October 17, 2025
papers.authors: Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang, Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, Sreyan Ghosh, Daguang Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Jason Lu, Oluwatobi Olabiyi, Frank Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin, Pavlo Molchanov
cs.AI
papers.abstract
Le progrès de l'intelligence artificielle nécessite le développement de la capacité à percevoir à travers plusieurs modalités, à l'instar de la manière dont les humains perçoivent le monde. Nous présentons OmniVinci, une initiative visant à construire un modèle de langage omni-modal (LLM) robuste et open-source. Nous étudions minutieusement les choix de conception concernant l'architecture du modèle et la curation des données. Pour l'architecture du modèle, nous proposons trois innovations clés : (i) OmniAlignNet pour renforcer l'alignement entre les embeddings visuels et audio dans un espace latent omni-modal partagé ; (ii) le regroupement temporel des embeddings pour capturer l'alignement temporel relatif entre les signaux visuels et audio ; et (iii) l'encodage temporel rotatif contraint pour intégrer des informations temporelles absolues dans les embeddings omni-modaux. Nous introduisons un pipeline de curation et de synthèse qui génère 24 millions de conversations mono-modales et omni-modales. Nous constatons que les modalités se renforcent mutuellement tant dans la perception que dans le raisonnement. Notre modèle, OmniVinci, surpasse Qwen2.5-Omni avec un gain de +19,05 sur DailyOmni (compréhension cross-modale), +1,7 sur MMAR (audio) et +3,9 sur Video-MME (vision), tout en utilisant seulement 0,2 trillion de tokens d'entraînement - une réduction de 6 fois par rapport aux 1,2 trillion de tokens de Qwen2.5-Omni. Enfin, nous démontrons les avantages omni-modaux dans des applications en aval couvrant la robotique, l'IA médicale et l'usine intelligente.
English
Advancing machine intelligence requires developing the ability to perceive
across multiple modalities, much as humans sense the world. We introduce
OmniVinci, an initiative to build a strong, open-source, omni-modal LLM. We
carefully study the design choices across model architecture and data curation.
For model architecture, we present three key innovations: (i) OmniAlignNet for
strengthening alignment between vision and audio embeddings in a shared
omni-modal latent space; (ii) Temporal Embedding Grouping for capturing
relative temporal alignment between vision and audio signals; and (iii)
Constrained Rotary Time Embedding for encoding absolute temporal information in
omni-modal embeddings. We introduce a curation and synthesis pipeline that
generates 24M single-modal and omni-modal conversations. We find that
modalities reinforce one another in both perception and reasoning. Our model,
OmniVinci, outperforms Qwen2.5-Omni with +19.05 on DailyOmni (cross-modal
understanding), +1.7 on MMAR (audio), and +3.9 on Video-MME (vision), while
using just 0.2T training tokens - a 6 times reduction compared to
Qwen2.5-Omni's 1.2T. We finally demonstrate omni-modal advantages in downstream
applications spanning robotics, medical AI, and smart factory.