ChatPaper.aiChatPaper

OmniVinci: Potenziamento dell'Architettura e dei Dati per la Comprensione Omni-Modale LLM

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

October 17, 2025
Autori: Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang, Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, Sreyan Ghosh, Daguang Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Jason Lu, Oluwatobi Olabiyi, Frank Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin, Pavlo Molchanov
cs.AI

Abstract

Il progresso dell'intelligenza artificiale richiede lo sviluppo della capacità di percepire attraverso molteplici modalità, proprio come gli esseri umani percepiscono il mondo. Presentiamo OmniVinci, un'iniziativa per costruire un modello linguistico multimodale (LLM) robusto e open-source. Analizziamo attentamente le scelte progettuali relative all'architettura del modello e alla curatela dei dati. Per l'architettura del modello, introduciamo tre innovazioni chiave: (i) OmniAlignNet per rafforzare l'allineamento tra gli embedding visivi e audio in uno spazio latente multimodale condiviso; (ii) Temporal Embedding Grouping per catturare l'allineamento temporale relativo tra i segnali visivi e audio; e (iii) Constrained Rotary Time Embedding per codificare informazioni temporali assolute negli embedding multimodali. Introduciamo una pipeline di curatela e sintesi che genera 24 milioni di conversazioni unimodali e multimodali. Osserviamo che le modalità si rafforzano reciprocamente sia nella percezione che nel ragionamento. Il nostro modello, OmniVinci, supera Qwen2.5-Omni con un miglioramento di +19.05 su DailyOmni (comprensione cross-modale), +1.7 su MMAR (audio) e +3.9 su Video-MME (visione), utilizzando solo 0.2 trilioni di token di addestramento, una riduzione di 6 volte rispetto ai 1.2 trilioni di Qwen2.5-Omni. Infine, dimostriamo i vantaggi multimodali in applicazioni downstream che spaziano dalla robotica, all'intelligenza artificiale medica, fino alla fabbrica intelligente.
English
Advancing machine intelligence requires developing the ability to perceive across multiple modalities, much as humans sense the world. We introduce OmniVinci, an initiative to build a strong, open-source, omni-modal LLM. We carefully study the design choices across model architecture and data curation. For model architecture, we present three key innovations: (i) OmniAlignNet for strengthening alignment between vision and audio embeddings in a shared omni-modal latent space; (ii) Temporal Embedding Grouping for capturing relative temporal alignment between vision and audio signals; and (iii) Constrained Rotary Time Embedding for encoding absolute temporal information in omni-modal embeddings. We introduce a curation and synthesis pipeline that generates 24M single-modal and omni-modal conversations. We find that modalities reinforce one another in both perception and reasoning. Our model, OmniVinci, outperforms Qwen2.5-Omni with +19.05 on DailyOmni (cross-modal understanding), +1.7 on MMAR (audio), and +3.9 on Video-MME (vision), while using just 0.2T training tokens - a 6 times reduction compared to Qwen2.5-Omni's 1.2T. We finally demonstrate omni-modal advantages in downstream applications spanning robotics, medical AI, and smart factory.
PDF644October 20, 2025