OmniVinci: Aprimorando Arquitetura e Dados para Compreensão Omni-Modal LLM
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
October 17, 2025
Autores: Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang, Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, Sreyan Ghosh, Daguang Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Jason Lu, Oluwatobi Olabiyi, Frank Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin, Pavlo Molchanov
cs.AI
Resumo
Avançar a inteligência das máquinas requer o desenvolvimento da capacidade de perceber múltiplas modalidades, assim como os humanos sentem o mundo. Apresentamos o OmniVinci, uma iniciativa para construir um LLM omni-modal robusto e de código aberto. Estudamos cuidadosamente as escolhas de design em relação à arquitetura do modelo e à curadoria de dados. Para a arquitetura do modelo, apresentamos três inovações principais: (i) OmniAlignNet para fortalecer o alinhamento entre embeddings visuais e de áudio em um espaço latente omni-modal compartilhado; (ii) Agrupamento de Embeddings Temporais para capturar o alinhamento temporal relativo entre sinais visuais e de áudio; e (iii) Embedding Temporal Rotacional Restrito para codificar informações temporais absolutas em embeddings omni-modais. Introduzimos um pipeline de curadoria e síntese que gera 24 milhões de conversas mono-modais e omni-modais. Descobrimos que as modalidades se reforçam mutuamente tanto na percepção quanto no raciocínio. Nosso modelo, OmniVinci, supera o Qwen2.5-Omni com +19,05 no DailyOmni (entendimento cross-modal), +1,7 no MMAR (áudio) e +3,9 no Video-MME (visão), utilizando apenas 0,2 trilhões de tokens de treinamento — uma redução de 6 vezes em comparação com os 1,2 trilhões do Qwen2.5-Omni. Por fim, demonstramos as vantagens omni-modais em aplicações downstream que abrangem robótica, IA médica e fábricas inteligentes.
English
Advancing machine intelligence requires developing the ability to perceive
across multiple modalities, much as humans sense the world. We introduce
OmniVinci, an initiative to build a strong, open-source, omni-modal LLM. We
carefully study the design choices across model architecture and data curation.
For model architecture, we present three key innovations: (i) OmniAlignNet for
strengthening alignment between vision and audio embeddings in a shared
omni-modal latent space; (ii) Temporal Embedding Grouping for capturing
relative temporal alignment between vision and audio signals; and (iii)
Constrained Rotary Time Embedding for encoding absolute temporal information in
omni-modal embeddings. We introduce a curation and synthesis pipeline that
generates 24M single-modal and omni-modal conversations. We find that
modalities reinforce one another in both perception and reasoning. Our model,
OmniVinci, outperforms Qwen2.5-Omni with +19.05 on DailyOmni (cross-modal
understanding), +1.7 on MMAR (audio), and +3.9 on Video-MME (vision), while
using just 0.2T training tokens - a 6 times reduction compared to
Qwen2.5-Omni's 1.2T. We finally demonstrate omni-modal advantages in downstream
applications spanning robotics, medical AI, and smart factory.