ChatPaper.aiChatPaper

OmniVinci: Усовершенствование архитектуры и данных для всеобъемлющего мультимодального понимания LLM

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

October 17, 2025
Авторы: Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang, Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, Sreyan Ghosh, Daguang Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Jason Lu, Oluwatobi Olabiyi, Frank Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin, Pavlo Molchanov
cs.AI

Аннотация

Развитие машинного интеллекта требует развития способности воспринимать информацию через несколько модальностей, подобно тому, как человек воспринимает мир. Мы представляем OmniVinci — инициативу по созданию мощной, открытой, омни-модальной языковой модели (LLM). Мы тщательно изучаем ключевые аспекты проектирования, включая архитектуру модели и подготовку данных. В части архитектуры модели мы предлагаем три ключевых инновации: (i) OmniAlignNet для усиления согласованности между визуальными и аудио-эмбеддингами в общем омни-модальном латентном пространстве; (ii) Temporal Embedding Grouping для учета относительного временного соответствия между визуальными и аудио-сигналами; и (iii) Constrained Rotary Time Embedding для кодирования абсолютной временной информации в омни-модальных эмбеддингах. Мы разработали конвейер подготовки и синтеза данных, который генерирует 24 миллиона одно-модальных и омни-модальных диалогов. Мы обнаружили, что модальности усиливают друг друга как в восприятии, так и в рассуждениях. Наша модель, OmniVinci, превосходит Qwen2.5-Omni с показателями +19.05 на DailyOmni (кросс-модальное понимание), +1.7 на MMAR (аудио) и +3.9 на Video-MME (видео), при этом используя всего 0.2 триллиона токенов для обучения — в 6 раз меньше, чем 1.2 триллиона токенов у Qwen2.5-Omni. Наконец, мы демонстрируем преимущества омни-модального подхода в прикладных задачах, включая робототехнику, медицинский ИИ и умные фабрики.
English
Advancing machine intelligence requires developing the ability to perceive across multiple modalities, much as humans sense the world. We introduce OmniVinci, an initiative to build a strong, open-source, omni-modal LLM. We carefully study the design choices across model architecture and data curation. For model architecture, we present three key innovations: (i) OmniAlignNet for strengthening alignment between vision and audio embeddings in a shared omni-modal latent space; (ii) Temporal Embedding Grouping for capturing relative temporal alignment between vision and audio signals; and (iii) Constrained Rotary Time Embedding for encoding absolute temporal information in omni-modal embeddings. We introduce a curation and synthesis pipeline that generates 24M single-modal and omni-modal conversations. We find that modalities reinforce one another in both perception and reasoning. Our model, OmniVinci, outperforms Qwen2.5-Omni with +19.05 on DailyOmni (cross-modal understanding), +1.7 on MMAR (audio), and +3.9 on Video-MME (vision), while using just 0.2T training tokens - a 6 times reduction compared to Qwen2.5-Omni's 1.2T. We finally demonstrate omni-modal advantages in downstream applications spanning robotics, medical AI, and smart factory.
PDF644October 20, 2025