OmniVinci: Verbesserung von Architektur und Daten für omni-modales Verständnis LLM
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
October 17, 2025
papers.authors: Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang, Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, Sreyan Ghosh, Daguang Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Jason Lu, Oluwatobi Olabiyi, Frank Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin, Pavlo Molchanov
cs.AI
papers.abstract
Die Weiterentwicklung der maschinellen Intelligenz erfordert die Fähigkeit, über mehrere Modalitäten hinweg wahrzunehmen, ähnlich wie Menschen die Welt erfassen. Wir stellen OmniVinci vor, eine Initiative zur Schaffung eines leistungsstarken, quelloffenen, omni-modalen LLM. Wir untersuchen sorgfältig die Designentscheidungen in Bezug auf Modellarchitektur und Datenkuratierung. Für die Modellarchitektur präsentieren wir drei Schlüsselinnovationen: (i) OmniAlignNet zur Stärkung der Ausrichtung zwischen visuellen und auditiven Embeddings in einem gemeinsamen omni-modalen latenten Raum; (ii) Temporal Embedding Grouping zur Erfassung der relativen zeitlichen Ausrichtung zwischen visuellen und auditiven Signalen; und (iii) Constrained Rotary Time Embedding zur Kodierung absoluter zeitlicher Informationen in omni-modalen Embeddings. Wir führen eine Kuratierungs- und Synthese-Pipeline ein, die 24M einmodale und omni-modale Konversationen generiert. Wir stellen fest, dass sich die Modalitäten sowohl in der Wahrnehmung als auch im Denken gegenseitig verstärken. Unser Modell, OmniVinci, übertrifft Qwen2.5-Omni mit +19,05 auf DailyOmni (cross-modales Verständnis), +1,7 auf MMAR (Audio) und +3,9 auf Video-MME (Vision), während es nur 0,2T Trainings-Tokens verwendet – eine Reduktion um das Sechsfache im Vergleich zu Qwen2.5-Omni mit 1,2T. Schließlich demonstrieren wir die Vorteile der Omni-Modalität in nachgelagerten Anwendungen, die Robotik, medizinische KI und intelligente Fabriken umfassen.
English
Advancing machine intelligence requires developing the ability to perceive
across multiple modalities, much as humans sense the world. We introduce
OmniVinci, an initiative to build a strong, open-source, omni-modal LLM. We
carefully study the design choices across model architecture and data curation.
For model architecture, we present three key innovations: (i) OmniAlignNet for
strengthening alignment between vision and audio embeddings in a shared
omni-modal latent space; (ii) Temporal Embedding Grouping for capturing
relative temporal alignment between vision and audio signals; and (iii)
Constrained Rotary Time Embedding for encoding absolute temporal information in
omni-modal embeddings. We introduce a curation and synthesis pipeline that
generates 24M single-modal and omni-modal conversations. We find that
modalities reinforce one another in both perception and reasoning. Our model,
OmniVinci, outperforms Qwen2.5-Omni with +19.05 on DailyOmni (cross-modal
understanding), +1.7 on MMAR (audio), and +3.9 on Video-MME (vision), while
using just 0.2T training tokens - a 6 times reduction compared to
Qwen2.5-Omni's 1.2T. We finally demonstrate omni-modal advantages in downstream
applications spanning robotics, medical AI, and smart factory.