OmniVinci: Verbetering van Architectuur en Gegevens voor Omni-Modale Begrip LLM

Samenvatting

Het bevorderen van machine-intelligentie vereist het ontwikkelen van het vermogen om waar te nemen via meerdere modaliteiten, net zoals mensen de wereld waarnemen. Wij introduceren OmniVinci, een initiatief om een krachtig, open-source, omni-modale LLM te bouwen. We bestuderen zorgvuldig de ontwerpkeuzes op het gebied van modelarchitectuur en datacuratie. Voor de modelarchitectuur presenteren we drie belangrijke innovaties: (i) OmniAlignNet voor het versterken van de uitlijning tussen visuele en audio-embeddings in een gedeelde omni-modale latente ruimte; (ii) Temporal Embedding Grouping voor het vastleggen van relatieve temporele uitlijning tussen visuele en audiosignalen; en (iii) Constrained Rotary Time Embedding voor het coderen van absolute temporele informatie in omni-modale embeddings. We introduceren een curatie- en synthesepijplijn die 24M enkel-modale en omni-modale conversaties genereert. We ontdekken dat modaliteiten elkaar versterken in zowel waarneming als redenering. Ons model, OmniVinci, presteert beter dan Qwen2.5-Omni met +19.05 op DailyOmni (kruis-modale begrip), +1.7 op MMAR (audio), en +3.9 op Video-MME (visie), terwijl het slechts 0.2T trainings-tokens gebruikt - een reductie van 6 keer vergeleken met de 1.2T van Qwen2.5-Omni. We demonstreren ten slotte de voordelen van omni-modaliteit in downstream-toepassingen die robotica, medische AI en slimme fabrieken omvatten.

English

Advancing machine intelligence requires developing the ability to perceive across multiple modalities, much as humans sense the world. We introduce OmniVinci, an initiative to build a strong, open-source, omni-modal LLM. We carefully study the design choices across model architecture and data curation. For model architecture, we present three key innovations: (i) OmniAlignNet for strengthening alignment between vision and audio embeddings in a shared omni-modal latent space; (ii) Temporal Embedding Grouping for capturing relative temporal alignment between vision and audio signals; and (iii) Constrained Rotary Time Embedding for encoding absolute temporal information in omni-modal embeddings. We introduce a curation and synthesis pipeline that generates 24M single-modal and omni-modal conversations. We find that modalities reinforce one another in both perception and reasoning. Our model, OmniVinci, outperforms Qwen2.5-Omni with +19.05 on DailyOmni (cross-modal understanding), +1.7 on MMAR (audio), and +3.9 on Video-MME (vision), while using just 0.2T training tokens - a 6 times reduction compared to Qwen2.5-Omni's 1.2T. We finally demonstrate omni-modal advantages in downstream applications spanning robotics, medical AI, and smart factory.

OmniVinci: Verbetering van Architectuur en Gegevens voor Omni-Modale Begrip LLM

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

Samenvatting

Support