OmniVinci: オムニモーダル理解のためのアーキテクチャとデータの強化 LLM
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
October 17, 2025
著者: Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang, Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, Sreyan Ghosh, Daguang Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Jason Lu, Oluwatobi Olabiyi, Frank Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin, Pavlo Molchanov
cs.AI
要旨
機械知能を進化させるためには、人間が世界を感知するように、複数のモダリティにわたって知覚する能力を開発する必要があります。本稿では、強力なオープンソースのオムニモーダルLLMを構築するためのイニシアチブであるOmniVinciを紹介します。モデルアーキテクチャとデータキュレーションにわたる設計選択を慎重に検討します。モデルアーキテクチャに関して、以下の3つの主要なイノベーションを提示します:(i) 共有されたオムニモーダル潜在空間における視覚と音声の埋め込み間の整合性を強化するためのOmniAlignNet、(ii) 視覚と音声信号間の相対的な時間的整合性を捕捉するためのTemporal Embedding Grouping、(iii) オムニモーダル埋め込みにおける絶対的な時間情報をエンコードするためのConstrained Rotary Time Embedding。さらに、24Mのシングルモーダルおよびオムニモーダル会話を生成するキュレーションと合成パイプラインを導入します。モダリティが知覚と推論の両方において互いに強化されることを発見しました。我々のモデルOmniVinciは、Qwen2.5-Omniと比較して、DailyOmni(クロスモーダル理解)で+19.05、MMAR(音声)で+1.7、Video-MME(視覚)で+3.9の性能向上を示し、トレーニングトークン数は0.2Tと、Qwen2.5-Omniの1.2Tに比べて6分の1に削減されています。最後に、ロボティクス、医療AI、スマートファクトリーにわたる下流アプリケーションにおけるオムニモーダルの利点を実証します。
English
Advancing machine intelligence requires developing the ability to perceive
across multiple modalities, much as humans sense the world. We introduce
OmniVinci, an initiative to build a strong, open-source, omni-modal LLM. We
carefully study the design choices across model architecture and data curation.
For model architecture, we present three key innovations: (i) OmniAlignNet for
strengthening alignment between vision and audio embeddings in a shared
omni-modal latent space; (ii) Temporal Embedding Grouping for capturing
relative temporal alignment between vision and audio signals; and (iii)
Constrained Rotary Time Embedding for encoding absolute temporal information in
omni-modal embeddings. We introduce a curation and synthesis pipeline that
generates 24M single-modal and omni-modal conversations. We find that
modalities reinforce one another in both perception and reasoning. Our model,
OmniVinci, outperforms Qwen2.5-Omni with +19.05 on DailyOmni (cross-modal
understanding), +1.7 on MMAR (audio), and +3.9 on Video-MME (vision), while
using just 0.2T training tokens - a 6 times reduction compared to
Qwen2.5-Omni's 1.2T. We finally demonstrate omni-modal advantages in downstream
applications spanning robotics, medical AI, and smart factory.