OmniGAIA : Vers des agents d'IA omnimodaux natifs

Résumé

L'intelligence humaine intègre naturellement une perception multimodale — englobant la vision, l'audio et le langage — avec un raisonnement complexe et l'utilisation d'outils pour interagir avec le monde. Cependant, les modèles de langage multimodaux actuels se limitent principalement à des interactions bimodales (par exemple, vision-langage), manquant des capacités cognitives unifiées nécessaires pour des assistants IA généraux. Pour combler cette lacune, nous présentons OmniGAIA, un benchmark complet conçu pour évaluer les agents multimodaux sur des tâches nécessitant un raisonnement approfondi et une exécution d'outils multi-tours à travers les modalités vidéo, audio et image. Construit via une nouvelle approche de graphe d'événements multimodaux, OmniGAIA synthétise des requêtes complexes et multi-étapes dérivées de données réelles qui exigent un raisonnement cross-modal et une intégration d'outils externes. De plus, nous proposons OmniAtlas, un agent de fondation natif multimodal sous un paradigme de raisonnement intégrant des outils avec une perception multimodale active. Entraîné sur des trajectoires synthétisées via une stratégie d'exploration arborescente guidée a posteriori et OmniDPO pour une correction d'erreurs fine, OmniAtlas améliore efficacement les capacités d'utilisation d'outils des modèles open-source existants. Ce travail représente une étape vers la prochaine génération d'assistants IA natifs multimodaux pour des scénarios réels.

English

Human intelligence naturally intertwines omni-modal perception -- spanning vision, audio, and language -- with complex reasoning and tool usage to interact with the world. However, current multi-modal LLMs are primarily confined to bi-modal interactions (e.g., vision-language), lacking the unified cognitive capabilities required for general AI assistants. To bridge this gap, we introduce OmniGAIA, a comprehensive benchmark designed to evaluate omni-modal agents on tasks necessitating deep reasoning and multi-turn tool execution across video, audio, and image modalities. Constructed via a novel omni-modal event graph approach, OmniGAIA synthesizes complex, multi-hop queries derived from real-world data that require cross-modal reasoning and external tool integration. Furthermore, we propose OmniAtlas, a native omni-modal foundation agent under tool-integrated reasoning paradigm with active omni-modal perception. Trained on trajectories synthesized via a hindsight-guided tree exploration strategy and OmniDPO for fine-grained error correction, OmniAtlas effectively enhances the tool-use capabilities of existing open-source models. This work marks a step towards next-generation native omni-modal AI assistants for real-world scenarios.

OmniGAIA : Vers des agents d'IA omnimodaux natifs

OmniGAIA: Towards Native Omni-Modal AI Agents

Résumé

Support