OmniGAIA: Verso Agenti IA Omni-Modali Nativi

Abstract

L'intelligenza umana integra naturalmente una percezione onni-modale – che abbraccia visione, audio e linguaggio – con ragionamenti complessi e l'uso di strumenti per interagire con il mondo. Tuttavia, gli attuali LLM multimodali sono principalmente confinati a interazioni bi-modali (ad esempio, visione-linguaggio), mancando delle capacità cognitive unificate necessarie per assistenti AI generici. Per colmare questa lacuna, introduciamo OmniGAIA, un benchmark completo progettato per valutare agenti onni-modali su compiti che richiedono ragionamento approfondito ed esecuzione multi-turn di strumenti attraverso le modalità video, audio e immagine. Costruito tramite un innovativo approccio basato su grafi eventiali onni-modali, OmniGAIA sintetizza query complesse e multi-hop derivate da dati del mondo reale, che richiedono ragionamento cross-modale e integrazione di strumenti esterni. Inoltre, proponiamo OmniAtlas, un agente fondazionale nativamente onni-modale, sviluppato secondo un paradigma di ragionamento integrato con strumenti e dotato di percezione onni-modale attiva. Addestrato su traiettorie sintetizzate tramite una strategia di esplorazione ad albero guidata da hindsight e su OmniDPO per la correzione granulare degli errori, OmniAtlas migliora efficacemente le capacità di uso degli strumenti dei modelli open-source esistenti. Questo lavoro segna un passo verso assistenti AI di nuova generazione, nativamente onni-modali, per scenari reali.

English

Human intelligence naturally intertwines omni-modal perception -- spanning vision, audio, and language -- with complex reasoning and tool usage to interact with the world. However, current multi-modal LLMs are primarily confined to bi-modal interactions (e.g., vision-language), lacking the unified cognitive capabilities required for general AI assistants. To bridge this gap, we introduce OmniGAIA, a comprehensive benchmark designed to evaluate omni-modal agents on tasks necessitating deep reasoning and multi-turn tool execution across video, audio, and image modalities. Constructed via a novel omni-modal event graph approach, OmniGAIA synthesizes complex, multi-hop queries derived from real-world data that require cross-modal reasoning and external tool integration. Furthermore, we propose OmniAtlas, a native omni-modal foundation agent under tool-integrated reasoning paradigm with active omni-modal perception. Trained on trajectories synthesized via a hindsight-guided tree exploration strategy and OmniDPO for fine-grained error correction, OmniAtlas effectively enhances the tool-use capabilities of existing open-source models. This work marks a step towards next-generation native omni-modal AI assistants for real-world scenarios.

OmniGAIA: Verso Agenti IA Omni-Modali Nativi

OmniGAIA: Towards Native Omni-Modal AI Agents

Abstract

Support