OmniGAIA: Rumo a Agentes de IA Omnimodais Nativos

Resumo

A inteligência humana integra naturalmente a percepção omnimodal — abrangendo visão, áudio e linguagem — com raciocínio complexo e uso de ferramentas para interagir com o mundo. No entanto, os LLMs multimodais atuais estão principalmente confinados a interações bimodais (por exemplo, visão-linguagem), carecendo das capacidades cognitivas unificadas necessárias para assistentes de IA gerais. Para preencher esta lacuna, introduzimos o OmniGAIA, um benchmark abrangente concebido para avaliar agentes omnimodais em tarefas que exigem raciocínio profundo e execução multi-iterativa de ferramentas através das modalidades de vídeo, áudio e imagem. Construído através de uma nova abordagem de grafo de eventos omnimodal, o OmniGAIA sintetiza consultas complexas e multi-etapa derivadas de dados do mundo real que requerem raciocínio cross-modal e integração de ferramentas externas. Adicionalmente, propomos o OmniAtlas, um agente de base nativamente omnimodal sob um paradigma de raciocínio integrado com ferramentas e percepção omnimodal ativa. Treinado em trajetórias sintetizadas através de uma estratégia de exploração em árvore guiada por hindsight e OmniDPO para correção granular de erros, o OmniAtlas melhora efetivamente as capacidades de uso de ferramentas de modelos open-source existentes. Este trabalho representa um passo em direção a assistentes de IA omnimodais nativos de próxima geração para cenários do mundo real.

English

Human intelligence naturally intertwines omni-modal perception -- spanning vision, audio, and language -- with complex reasoning and tool usage to interact with the world. However, current multi-modal LLMs are primarily confined to bi-modal interactions (e.g., vision-language), lacking the unified cognitive capabilities required for general AI assistants. To bridge this gap, we introduce OmniGAIA, a comprehensive benchmark designed to evaluate omni-modal agents on tasks necessitating deep reasoning and multi-turn tool execution across video, audio, and image modalities. Constructed via a novel omni-modal event graph approach, OmniGAIA synthesizes complex, multi-hop queries derived from real-world data that require cross-modal reasoning and external tool integration. Furthermore, we propose OmniAtlas, a native omni-modal foundation agent under tool-integrated reasoning paradigm with active omni-modal perception. Trained on trajectories synthesized via a hindsight-guided tree exploration strategy and OmniDPO for fine-grained error correction, OmniAtlas effectively enhances the tool-use capabilities of existing open-source models. This work marks a step towards next-generation native omni-modal AI assistants for real-world scenarios.

OmniGAIA: Rumo a Agentes de IA Omnimodais Nativos

OmniGAIA: Towards Native Omni-Modal AI Agents

Resumo

Support