OmniGAIA: Hacia Agentes de IA Omnimodales Nativos

Resumen

La inteligencia humana integra naturalmente la percepción omnimodal —que abarca visión, audio y lenguaje— con el razonamiento complejo y el uso de herramientas para interactuar con el mundo. Sin embargo, los modelos de lenguaje multimodal actuales se limitan principalmente a interacciones bimodales (por ejemplo, visión-lenguaje), careciendo de las capacidades cognitivas unificadas necesarias para asistentes de IA generales. Para cerrar esta brecha, presentamos OmniGAIA, un benchmark integral diseñado para evaluar agentes omnimodales en tareas que requieren razonamiento profundo y ejecución multiturno de herramientas a través de modalidades de video, audio e imagen. Construido mediante un novedoso enfoque de grafos de eventos omnimodales, OmniGAIA sintetiza consultas complejas y de múltiples saltos derivadas de datos del mundo real que exigen razonamiento cross-modal e integración de herramientas externas. Además, proponemos OmniAtlas, un agente base nativo omnimodal bajo un paradigma de razonamiento con herramientas integradas y percepción omnimodal activa. Entrenado con trayectorias sintetizadas mediante una estrategia de exploración arbórea guiada por hindsight y OmniDPO para corrección granular de errores, OmniAtlas mejora efectivamente las capacidades de uso de herramientas de los modelos de código abierto existentes. Este trabajo representa un paso hacia la próxima generación de asistentes de IA nativamente omnimodales para escenarios del mundo real.

English

Human intelligence naturally intertwines omni-modal perception -- spanning vision, audio, and language -- with complex reasoning and tool usage to interact with the world. However, current multi-modal LLMs are primarily confined to bi-modal interactions (e.g., vision-language), lacking the unified cognitive capabilities required for general AI assistants. To bridge this gap, we introduce OmniGAIA, a comprehensive benchmark designed to evaluate omni-modal agents on tasks necessitating deep reasoning and multi-turn tool execution across video, audio, and image modalities. Constructed via a novel omni-modal event graph approach, OmniGAIA synthesizes complex, multi-hop queries derived from real-world data that require cross-modal reasoning and external tool integration. Furthermore, we propose OmniAtlas, a native omni-modal foundation agent under tool-integrated reasoning paradigm with active omni-modal perception. Trained on trajectories synthesized via a hindsight-guided tree exploration strategy and OmniDPO for fine-grained error correction, OmniAtlas effectively enhances the tool-use capabilities of existing open-source models. This work marks a step towards next-generation native omni-modal AI assistants for real-world scenarios.

OmniGAIA: Hacia Agentes de IA Omnimodales Nativos

OmniGAIA: Towards Native Omni-Modal AI Agents

Resumen

Support