OmniGAIA: Auf dem Weg zu nativen omni-modalen KI-Agenten

Zusammenfassung

Menschliche Intelligenz verbindet auf natürliche Weise omni-modale Wahrnehmung – die Vision, Audio und Sprache umfasst – mit komplexem Denken und Werkzeuggebrauch, um mit der Welt zu interagieren. Aktuelle multimodale LLMs sind jedoch hauptsächlich auf bi-modale Interaktionen (z.B. Vision-Sprache) beschränkt und entbehren der vereinheitlichten kognitiven Fähigkeiten, die für allgemeine KI-Assistenten erforderlich sind. Um diese Lücke zu schließen, stellen wir OmniGAIA vor, einen umfassenden Benchmark zur Bewertung omni-modaler Agenten bei Aufgaben, die tiefgehendes Schlussfolgern und mehrstufige Werkzeugausführung über Video-, Audio- und Bildmodalitäten hinweg erfordern. Konstruiert durch einen neuartigen omni-modalen Ereignisgraphen-Ansatz synthetisiert OmniGAIA komplexe, mehrstufige Abfragen aus realen Daten, die cross-modales Reasoning und die Integration externer Werkzeuge erfordern. Darüber hinaus schlagen wir OmniAtlas vor, einen nativen omni-modalen Basis-Agenten innerhalb eines werkzeugintegrierten Reasoning-Paradigmas mit aktiver omni-modaler Wahrnehmung. Trainiert mit Trajektorien, die durch eine rückblickgesteuerte Baumexplorationsstrategie synthetisiert wurden, sowie mit OmniDPO zur feinkörnigen Fehlerkorrektur, verbessert OmniAtlas effektiv die Werkzeugnutzungsfähigkeiten bestehender Open-Source-Modelle. Diese Arbeit markiert einen Schritt in Richtung nächster Generation nativer omni-modaler KI-Assistenten für reale Szenarien.

English

Human intelligence naturally intertwines omni-modal perception -- spanning vision, audio, and language -- with complex reasoning and tool usage to interact with the world. However, current multi-modal LLMs are primarily confined to bi-modal interactions (e.g., vision-language), lacking the unified cognitive capabilities required for general AI assistants. To bridge this gap, we introduce OmniGAIA, a comprehensive benchmark designed to evaluate omni-modal agents on tasks necessitating deep reasoning and multi-turn tool execution across video, audio, and image modalities. Constructed via a novel omni-modal event graph approach, OmniGAIA synthesizes complex, multi-hop queries derived from real-world data that require cross-modal reasoning and external tool integration. Furthermore, we propose OmniAtlas, a native omni-modal foundation agent under tool-integrated reasoning paradigm with active omni-modal perception. Trained on trajectories synthesized via a hindsight-guided tree exploration strategy and OmniDPO for fine-grained error correction, OmniAtlas effectively enhances the tool-use capabilities of existing open-source models. This work marks a step towards next-generation native omni-modal AI assistants for real-world scenarios.

OmniGAIA: Auf dem Weg zu nativen omni-modalen KI-Agenten

OmniGAIA: Towards Native Omni-Modal AI Agents

Zusammenfassung

Support