OmniGAIA: На пути к нативным омни-модальным ИИ-агентам

Аннотация

Человеческий интеллект естественным образом объединяет омни-модальное восприятие — охватывающее зрение, слух и язык — со сложными рассуждениями и использованием инструментов для взаимодействия с миром. Однако современные многомодальные LLM в основном ограничены би-модальными взаимодействиями (например, «зрение-язык») и лишены единых когнитивных способностей, необходимых для универсальных ИИ-ассистентов. Чтобы устранить этот разрыв, мы представляем OmniGAIA — комплексный бенчмарк, предназначенный для оценки омни-модальных агентов на задачах, требующих глубоких рассуждений и многошагового выполнения инструментов в модальностях видео, аудио и изображений. Построенный с помощью нового подхода на основе омни-модальных графов событий, OmniGAIA синтезирует сложные многоступенчатые запросы, полученные из реальных данных, которые требуют кросс-модальных рассуждений и интеграции внешних инструментов. Кроме того, мы предлагаем OmniAtlas — нативного омни-модального фонового агента, работающего в парадигме рассуждений с интеграцией инструментов и активным омни-модальным восприятием. Обученный на траекториях, синтезированных с помощью стратегии исследования дерева, управляемой ретроспективным анализом, и метода OmniDPO для тонкой коррекции ошибок, OmniAtlas эффективно повышает способности к использованию инструментов у существующих открытых моделей. Данная работа представляет собой шаг к созданию следующего поколения нативных омни-модальных ИИ-ассистентов для реальных сценариев.

English

Human intelligence naturally intertwines omni-modal perception -- spanning vision, audio, and language -- with complex reasoning and tool usage to interact with the world. However, current multi-modal LLMs are primarily confined to bi-modal interactions (e.g., vision-language), lacking the unified cognitive capabilities required for general AI assistants. To bridge this gap, we introduce OmniGAIA, a comprehensive benchmark designed to evaluate omni-modal agents on tasks necessitating deep reasoning and multi-turn tool execution across video, audio, and image modalities. Constructed via a novel omni-modal event graph approach, OmniGAIA synthesizes complex, multi-hop queries derived from real-world data that require cross-modal reasoning and external tool integration. Furthermore, we propose OmniAtlas, a native omni-modal foundation agent under tool-integrated reasoning paradigm with active omni-modal perception. Trained on trajectories synthesized via a hindsight-guided tree exploration strategy and OmniDPO for fine-grained error correction, OmniAtlas effectively enhances the tool-use capabilities of existing open-source models. This work marks a step towards next-generation native omni-modal AI assistants for real-world scenarios.

OmniGAIA: На пути к нативным омни-модальным ИИ-агентам

OmniGAIA: Towards Native Omni-Modal AI Agents

Аннотация

Support