InfantAgent-Next: Мультимодальный универсальный агент для автоматизированного взаимодействия с компьютером
InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction
May 16, 2025
Авторы: Bin Lei, Weitai Kang, Zijian Zhang, Winson Chen, Xi Xie, Shan Zuo, Mimi Xie, Ali Payani, Mingyi Hong, Yan Yan, Caiwen Ding
cs.AI
Аннотация
В данной статье представлен InfantAgent-Next — универсальный агент, способный взаимодействовать с компьютерами в мультимодальном режиме, включая текст, изображения, аудио и видео. В отличие от существующих подходов, которые либо строят сложные рабочие процессы вокруг одной крупной модели, либо предлагают только модульность рабочих процессов, наш агент интегрирует инструментальные и чисто визуальные агенты в рамках высокомодульной архитектуры, позволяя различным моделям совместно решать декомпозированные задачи пошагово. Универсальность нашего подхода демонстрируется возможностью оценки не только чисто визуальных бенчмарков реального мира (например, OSWorld), но и более общих или инструментально-интенсивных бенчмарков (например, GAIA и SWE-Bench). В частности, мы достигаем точности 7,27% на OSWorld, что выше, чем у Claude-Computer-Use. Коды и скрипты для оценки доступны по адресу https://github.com/bin123apple/InfantAgent.
English
This paper introduces InfantAgent-Next, a generalist agent capable
of interacting with computers in a multimodal manner, encompassing text,
images, audio, and video. Unlike existing approaches that either build
intricate workflows around a single large model or only provide workflow
modularity, our agent integrates tool-based and pure vision agents within a
highly modular architecture, enabling different models to collaboratively solve
decoupled tasks in a step-by-step manner. Our generality is demonstrated by our
ability to evaluate not only pure vision-based real-world benchmarks (i.e.,
OSWorld), but also more general or tool-intensive benchmarks (e.g., GAIA and
SWE-Bench). Specifically, we achieve 7.27% accuracy on OSWorld,
higher than Claude-Computer-Use. Codes and evaluation scripts are open-sourced
at https://github.com/bin123apple/InfantAgent.Summary
AI-Generated Summary