ChatPaper.aiChatPaper

InfantAgent-Next: Un Agente Generalista Multimodale per l'Interazione Automatica con il Computer

InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction

May 16, 2025
Autori: Bin Lei, Weitai Kang, Zijian Zhang, Winson Chen, Xi Xie, Shan Zuo, Mimi Xie, Ali Payani, Mingyi Hong, Yan Yan, Caiwen Ding
cs.AI

Abstract

Questo articolo presenta InfantAgent-Next, un agente generalista in grado di interagire con i computer in modo multimodale, comprendendo testo, immagini, audio e video. A differenza degli approcci esistenti che costruiscono flussi di lavoro complessi attorno a un singolo modello di grandi dimensioni o offrono solo modularità nei flussi di lavoro, il nostro agente integra agenti basati su strumenti e agenti puramente visivi all'interno di un'architettura altamente modulare, consentendo a diversi modelli di risolvere in modo collaborativo compiti scomposti passo dopo passo. La nostra generalità è dimostrata dalla capacità di valutare non solo benchmark del mondo reale basati esclusivamente sulla visione (ad esempio, OSWorld), ma anche benchmark più generali o intensivi in termini di strumenti (ad esempio, GAIA e SWE-Bench). In particolare, raggiungiamo un'accuratezza del 7,27% su OSWorld, superiore a quella di Claude-Computer-Use. I codici e gli script di valutazione sono open-source all'indirizzo https://github.com/bin123apple/InfantAgent.
English
This paper introduces InfantAgent-Next, a generalist agent capable of interacting with computers in a multimodal manner, encompassing text, images, audio, and video. Unlike existing approaches that either build intricate workflows around a single large model or only provide workflow modularity, our agent integrates tool-based and pure vision agents within a highly modular architecture, enabling different models to collaboratively solve decoupled tasks in a step-by-step manner. Our generality is demonstrated by our ability to evaluate not only pure vision-based real-world benchmarks (i.e., OSWorld), but also more general or tool-intensive benchmarks (e.g., GAIA and SWE-Bench). Specifically, we achieve 7.27% accuracy on OSWorld, higher than Claude-Computer-Use. Codes and evaluation scripts are open-sourced at https://github.com/bin123apple/InfantAgent.
PDF102May 27, 2025