ChatPaper.aiChatPaper

InfantAgent-Next: Een Multimodale Generalist Agent voor Geautomatiseerde Computerinteractie

InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction

May 16, 2025
Auteurs: Bin Lei, Weitai Kang, Zijian Zhang, Winson Chen, Xi Xie, Shan Zuo, Mimi Xie, Ali Payani, Mingyi Hong, Yan Yan, Caiwen Ding
cs.AI

Samenvatting

Dit artikel introduceert InfantAgent-Next, een generalistisch agent die in staat is om op een multimodale manier met computers te interacteren, waarbij tekst, afbeeldingen, audio en video worden omvat. In tegenstelling tot bestaande benaderingen die ofwel ingewikkelde workflows rond een enkel groot model bouwen of alleen workflowmodulariteit bieden, integreert onze agent tool-gebaseerde en puur visuele agents binnen een zeer modulaire architectuur, waardoor verschillende modellen samen kunnen werken om ontkoppelde taken stap voor stap op te lossen. Onze veelzijdigheid wordt gedemonstreerd door onze mogelijkheid om niet alleen puur visueel gebaseerde real-world benchmarks (d.w.z., OSWorld) te evalueren, maar ook meer algemene of tool-intensieve benchmarks (bijv., GAIA en SWE-Bench). Specifiek behalen we een nauwkeurigheid van 7,27% op OSWorld, wat hoger is dan Claude-Computer-Use. Codes en evaluatiescripts zijn open-source beschikbaar op https://github.com/bin123apple/InfantAgent.
English
This paper introduces InfantAgent-Next, a generalist agent capable of interacting with computers in a multimodal manner, encompassing text, images, audio, and video. Unlike existing approaches that either build intricate workflows around a single large model or only provide workflow modularity, our agent integrates tool-based and pure vision agents within a highly modular architecture, enabling different models to collaboratively solve decoupled tasks in a step-by-step manner. Our generality is demonstrated by our ability to evaluate not only pure vision-based real-world benchmarks (i.e., OSWorld), but also more general or tool-intensive benchmarks (e.g., GAIA and SWE-Bench). Specifically, we achieve 7.27% accuracy on OSWorld, higher than Claude-Computer-Use. Codes and evaluation scripts are open-sourced at https://github.com/bin123apple/InfantAgent.
PDF102May 27, 2025