InfantAgent-Next: Ein multimodaler Generalist-Agent für automatisierte Computerinteraktion
InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction
May 16, 2025
Autoren: Bin Lei, Weitai Kang, Zijian Zhang, Winson Chen, Xi Xie, Shan Zuo, Mimi Xie, Ali Payani, Mingyi Hong, Yan Yan, Caiwen Ding
cs.AI
Zusammenfassung
Dieses Papier stellt InfantAgent-Next vor, einen generalistischen Agenten, der in der Lage ist, multimodal mit Computern zu interagieren, einschließlich Text, Bildern, Audio und Video. Im Gegensatz zu bestehenden Ansätzen, die entweder komplexe Workflows um ein einzelnes großes Modell herum aufbauen oder lediglich Workflow-Modularität bieten, integriert unser Agent werkzeugbasierte und rein visuelle Agenten in einer hochgradig modularen Architektur. Dies ermöglicht es verschiedenen Modellen, gemeinsam entkoppelte Aufgaben schrittweise zu lösen. Unsere Allgemeingültigkeit wird dadurch demonstriert, dass wir nicht nur rein visuell basierte Benchmarks der realen Welt (z. B. OSWorld), sondern auch allgemeinere oder werkzeugintensive Benchmarks (z. B. GAIA und SWE-Bench) bewerten können. Insbesondere erreichen wir eine Genauigkeit von 7,27 % auf OSWorld, was höher ist als bei Claude-Computer-Use. Die Codes und Evaluierungsskripte sind unter https://github.com/bin123apple/InfantAgent quelloffen verfügbar.
English
This paper introduces InfantAgent-Next, a generalist agent capable
of interacting with computers in a multimodal manner, encompassing text,
images, audio, and video. Unlike existing approaches that either build
intricate workflows around a single large model or only provide workflow
modularity, our agent integrates tool-based and pure vision agents within a
highly modular architecture, enabling different models to collaboratively solve
decoupled tasks in a step-by-step manner. Our generality is demonstrated by our
ability to evaluate not only pure vision-based real-world benchmarks (i.e.,
OSWorld), but also more general or tool-intensive benchmarks (e.g., GAIA and
SWE-Bench). Specifically, we achieve 7.27% accuracy on OSWorld,
higher than Claude-Computer-Use. Codes and evaluation scripts are open-sourced
at https://github.com/bin123apple/InfantAgent.Summary
AI-Generated Summary