InfantAgent-Next: Ein multimodaler Generalist-Agent für automatisierte Computerinteraktion

Zusammenfassung

Dieses Papier stellt InfantAgent-Next vor, einen generalistischen Agenten, der in der Lage ist, multimodal mit Computern zu interagieren, einschließlich Text, Bildern, Audio und Video. Im Gegensatz zu bestehenden Ansätzen, die entweder komplexe Workflows um ein einzelnes großes Modell herum aufbauen oder lediglich Workflow-Modularität bieten, integriert unser Agent werkzeugbasierte und rein visuelle Agenten in einer hochgradig modularen Architektur. Dies ermöglicht es verschiedenen Modellen, gemeinsam entkoppelte Aufgaben schrittweise zu lösen. Unsere Allgemeingültigkeit wird dadurch demonstriert, dass wir nicht nur rein visuell basierte Benchmarks der realen Welt (z. B. OSWorld), sondern auch allgemeinere oder werkzeugintensive Benchmarks (z. B. GAIA und SWE-Bench) bewerten können. Insbesondere erreichen wir eine Genauigkeit von 7,27 % auf OSWorld, was höher ist als bei Claude-Computer-Use. Die Codes und Evaluierungsskripte sind unter https://github.com/bin123apple/InfantAgent quelloffen verfügbar.

English

This paper introduces InfantAgent-Next, a generalist agent capable of interacting with computers in a multimodal manner, encompassing text, images, audio, and video. Unlike existing approaches that either build intricate workflows around a single large model or only provide workflow modularity, our agent integrates tool-based and pure vision agents within a highly modular architecture, enabling different models to collaboratively solve decoupled tasks in a step-by-step manner. Our generality is demonstrated by our ability to evaluate not only pure vision-based real-world benchmarks (i.e., OSWorld), but also more general or tool-intensive benchmarks (e.g., GAIA and SWE-Bench). Specifically, we achieve 7.27% accuracy on OSWorld, higher than Claude-Computer-Use. Codes and evaluation scripts are open-sourced at https://github.com/bin123apple/InfantAgent.