InfiGUIAgent: Ein multimodaler Generalist GUI-Agent mit nativer Argumentation und Reflexion
InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection
January 8, 2025
Autoren: Yuhang Liu, Pengxiang Li, Zishu Wei, Congkai Xie, Xueyu Hu, Xinchen Xu, Shengyu Zhang, Xiaotian Han, Hongxia Yang, Fei Wu
cs.AI
Zusammenfassung
Grafische Benutzeroberflächen (GUI)-Agenten, die von multimodalen großen Sprachmodellen (MLLMs) betrieben werden, haben ein großes Potenzial für die Automatisierung von Aufgaben auf Rechengeräten wie Computern und Mobiltelefonen gezeigt. Allerdings stehen bestehende Agenten vor Herausforderungen im mehrstufigen Denken und der Abhängigkeit von textuellen Annotationen, was ihre Wirksamkeit einschränkt. Wir stellen InfiGUIAgent vor, einen GUI-Agenten auf Basis von MLLMs, der mit einer zweistufigen überwachten Feinabstimmungspipeline trainiert wurde. Stufe 1 verbessert grundlegende Fähigkeiten wie GUI-Verständnis und Verankerung, während Stufe 2 hierarchisches Denken und Erwartungs-Reflexions-Denken-Fähigkeiten unter Verwendung synthetisierter Daten integriert, um den Agenten die nativen Denkfähigkeiten zu ermöglichen. InfiGUIAgent erzielt eine wettbewerbsfähige Leistung auf mehreren GUI-Benchmarks und hebt die Auswirkungen nativer Denkfähigkeiten auf die Verbesserung der GUI-Interaktion für Automatisierungsaufgaben hervor. Ressourcen sind verfügbar unter https://github.com/Reallm-Labs/InfiGUIAgent.
English
Graphical User Interface (GUI) Agents, powered by multimodal large language
models (MLLMs), have shown great potential for task automation on computing
devices such as computers and mobile phones. However, existing agents face
challenges in multi-step reasoning and reliance on textual annotations,
limiting their effectiveness. We introduce InfiGUIAgent, an MLLM-based
GUI Agent trained with a two-stage supervised fine-tuning pipeline. Stage 1
enhances fundamental skills such as GUI understanding and grounding, while
Stage 2 integrates hierarchical reasoning and expectation-reflection reasoning
skills using synthesized data to enable native reasoning abilities of the
agents. InfiGUIAgent achieves competitive performance on several GUI
benchmarks, highlighting the impact of native reasoning skills in enhancing GUI
interaction for automation tasks. Resources are available at
https://github.com/Reallm-Labs/InfiGUIAgent.Summary
AI-Generated Summary