ChatPaper.aiChatPaper

BTL-UI: Blink-Think-Link-Reasoning-Modell für GUI-Agenten

BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent

September 19, 2025
Autoren: Shaojie Zhang, Ruoceng Zhang, Pei Fu, Shaokang Wang, Jiahui Yang, Xin Du, Shiqi Cui, Bin Qin, Ying Huang, Zhenbo Luo, Jian Luan
cs.AI

Zusammenfassung

Im Bereich der KI-gestützten Automatisierung der Mensch-GUI-Interaktion haben zwar rasche Fortschritte bei multimodalen großen Sprachmodellen und Reinforcement-Fine-Tuning-Techniken bemerkenswerte Erfolge erzielt, doch bleibt eine grundlegende Herausforderung bestehen: Ihre Interaktionslogik weicht erheblich von natürlichen menschlichen GUI-Kommunikationsmustern ab. Um diese Lücke zu schließen, schlagen wir "Blink-Think-Link" (BTL) vor, ein hirninspiriertes Framework für die Mensch-GUI-Interaktion, das den menschlichen kognitiven Prozess zwischen Benutzern und grafischen Oberflächen nachahmt. Das System zerlegt Interaktionen in drei biologisch plausible Phasen: (1) Blink – schnelle Erkennung und Aufmerksamkeit auf relevante Bildschirmbereiche, analog zu sakkadischen Augenbewegungen; (2) Think – höherwertiges Denken und Entscheidungsfindung, das kognitive Planung widerspiegelt; und (3) Link – Erzeugung ausführbarer Befehle für präzise motorische Steuerung, die menschliche Handlungsauswahlmechanismen nachahmt. Zusätzlich führen wir zwei Schlüsselinnovationen für das BTL-Framework ein: (1) Blink Data Generation – eine automatisierte Annotationspipeline, die speziell für Blink-Daten optimiert ist, und (2) BTL Reward – der erste regelbasierte Belohnungsmechanismus, der Reinforcement Learning sowohl prozess- als auch ergebnisgetrieben ermöglicht. Aufbauend auf diesem Framework entwickeln wir ein GUI-Agentenmodell namens BTL-UI, das durchweg state-of-the-art-Leistungen sowohl bei statischen GUI-Verständnis- als auch bei dynamischen Interaktionsaufgaben in umfassenden Benchmarks demonstriert. Diese Ergebnisse liefern eine überzeugende empirische Bestätigung der Wirksamkeit des Frameworks bei der Entwicklung fortschrittlicher GUI-Agenten.
English
In the field of AI-driven human-GUI interaction automation, while rapid advances in multimodal large language models and reinforcement fine-tuning techniques have yielded remarkable progress, a fundamental challenge persists: their interaction logic significantly deviates from natural human-GUI communication patterns. To fill this gap, we propose "Blink-Think-Link" (BTL), a brain-inspired framework for human-GUI interaction that mimics the human cognitive process between users and graphical interfaces. The system decomposes interactions into three biologically plausible phases: (1) Blink - rapid detection and attention to relevant screen areas, analogous to saccadic eye movements; (2) Think - higher-level reasoning and decision-making, mirroring cognitive planning; and (3) Link - generation of executable commands for precise motor control, emulating human action selection mechanisms. Additionally, we introduce two key technical innovations for the BTL framework: (1) Blink Data Generation - an automated annotation pipeline specifically optimized for blink data, and (2) BTL Reward -- the first rule-based reward mechanism that enables reinforcement learning driven by both process and outcome. Building upon this framework, we develop a GUI agent model named BTL-UI, which demonstrates consistent state-of-the-art performance across both static GUI understanding and dynamic interaction tasks in comprehensive benchmarks. These results provide conclusive empirical validation of the framework's efficacy in developing advanced GUI Agents.