ChatPaper.aiChatPaper

BTL-UI: Blink-Think-Link-Reasoning-Modell für GUI-Agenten

BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent

September 19, 2025
papers.authors: Shaojie Zhang, Ruoceng Zhang, Pei Fu, Shaokang Wang, Jiahui Yang, Xin Du, Shiqi Cui, Bin Qin, Ying Huang, Zhenbo Luo, Jian Luan
cs.AI

papers.abstract

Im Bereich der KI-gestützten Automatisierung der Mensch-GUI-Interaktion haben zwar rasche Fortschritte bei multimodalen großen Sprachmodellen und Reinforcement-Fine-Tuning-Techniken bemerkenswerte Erfolge erzielt, doch bleibt eine grundlegende Herausforderung bestehen: Ihre Interaktionslogik weicht erheblich von natürlichen menschlichen GUI-Kommunikationsmustern ab. Um diese Lücke zu schließen, schlagen wir "Blink-Think-Link" (BTL) vor, ein hirninspiriertes Framework für die Mensch-GUI-Interaktion, das den menschlichen kognitiven Prozess zwischen Benutzern und grafischen Oberflächen nachahmt. Das System zerlegt Interaktionen in drei biologisch plausible Phasen: (1) Blink – schnelle Erkennung und Aufmerksamkeit auf relevante Bildschirmbereiche, analog zu sakkadischen Augenbewegungen; (2) Think – höherwertiges Denken und Entscheidungsfindung, das kognitive Planung widerspiegelt; und (3) Link – Erzeugung ausführbarer Befehle für präzise motorische Steuerung, die menschliche Handlungsauswahlmechanismen nachahmt. Zusätzlich führen wir zwei Schlüsselinnovationen für das BTL-Framework ein: (1) Blink Data Generation – eine automatisierte Annotationspipeline, die speziell für Blink-Daten optimiert ist, und (2) BTL Reward – der erste regelbasierte Belohnungsmechanismus, der Reinforcement Learning sowohl prozess- als auch ergebnisgetrieben ermöglicht. Aufbauend auf diesem Framework entwickeln wir ein GUI-Agentenmodell namens BTL-UI, das durchweg state-of-the-art-Leistungen sowohl bei statischen GUI-Verständnis- als auch bei dynamischen Interaktionsaufgaben in umfassenden Benchmarks demonstriert. Diese Ergebnisse liefern eine überzeugende empirische Bestätigung der Wirksamkeit des Frameworks bei der Entwicklung fortschrittlicher GUI-Agenten.
English
In the field of AI-driven human-GUI interaction automation, while rapid advances in multimodal large language models and reinforcement fine-tuning techniques have yielded remarkable progress, a fundamental challenge persists: their interaction logic significantly deviates from natural human-GUI communication patterns. To fill this gap, we propose "Blink-Think-Link" (BTL), a brain-inspired framework for human-GUI interaction that mimics the human cognitive process between users and graphical interfaces. The system decomposes interactions into three biologically plausible phases: (1) Blink - rapid detection and attention to relevant screen areas, analogous to saccadic eye movements; (2) Think - higher-level reasoning and decision-making, mirroring cognitive planning; and (3) Link - generation of executable commands for precise motor control, emulating human action selection mechanisms. Additionally, we introduce two key technical innovations for the BTL framework: (1) Blink Data Generation - an automated annotation pipeline specifically optimized for blink data, and (2) BTL Reward -- the first rule-based reward mechanism that enables reinforcement learning driven by both process and outcome. Building upon this framework, we develop a GUI agent model named BTL-UI, which demonstrates consistent state-of-the-art performance across both static GUI understanding and dynamic interaction tasks in comprehensive benchmarks. These results provide conclusive empirical validation of the framework's efficacy in developing advanced GUI Agents.
PDF103September 22, 2025