BTL-UI: Blink-Think-Link-Reasoning-Modell für GUI-Agenten
BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent
September 19, 2025
papers.authors: Shaojie Zhang, Ruoceng Zhang, Pei Fu, Shaokang Wang, Jiahui Yang, Xin Du, Shiqi Cui, Bin Qin, Ying Huang, Zhenbo Luo, Jian Luan
cs.AI
papers.abstract
Im Bereich der KI-gestützten Automatisierung der Mensch-GUI-Interaktion haben zwar rasche Fortschritte bei multimodalen großen Sprachmodellen und Reinforcement-Fine-Tuning-Techniken bemerkenswerte Erfolge erzielt, doch bleibt eine grundlegende Herausforderung bestehen: Ihre Interaktionslogik weicht erheblich von natürlichen menschlichen GUI-Kommunikationsmustern ab. Um diese Lücke zu schließen, schlagen wir "Blink-Think-Link" (BTL) vor, ein hirninspiriertes Framework für die Mensch-GUI-Interaktion, das den menschlichen kognitiven Prozess zwischen Benutzern und grafischen Oberflächen nachahmt. Das System zerlegt Interaktionen in drei biologisch plausible Phasen: (1) Blink – schnelle Erkennung und Aufmerksamkeit auf relevante Bildschirmbereiche, analog zu sakkadischen Augenbewegungen; (2) Think – höherwertiges Denken und Entscheidungsfindung, das kognitive Planung widerspiegelt; und (3) Link – Erzeugung ausführbarer Befehle für präzise motorische Steuerung, die menschliche Handlungsauswahlmechanismen nachahmt. Zusätzlich führen wir zwei Schlüsselinnovationen für das BTL-Framework ein: (1) Blink Data Generation – eine automatisierte Annotationspipeline, die speziell für Blink-Daten optimiert ist, und (2) BTL Reward – der erste regelbasierte Belohnungsmechanismus, der Reinforcement Learning sowohl prozess- als auch ergebnisgetrieben ermöglicht. Aufbauend auf diesem Framework entwickeln wir ein GUI-Agentenmodell namens BTL-UI, das durchweg state-of-the-art-Leistungen sowohl bei statischen GUI-Verständnis- als auch bei dynamischen Interaktionsaufgaben in umfassenden Benchmarks demonstriert. Diese Ergebnisse liefern eine überzeugende empirische Bestätigung der Wirksamkeit des Frameworks bei der Entwicklung fortschrittlicher GUI-Agenten.
English
In the field of AI-driven human-GUI interaction automation, while rapid
advances in multimodal large language models and reinforcement fine-tuning
techniques have yielded remarkable progress, a fundamental challenge persists:
their interaction logic significantly deviates from natural human-GUI
communication patterns. To fill this gap, we propose "Blink-Think-Link" (BTL),
a brain-inspired framework for human-GUI interaction that mimics the human
cognitive process between users and graphical interfaces. The system decomposes
interactions into three biologically plausible phases: (1) Blink - rapid
detection and attention to relevant screen areas, analogous to saccadic eye
movements; (2) Think - higher-level reasoning and decision-making, mirroring
cognitive planning; and (3) Link - generation of executable commands for
precise motor control, emulating human action selection mechanisms.
Additionally, we introduce two key technical innovations for the BTL framework:
(1) Blink Data Generation - an automated annotation pipeline specifically
optimized for blink data, and (2) BTL Reward -- the first rule-based reward
mechanism that enables reinforcement learning driven by both process and
outcome. Building upon this framework, we develop a GUI agent model named
BTL-UI, which demonstrates consistent state-of-the-art performance across both
static GUI understanding and dynamic interaction tasks in comprehensive
benchmarks. These results provide conclusive empirical validation of the
framework's efficacy in developing advanced GUI Agents.