BTL-UI: Modelo de Razonamiento Parpadeo-Pienso-Enlaza para Agentes de Interfaz Gráfica de Usuario
BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent
September 19, 2025
Autores: Shaojie Zhang, Ruoceng Zhang, Pei Fu, Shaokang Wang, Jiahui Yang, Xin Du, Shiqi Cui, Bin Qin, Ying Huang, Zhenbo Luo, Jian Luan
cs.AI
Resumen
En el campo de la automatización de la interacción humano-GUI impulsada por IA, si bien los avances rápidos en modelos de lenguaje multimodal y técnicas de ajuste fino por refuerzo han logrado un progreso notable, persiste un desafío fundamental: su lógica de interacción se desvía significativamente de los patrones naturales de comunicación humano-GUI. Para abordar esta brecha, proponemos "Blink-Think-Link" (BTL), un marco inspirado en el cerebro para la interacción humano-GUI que imita el proceso cognitivo humano entre los usuarios y las interfaces gráficas. El sistema descompone las interacciones en tres fases biológicamente plausibles: (1) Blink - detección rápida y atención a áreas relevantes de la pantalla, análogo a los movimientos sacádicos del ojo; (2) Think - razonamiento y toma de decisiones de alto nivel, reflejando la planificación cognitiva; y (3) Link - generación de comandos ejecutables para un control motor preciso, emulando los mecanismos de selección de acciones humanos. Además, introducimos dos innovaciones técnicas clave para el marco BTL: (1) Generación de Datos Blink - una canalización de anotación automatizada específicamente optimizada para datos de parpadeo, y (2) Recompensa BTL - el primer mecanismo de recompensa basado en reglas que permite el aprendizaje por refuerzo impulsado tanto por el proceso como por el resultado. Sobre la base de este marco, desarrollamos un modelo de agente GUI llamado BTL-UI, que demuestra un rendimiento constante de vanguardia tanto en tareas de comprensión estática de GUI como en tareas de interacción dinámica en evaluaciones integrales. Estos resultados proporcionan una validación empírica concluyente de la eficacia del marco en el desarrollo de Agentes GUI avanzados.
English
In the field of AI-driven human-GUI interaction automation, while rapid
advances in multimodal large language models and reinforcement fine-tuning
techniques have yielded remarkable progress, a fundamental challenge persists:
their interaction logic significantly deviates from natural human-GUI
communication patterns. To fill this gap, we propose "Blink-Think-Link" (BTL),
a brain-inspired framework for human-GUI interaction that mimics the human
cognitive process between users and graphical interfaces. The system decomposes
interactions into three biologically plausible phases: (1) Blink - rapid
detection and attention to relevant screen areas, analogous to saccadic eye
movements; (2) Think - higher-level reasoning and decision-making, mirroring
cognitive planning; and (3) Link - generation of executable commands for
precise motor control, emulating human action selection mechanisms.
Additionally, we introduce two key technical innovations for the BTL framework:
(1) Blink Data Generation - an automated annotation pipeline specifically
optimized for blink data, and (2) BTL Reward -- the first rule-based reward
mechanism that enables reinforcement learning driven by both process and
outcome. Building upon this framework, we develop a GUI agent model named
BTL-UI, which demonstrates consistent state-of-the-art performance across both
static GUI understanding and dynamic interaction tasks in comprehensive
benchmarks. These results provide conclusive empirical validation of the
framework's efficacy in developing advanced GUI Agents.