BTL-UI: Modelo de Raciocínio Piscar-Pensar-Conectar para Agentes de Interface Gráfica
BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent
September 19, 2025
Autores: Shaojie Zhang, Ruoceng Zhang, Pei Fu, Shaokang Wang, Jiahui Yang, Xin Du, Shiqi Cui, Bin Qin, Ying Huang, Zhenbo Luo, Jian Luan
cs.AI
Resumo
No campo da automação de interações humano-GUI (Interface Gráfica do Usuário) impulsionada por IA, embora avanços rápidos em modelos de linguagem multimodal e técnicas de ajuste fino por reforço tenham gerado progressos notáveis, um desafio fundamental persiste: sua lógica de interação desvia-se significativamente dos padrões naturais de comunicação humano-GUI. Para preencher essa lacuna, propomos o "Blink-Think-Link" (BTL), um framework inspirado no cérebro humano para interações humano-GUI que imita o processo cognitivo entre usuários e interfaces gráficas. O sistema decompõe as interações em três fases biologicamente plausíveis: (1) Blink - detecção rápida e atenção às áreas relevantes da tela, análoga aos movimentos sacádicos dos olhos; (2) Think - raciocínio e tomada de decisão de alto nível, refletindo o planejamento cognitivo; e (3) Link - geração de comandos executáveis para controle motor preciso, emulando os mecanismos de seleção de ações humanos. Além disso, introduzimos duas inovações técnicas fundamentais para o framework BTL: (1) Geração de Dados Blink - um pipeline de anotação automatizada especificamente otimizado para dados de blink, e (2) Recompensa BTL - o primeiro mecanismo de recompensa baseado em regras que permite o aprendizado por reforço orientado tanto pelo processo quanto pelo resultado. Com base nesse framework, desenvolvemos um modelo de agente GUI chamado BTL-UI, que demonstra desempenho consistentemente de ponta tanto em tarefas de compreensão estática de GUI quanto em interações dinâmicas em benchmarks abrangentes. Esses resultados fornecem validação empírica conclusiva da eficácia do framework no desenvolvimento de Agentes GUI avançados.
English
In the field of AI-driven human-GUI interaction automation, while rapid
advances in multimodal large language models and reinforcement fine-tuning
techniques have yielded remarkable progress, a fundamental challenge persists:
their interaction logic significantly deviates from natural human-GUI
communication patterns. To fill this gap, we propose "Blink-Think-Link" (BTL),
a brain-inspired framework for human-GUI interaction that mimics the human
cognitive process between users and graphical interfaces. The system decomposes
interactions into three biologically plausible phases: (1) Blink - rapid
detection and attention to relevant screen areas, analogous to saccadic eye
movements; (2) Think - higher-level reasoning and decision-making, mirroring
cognitive planning; and (3) Link - generation of executable commands for
precise motor control, emulating human action selection mechanisms.
Additionally, we introduce two key technical innovations for the BTL framework:
(1) Blink Data Generation - an automated annotation pipeline specifically
optimized for blink data, and (2) BTL Reward -- the first rule-based reward
mechanism that enables reinforcement learning driven by both process and
outcome. Building upon this framework, we develop a GUI agent model named
BTL-UI, which demonstrates consistent state-of-the-art performance across both
static GUI understanding and dynamic interaction tasks in comprehensive
benchmarks. These results provide conclusive empirical validation of the
framework's efficacy in developing advanced GUI Agents.