ChatPaper.aiChatPaper

BTL-UI: Modello di Ragionamento Blink-Think-Link per Agenti GUI

BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent

September 19, 2025
Autori: Shaojie Zhang, Ruoceng Zhang, Pei Fu, Shaokang Wang, Jiahui Yang, Xin Du, Shiqi Cui, Bin Qin, Ying Huang, Zhenbo Luo, Jian Luan
cs.AI

Abstract

Nel campo dell'automazione dell'interazione uomo-interfaccia grafica (GUI) guidata dall'IA, sebbene i rapidi progressi nei modelli linguistici multimodali di grandi dimensioni e nelle tecniche di fine-tuning basate sul reinforcement learning abbiano portato a risultati notevoli, una sfida fondamentale persiste: la loro logica di interazione si discosta significativamente dai modelli naturali di comunicazione uomo-GUI. Per colmare questa lacuna, proponiamo "Blink-Think-Link" (BTL), un framework ispirato al cervello umano per l'interazione uomo-GUI che imita il processo cognitivo umano tra utenti e interfacce grafiche. Il sistema scompone le interazioni in tre fasi biologicamente plausibili: (1) Blink - rapida rilevazione e attenzione alle aree rilevanti dello schermo, analogo ai movimenti saccadici degli occhi; (2) Think - ragionamento e decisione di livello superiore, che riflette la pianificazione cognitiva; e (3) Link - generazione di comandi eseguibili per un controllo motorio preciso, che emula i meccanismi di selezione delle azioni umane. Inoltre, introduciamo due innovazioni tecniche chiave per il framework BTL: (1) Blink Data Generation - una pipeline di annotazione automatica specificamente ottimizzata per i dati di blink, e (2) BTL Reward - il primo meccanismo di ricompensa basato su regole che consente l'apprendimento per rinforzo guidato sia dal processo che dal risultato. Basandoci su questo framework, sviluppiamo un modello di agente GUI denominato BTL-UI, che dimostra prestazioni costantemente all'avanguardia sia nelle attività di comprensione statica delle GUI che in quelle di interazione dinamica in benchmark completi. Questi risultati forniscono una validazione empirica conclusiva dell'efficacia del framework nello sviluppo di agenti GUI avanzati.
English
In the field of AI-driven human-GUI interaction automation, while rapid advances in multimodal large language models and reinforcement fine-tuning techniques have yielded remarkable progress, a fundamental challenge persists: their interaction logic significantly deviates from natural human-GUI communication patterns. To fill this gap, we propose "Blink-Think-Link" (BTL), a brain-inspired framework for human-GUI interaction that mimics the human cognitive process between users and graphical interfaces. The system decomposes interactions into three biologically plausible phases: (1) Blink - rapid detection and attention to relevant screen areas, analogous to saccadic eye movements; (2) Think - higher-level reasoning and decision-making, mirroring cognitive planning; and (3) Link - generation of executable commands for precise motor control, emulating human action selection mechanisms. Additionally, we introduce two key technical innovations for the BTL framework: (1) Blink Data Generation - an automated annotation pipeline specifically optimized for blink data, and (2) BTL Reward -- the first rule-based reward mechanism that enables reinforcement learning driven by both process and outcome. Building upon this framework, we develop a GUI agent model named BTL-UI, which demonstrates consistent state-of-the-art performance across both static GUI understanding and dynamic interaction tasks in comprehensive benchmarks. These results provide conclusive empirical validation of the framework's efficacy in developing advanced GUI Agents.
PDF143September 22, 2025