ChatPaper.aiChatPaper

BTL-UI : Modèle de raisonnement Blink-Think-Link pour les agents d’interface graphique

BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent

September 19, 2025
papers.authors: Shaojie Zhang, Ruoceng Zhang, Pei Fu, Shaokang Wang, Jiahui Yang, Xin Du, Shiqi Cui, Bin Qin, Ying Huang, Zhenbo Luo, Jian Luan
cs.AI

papers.abstract

Dans le domaine de l'automatisation des interactions humain-interface graphique (GUI) pilotée par l'IA, bien que les progrès rapides des modèles de langage multimodaux de grande envergure et des techniques de réglage fin par renforcement aient permis des avancées remarquables, un défi fondamental persiste : leur logique d'interaction s'écarte significativement des schémas naturels de communication humain-GUI. Pour combler cette lacune, nous proposons « Blink-Think-Link » (BTL), un cadre inspiré du cerveau pour l'interaction humain-GUI qui imite le processus cognitif humain entre les utilisateurs et les interfaces graphiques. Le système décompose les interactions en trois phases biologiquement plausibles : (1) Blink – détection rapide et attention portée aux zones pertinentes de l'écran, analogue aux mouvements oculaires saccadiques ; (2) Think – raisonnement et prise de décision de haut niveau, reflétant la planification cognitive ; et (3) Link – génération de commandes exécutables pour un contrôle moteur précis, imitant les mécanismes de sélection d'actions humains. De plus, nous introduisons deux innovations techniques clés pour le cadre BTL : (1) Blink Data Generation – un pipeline d'annotation automatisé spécifiquement optimisé pour les données de clignement, et (2) BTL Reward – le premier mécanisme de récompense basé sur des règles permettant un apprentissage par renforcement guidé à la fois par le processus et le résultat. Sur la base de ce cadre, nous développons un modèle d'agent GUI nommé BTL-UI, qui démontre des performances de pointe constantes dans des tâches de compréhension statique des GUI et d'interaction dynamique lors de benchmarks complets. Ces résultats fournissent une validation empirique concluante de l'efficacité du cadre dans le développement d'agents GUI avancés.
English
In the field of AI-driven human-GUI interaction automation, while rapid advances in multimodal large language models and reinforcement fine-tuning techniques have yielded remarkable progress, a fundamental challenge persists: their interaction logic significantly deviates from natural human-GUI communication patterns. To fill this gap, we propose "Blink-Think-Link" (BTL), a brain-inspired framework for human-GUI interaction that mimics the human cognitive process between users and graphical interfaces. The system decomposes interactions into three biologically plausible phases: (1) Blink - rapid detection and attention to relevant screen areas, analogous to saccadic eye movements; (2) Think - higher-level reasoning and decision-making, mirroring cognitive planning; and (3) Link - generation of executable commands for precise motor control, emulating human action selection mechanisms. Additionally, we introduce two key technical innovations for the BTL framework: (1) Blink Data Generation - an automated annotation pipeline specifically optimized for blink data, and (2) BTL Reward -- the first rule-based reward mechanism that enables reinforcement learning driven by both process and outcome. Building upon this framework, we develop a GUI agent model named BTL-UI, which demonstrates consistent state-of-the-art performance across both static GUI understanding and dynamic interaction tasks in comprehensive benchmarks. These results provide conclusive empirical validation of the framework's efficacy in developing advanced GUI Agents.
PDF103September 22, 2025