ChatPaper.aiChatPaper

BTL-UI: Blink-Think-Link Redeneermodel voor GUI-agenten

BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent

September 19, 2025
Auteurs: Shaojie Zhang, Ruoceng Zhang, Pei Fu, Shaokang Wang, Jiahui Yang, Xin Du, Shiqi Cui, Bin Qin, Ying Huang, Zhenbo Luo, Jian Luan
cs.AI

Samenvatting

Op het gebied van AI-gestuurde automatisering van mens-GUI-interactie, hoewel snelle vooruitgang in multimodale grote taalmodellen en verfijningstechnieken via reinforcement learning opmerkelijke vooruitgang heeft geboekt, blijft een fundamentele uitdaging bestaan: hun interactielogica wijkt aanzienlijk af van natuurlijke mens-GUI-communicatiepatronen. Om deze kloof te overbruggen, stellen we "Blink-Think-Link" (BTL) voor, een hersen-geïnspireerd raamwerk voor mens-GUI-interactie dat het menselijk cognitieve proces tussen gebruikers en grafische interfaces nabootst. Het systeem deelt interacties op in drie biologisch plausibele fasen: (1) Blink - snelle detectie en aandacht voor relevante schermgebieden, analoog aan saccadische oogbewegingen; (2) Think - hogere-orde redenering en besluitvorming, vergelijkbaar met cognitieve planning; en (3) Link - generatie van uitvoerbare commando's voor precieze motorische controle, die menselijke actieselectiemechanismen nabootsen. Daarnaast introduceren we twee belangrijke technische innovaties voor het BTL-raamwerk: (1) Blink Data Generation - een geautomatiseerde annotatiepijplijn specifiek geoptimaliseerd voor blink-data, en (2) BTL Reward - het eerste op regels gebaseerde beloningsmechanisme dat reinforcement learning mogelijk maakt, aangedreven door zowel proces als resultaat. Op basis van dit raamwerk ontwikkelen we een GUI-agentmodel genaamd BTL-UI, dat consistente state-of-the-art prestaties laat zien in zowel statische GUI-begrip als dynamische interactietaken in uitgebreide benchmarks. Deze resultaten bieden overtuigende empirische validatie van de effectiviteit van het raamwerk bij het ontwikkelen van geavanceerde GUI-agents.
English
In the field of AI-driven human-GUI interaction automation, while rapid advances in multimodal large language models and reinforcement fine-tuning techniques have yielded remarkable progress, a fundamental challenge persists: their interaction logic significantly deviates from natural human-GUI communication patterns. To fill this gap, we propose "Blink-Think-Link" (BTL), a brain-inspired framework for human-GUI interaction that mimics the human cognitive process between users and graphical interfaces. The system decomposes interactions into three biologically plausible phases: (1) Blink - rapid detection and attention to relevant screen areas, analogous to saccadic eye movements; (2) Think - higher-level reasoning and decision-making, mirroring cognitive planning; and (3) Link - generation of executable commands for precise motor control, emulating human action selection mechanisms. Additionally, we introduce two key technical innovations for the BTL framework: (1) Blink Data Generation - an automated annotation pipeline specifically optimized for blink data, and (2) BTL Reward -- the first rule-based reward mechanism that enables reinforcement learning driven by both process and outcome. Building upon this framework, we develop a GUI agent model named BTL-UI, which demonstrates consistent state-of-the-art performance across both static GUI understanding and dynamic interaction tasks in comprehensive benchmarks. These results provide conclusive empirical validation of the framework's efficacy in developing advanced GUI Agents.
PDF143September 22, 2025