BTL-UI: Blink-Think-Link Redeneermodel voor GUI-agenten
BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent
September 19, 2025
Auteurs: Shaojie Zhang, Ruoceng Zhang, Pei Fu, Shaokang Wang, Jiahui Yang, Xin Du, Shiqi Cui, Bin Qin, Ying Huang, Zhenbo Luo, Jian Luan
cs.AI
Samenvatting
Op het gebied van AI-gestuurde automatisering van mens-GUI-interactie, hoewel snelle vooruitgang in multimodale grote taalmodellen en verfijningstechnieken via reinforcement learning opmerkelijke vooruitgang heeft geboekt, blijft een fundamentele uitdaging bestaan: hun interactielogica wijkt aanzienlijk af van natuurlijke mens-GUI-communicatiepatronen. Om deze kloof te overbruggen, stellen we "Blink-Think-Link" (BTL) voor, een hersen-geïnspireerd raamwerk voor mens-GUI-interactie dat het menselijk cognitieve proces tussen gebruikers en grafische interfaces nabootst. Het systeem deelt interacties op in drie biologisch plausibele fasen: (1) Blink - snelle detectie en aandacht voor relevante schermgebieden, analoog aan saccadische oogbewegingen; (2) Think - hogere-orde redenering en besluitvorming, vergelijkbaar met cognitieve planning; en (3) Link - generatie van uitvoerbare commando's voor precieze motorische controle, die menselijke actieselectiemechanismen nabootsen. Daarnaast introduceren we twee belangrijke technische innovaties voor het BTL-raamwerk: (1) Blink Data Generation - een geautomatiseerde annotatiepijplijn specifiek geoptimaliseerd voor blink-data, en (2) BTL Reward - het eerste op regels gebaseerde beloningsmechanisme dat reinforcement learning mogelijk maakt, aangedreven door zowel proces als resultaat. Op basis van dit raamwerk ontwikkelen we een GUI-agentmodel genaamd BTL-UI, dat consistente state-of-the-art prestaties laat zien in zowel statische GUI-begrip als dynamische interactietaken in uitgebreide benchmarks. Deze resultaten bieden overtuigende empirische validatie van de effectiviteit van het raamwerk bij het ontwikkelen van geavanceerde GUI-agents.
English
In the field of AI-driven human-GUI interaction automation, while rapid
advances in multimodal large language models and reinforcement fine-tuning
techniques have yielded remarkable progress, a fundamental challenge persists:
their interaction logic significantly deviates from natural human-GUI
communication patterns. To fill this gap, we propose "Blink-Think-Link" (BTL),
a brain-inspired framework for human-GUI interaction that mimics the human
cognitive process between users and graphical interfaces. The system decomposes
interactions into three biologically plausible phases: (1) Blink - rapid
detection and attention to relevant screen areas, analogous to saccadic eye
movements; (2) Think - higher-level reasoning and decision-making, mirroring
cognitive planning; and (3) Link - generation of executable commands for
precise motor control, emulating human action selection mechanisms.
Additionally, we introduce two key technical innovations for the BTL framework:
(1) Blink Data Generation - an automated annotation pipeline specifically
optimized for blink data, and (2) BTL Reward -- the first rule-based reward
mechanism that enables reinforcement learning driven by both process and
outcome. Building upon this framework, we develop a GUI agent model named
BTL-UI, which demonstrates consistent state-of-the-art performance across both
static GUI understanding and dynamic interaction tasks in comprehensive
benchmarks. These results provide conclusive empirical validation of the
framework's efficacy in developing advanced GUI Agents.