ChatPaper.aiChatPaper

BTL-UI: Модель рассуждений "Моргни-Подумай-Свяжи" для агентов с графическим интерфейсом

BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent

September 19, 2025
Авторы: Shaojie Zhang, Ruoceng Zhang, Pei Fu, Shaokang Wang, Jiahui Yang, Xin Du, Shiqi Cui, Bin Qin, Ying Huang, Zhenbo Luo, Jian Luan
cs.AI

Аннотация

В области автоматизации взаимодействия человека с графическим интерфейсом (GUI) на основе ИИ, несмотря на быстрые успехи в мультимодальных больших языковых моделях и методах тонкой настройки с подкреплением, сохраняется фундаментальная проблема: их логика взаимодействия существенно отличается от естественных паттернов коммуникации между человеком и GUI. Чтобы устранить этот разрыв, мы предлагаем "Blink-Think-Link" (BTL) — биоинспирированную структуру для взаимодействия человека с GUI, которая имитирует когнитивный процесс между пользователями и графическими интерфейсами. Система разбивает взаимодействие на три биологически правдоподобные фазы: (1) Blink — быстрое обнаружение и внимание к релевантным областям экрана, аналогичное саккадическим движениям глаз; (2) Think — высокоуровневое рассуждение и принятие решений, отражающее когнитивное планирование; и (3) Link — генерация исполняемых команд для точного моторного контроля, имитирующая механизмы выбора действий у человека. Кроме того, мы представляем два ключевых технических новшества для структуры BTL: (1) Blink Data Generation — автоматизированный конвейер аннотации, оптимизированный специально для данных о "мигании", и (2) BTL Reward — первый механизм вознаграждения на основе правил, который позволяет обучение с подкреплением, управляемое как процессом, так и результатом. На основе этой структуры мы разрабатываем модель агента GUI под названием BTL-UI, которая демонстрирует стабильно передовые результаты как в задачах статического понимания GUI, так и в динамических задачах взаимодействия в комплексных тестах. Эти результаты предоставляют убедительное эмпирическое подтверждение эффективности структуры в разработке продвинутых агентов GUI.
English
In the field of AI-driven human-GUI interaction automation, while rapid advances in multimodal large language models and reinforcement fine-tuning techniques have yielded remarkable progress, a fundamental challenge persists: their interaction logic significantly deviates from natural human-GUI communication patterns. To fill this gap, we propose "Blink-Think-Link" (BTL), a brain-inspired framework for human-GUI interaction that mimics the human cognitive process between users and graphical interfaces. The system decomposes interactions into three biologically plausible phases: (1) Blink - rapid detection and attention to relevant screen areas, analogous to saccadic eye movements; (2) Think - higher-level reasoning and decision-making, mirroring cognitive planning; and (3) Link - generation of executable commands for precise motor control, emulating human action selection mechanisms. Additionally, we introduce two key technical innovations for the BTL framework: (1) Blink Data Generation - an automated annotation pipeline specifically optimized for blink data, and (2) BTL Reward -- the first rule-based reward mechanism that enables reinforcement learning driven by both process and outcome. Building upon this framework, we develop a GUI agent model named BTL-UI, which demonstrates consistent state-of-the-art performance across both static GUI understanding and dynamic interaction tasks in comprehensive benchmarks. These results provide conclusive empirical validation of the framework's efficacy in developing advanced GUI Agents.