ChatPaper.aiChatPaper

BTL-UI: Модель рассуждений "Моргни-Подумай-Свяжи" для агентов с графическим интерфейсом

BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent

September 19, 2025
Авторы: Shaojie Zhang, Ruoceng Zhang, Pei Fu, Shaokang Wang, Jiahui Yang, Xin Du, Shiqi Cui, Bin Qin, Ying Huang, Zhenbo Luo, Jian Luan
cs.AI

Аннотация

В области автоматизации взаимодействия человека с графическим интерфейсом (GUI) на основе ИИ, несмотря на быстрые успехи в мультимодальных больших языковых моделях и методах тонкой настройки с подкреплением, сохраняется фундаментальная проблема: их логика взаимодействия существенно отличается от естественных паттернов коммуникации между человеком и GUI. Чтобы устранить этот разрыв, мы предлагаем "Blink-Think-Link" (BTL) — биоинспирированную структуру для взаимодействия человека с GUI, которая имитирует когнитивный процесс между пользователями и графическими интерфейсами. Система разбивает взаимодействие на три биологически правдоподобные фазы: (1) Blink — быстрое обнаружение и внимание к релевантным областям экрана, аналогичное саккадическим движениям глаз; (2) Think — высокоуровневое рассуждение и принятие решений, отражающее когнитивное планирование; и (3) Link — генерация исполняемых команд для точного моторного контроля, имитирующая механизмы выбора действий у человека. Кроме того, мы представляем два ключевых технических новшества для структуры BTL: (1) Blink Data Generation — автоматизированный конвейер аннотации, оптимизированный специально для данных о "мигании", и (2) BTL Reward — первый механизм вознаграждения на основе правил, который позволяет обучение с подкреплением, управляемое как процессом, так и результатом. На основе этой структуры мы разрабатываем модель агента GUI под названием BTL-UI, которая демонстрирует стабильно передовые результаты как в задачах статического понимания GUI, так и в динамических задачах взаимодействия в комплексных тестах. Эти результаты предоставляют убедительное эмпирическое подтверждение эффективности структуры в разработке продвинутых агентов GUI.
English
In the field of AI-driven human-GUI interaction automation, while rapid advances in multimodal large language models and reinforcement fine-tuning techniques have yielded remarkable progress, a fundamental challenge persists: their interaction logic significantly deviates from natural human-GUI communication patterns. To fill this gap, we propose "Blink-Think-Link" (BTL), a brain-inspired framework for human-GUI interaction that mimics the human cognitive process between users and graphical interfaces. The system decomposes interactions into three biologically plausible phases: (1) Blink - rapid detection and attention to relevant screen areas, analogous to saccadic eye movements; (2) Think - higher-level reasoning and decision-making, mirroring cognitive planning; and (3) Link - generation of executable commands for precise motor control, emulating human action selection mechanisms. Additionally, we introduce two key technical innovations for the BTL framework: (1) Blink Data Generation - an automated annotation pipeline specifically optimized for blink data, and (2) BTL Reward -- the first rule-based reward mechanism that enables reinforcement learning driven by both process and outcome. Building upon this framework, we develop a GUI agent model named BTL-UI, which demonstrates consistent state-of-the-art performance across both static GUI understanding and dynamic interaction tasks in comprehensive benchmarks. These results provide conclusive empirical validation of the framework's efficacy in developing advanced GUI Agents.
PDF103September 22, 2025