ChatPaper.aiChatPaper

BTL-UI: GUI 에이전트를 위한 Blink-Think-Link 추론 모델

BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent

September 19, 2025
저자: Shaojie Zhang, Ruoceng Zhang, Pei Fu, Shaokang Wang, Jiahui Yang, Xin Du, Shiqi Cui, Bin Qin, Ying Huang, Zhenbo Luo, Jian Luan
cs.AI

초록

AI 기반 인간-GUI 상호작용 자동화 분야에서, 다중 모드 대형 언어 모델과 강화 미세 조정 기술의 급속한 발전이 놀라운 진전을 이루었음에도 불구하고, 근본적인 문제가 여전히 존재한다: 이들의 상호작용 논리가 자연스러운 인간-GUI 커뮤니케이션 패턴과 크게 벗어난다는 점이다. 이러한 격차를 메우기 위해, 우리는 인간의 인지 과정을 모방한 "Blink-Think-Link"(BTL)이라는 인간-GUI 상호작용을 위한 뇌 영감 프레임워크를 제안한다. 이 시스템은 상호작용을 생물학적으로 타당한 세 단계로 분해한다: (1) Blink - 사카딕 안구 운동과 유사하게 관련 화면 영역을 신속하게 탐지하고 주의를 기울이는 단계; (2) Think - 인지 계획을 반영하는 고차원적 추론 및 의사결정 단계; (3) Link - 인간의 행동 선택 메커니즘을 모방하여 정밀한 운동 제어를 위한 실행 가능한 명령을 생성하는 단계. 또한, 우리는 BTL 프레임워크를 위한 두 가지 핵심 기술 혁신을 소개한다: (1) Blink Data Generation - Blink 데이터에 특화된 자동 주석 파이프라인, 그리고 (2) BTL Reward - 과정과 결과 모두에 의해 강화 학습을 가능하게 하는 최초의 규칙 기반 보상 메커니즘. 이 프레임워크를 기반으로, 우리는 BTL-UI라는 GUI 에이전트 모델을 개발하였으며, 이 모델은 포괄적인 벤치마크에서 정적 GUI 이해와 동적 상호작용 작업 모두에서 일관된 최첨단 성능을 보여준다. 이러한 결과는 고급 GUI 에이전트 개발에 있어 이 프레임워크의 효능을 결정적으로 실증적으로 검증한다.
English
In the field of AI-driven human-GUI interaction automation, while rapid advances in multimodal large language models and reinforcement fine-tuning techniques have yielded remarkable progress, a fundamental challenge persists: their interaction logic significantly deviates from natural human-GUI communication patterns. To fill this gap, we propose "Blink-Think-Link" (BTL), a brain-inspired framework for human-GUI interaction that mimics the human cognitive process between users and graphical interfaces. The system decomposes interactions into three biologically plausible phases: (1) Blink - rapid detection and attention to relevant screen areas, analogous to saccadic eye movements; (2) Think - higher-level reasoning and decision-making, mirroring cognitive planning; and (3) Link - generation of executable commands for precise motor control, emulating human action selection mechanisms. Additionally, we introduce two key technical innovations for the BTL framework: (1) Blink Data Generation - an automated annotation pipeline specifically optimized for blink data, and (2) BTL Reward -- the first rule-based reward mechanism that enables reinforcement learning driven by both process and outcome. Building upon this framework, we develop a GUI agent model named BTL-UI, which demonstrates consistent state-of-the-art performance across both static GUI understanding and dynamic interaction tasks in comprehensive benchmarks. These results provide conclusive empirical validation of the framework's efficacy in developing advanced GUI Agents.
PDF103September 22, 2025