CODA: 대뇌와 소뇌를 조정하는 이중 뇌 컴퓨터 디커플드 강화 학습을 활용한 사용자 에이전트
CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning
August 27, 2025
저자: Zeyi Sun, Yuhang Cao, Jianze Liang, Qiushi Sun, Ziyu Liu, Zhixiong Zhang, Yuhang Zang, Xiaoyi Dong, Kai Chen, Dahua Lin, Jiaqi Wang
cs.AI
초록
그래픽 사용자 인터페이스(GUI)를 위한 자율 에이전트는 과학 컴퓨팅과 같은 전문 분야에서 장기적인 계획과 정밀한 실행이 모두 요구되기 때문에 상당한 도전에 직면해 있습니다. 기존 접근 방식은 일반적인 에이전트가 계획에는 뛰어나지만 실행에서는 성능이 떨어지고, 전문 에이전트는 반대의 약점을 보이는 트레이드오프 문제를 겪고 있습니다. 최근의 구성적 프레임워크는 계획자와 실행자를 결합하여 이러한 격차를 해결하려고 시도하지만, 일반적으로 정적이고 학습이 불가능하여 경험을 통해 적응할 수 없다는 한계가 있습니다. 이는 과학 분야에서 고품질 데이터가 부족하다는 점을 고려할 때 심각한 제약입니다. 이러한 한계를 해결하기 위해, 우리는 일반적인 계획자(Cerebrum)와 전문 실행자(Cerebellum)를 통합한 새로운 학습 가능한 구성적 프레임워크인 CODA를 소개합니다. CODA는 전용의 두 단계 파이프라인을 통해 학습됩니다. 첫 번째 단계인 전문화(Specialization)에서는 소규모 작업 궤적 세트를 기반으로 각 과학 응용 프로그램에 대해 전문 계획자를 훈련하기 위해 분리된 GRPO 접근 방식을 적용합니다. 두 번째 단계인 일반화(Generalization)에서는 전문화된 전문가들의 모든 성공적인 궤적을 집계하여 통합 데이터셋을 구축하고, 이를 최종 계획자의 지도 미세 조정에 사용합니다. 이를 통해 CODA는 견고한 실행과 도메인 간 일반화 능력을 모두 갖추게 됩니다. ScienceBoard 벤치마크의 네 가지 도전적인 응용 프로그램에서 평가한 결과, CODA는 기준 모델들을 크게 능가하며 오픈소스 모델 중 새로운 최첨단 기술을 확립했습니다.
English
Autonomous agents for Graphical User Interfaces (GUIs) face significant
challenges in specialized domains such as scientific computing, where both
long-horizon planning and precise execution are required. Existing approaches
suffer from a trade-off: generalist agents excel at planning but perform poorly
in execution, while specialized agents demonstrate the opposite weakness.
Recent compositional frameworks attempt to bridge this gap by combining a
planner and an actor, but they are typically static and non-trainable, which
prevents adaptation from experience. This is a critical limitation given the
scarcity of high-quality data in scientific domains. To address these
limitations, we introduce CODA, a novel and trainable compositional framework
that integrates a generalist planner (Cerebrum) with a specialist executor
(Cerebellum), trained via a dedicated two-stage pipeline. In the first stage,
Specialization, we apply a decoupled GRPO approach to train an expert planner
for each scientific application individually, bootstrapping from a small set of
task trajectories. In the second stage, Generalization, we aggregate all
successful trajectories from the specialized experts to build a consolidated
dataset, which is then used for supervised fine-tuning of the final planner.
This equips CODA with both robust execution and cross-domain generalization.
Evaluated on four challenging applications from the ScienceBoard benchmark,
CODA significantly outperforms baselines and establishes a new state of the art
among open-source models.