ChatPaper.aiChatPaper

CODA: Coordenando o Cérebro e o Cerebelo para um Agente Computacional de Duplo Cérebro com Aprendizado por Reforço Desacoplado

CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

August 27, 2025
Autores: Zeyi Sun, Yuhang Cao, Jianze Liang, Qiushi Sun, Ziyu Liu, Zhixiong Zhang, Yuhang Zang, Xiaoyi Dong, Kai Chen, Dahua Lin, Jiaqi Wang
cs.AI

Resumo

Agentes autônomos para Interfaces Gráficas de Usuário (GUIs) enfrentam desafios significativos em domínios especializados, como computação científica, onde tanto o planejamento de longo prazo quanto a execução precisa são necessários. As abordagens existentes sofrem com uma troca: agentes generalistas se destacam no planejamento, mas têm desempenho ruim na execução, enquanto agentes especializados demonstram a fraqueza oposta. Estruturas composicionais recentes tentam preencher essa lacuna ao combinar um planejador e um executor, mas elas são tipicamente estáticas e não treináveis, o que impede a adaptação com base na experiência. Essa é uma limitação crítica, dada a escassez de dados de alta qualidade em domínios científicos. Para abordar essas limitações, introduzimos o CODA, uma nova estrutura composicional treinável que integra um planejador generalista (Cérebro) com um executor especialista (Cerebelo), treinados por meio de um pipeline dedicado em duas etapas. Na primeira etapa, Especialização, aplicamos uma abordagem GRPO desacoplada para treinar um planejador especialista para cada aplicação científica individualmente, iniciando a partir de um pequeno conjunto de trajetórias de tarefas. Na segunda etapa, Generalização, agregamos todas as trajetórias bem-sucedidas dos especialistas para construir um conjunto de dados consolidado, que é então usado para o ajuste fino supervisionado do planejador final. Isso equipa o CODA com execução robusta e generalização entre domínios. Avaliado em quatro aplicações desafiadoras do benchmark ScienceBoard, o CODA supera significativamente as abordagens de base e estabelece um novo estado da arte entre modelos de código aberto.
English
Autonomous agents for Graphical User Interfaces (GUIs) face significant challenges in specialized domains such as scientific computing, where both long-horizon planning and precise execution are required. Existing approaches suffer from a trade-off: generalist agents excel at planning but perform poorly in execution, while specialized agents demonstrate the opposite weakness. Recent compositional frameworks attempt to bridge this gap by combining a planner and an actor, but they are typically static and non-trainable, which prevents adaptation from experience. This is a critical limitation given the scarcity of high-quality data in scientific domains. To address these limitations, we introduce CODA, a novel and trainable compositional framework that integrates a generalist planner (Cerebrum) with a specialist executor (Cerebellum), trained via a dedicated two-stage pipeline. In the first stage, Specialization, we apply a decoupled GRPO approach to train an expert planner for each scientific application individually, bootstrapping from a small set of task trajectories. In the second stage, Generalization, we aggregate all successful trajectories from the specialized experts to build a consolidated dataset, which is then used for supervised fine-tuning of the final planner. This equips CODA with both robust execution and cross-domain generalization. Evaluated on four challenging applications from the ScienceBoard benchmark, CODA significantly outperforms baselines and establishes a new state of the art among open-source models.
PDF362August 28, 2025