CODA: Coordinación del Cerebro y el Cerebelo para un Agente de Computación de Doble Cerebro con Aprendizaje por Refuerzo Desacoplado
CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning
August 27, 2025
Autores: Zeyi Sun, Yuhang Cao, Jianze Liang, Qiushi Sun, Ziyu Liu, Zhixiong Zhang, Yuhang Zang, Xiaoyi Dong, Kai Chen, Dahua Lin, Jiaqi Wang
cs.AI
Resumen
Los agentes autónomos para Interfaces Gráficas de Usuario (GUIs) enfrentan desafíos significativos en dominios especializados, como la computación científica, donde se requieren tanto la planificación a largo plazo como la ejecución precisa. Los enfoques existentes presentan una disyuntiva: los agentes generalistas sobresalen en la planificación pero tienen un desempeño deficiente en la ejecución, mientras que los agentes especializados muestran la debilidad opuesta. Los marcos composicionales recientes intentan cerrar esta brecha al combinar un planificador y un ejecutor, pero suelen ser estáticos y no entrenables, lo que impide la adaptación basada en la experiencia. Esta es una limitación crítica dada la escasez de datos de alta calidad en dominios científicos. Para abordar estas limitaciones, presentamos CODA, un marco composicional novedoso y entrenable que integra un planificador generalista (Cerebrum) con un ejecutor especialista (Cerebellum), entrenado mediante una canalización de dos etapas dedicada. En la primera etapa, Especialización, aplicamos un enfoque GRPO desacoplado para entrenar un planificador experto para cada aplicación científica individualmente, partiendo de un pequeño conjunto de trayectorias de tareas. En la segunda etapa, Generalización, agregamos todas las trayectorias exitosas de los expertos especializados para construir un conjunto de datos consolidado, que luego se utiliza para el ajuste supervisado del planificador final. Esto dota a CODA tanto de una ejecución robusta como de generalización cruzada de dominios. Evaluado en cuatro aplicaciones desafiantes del benchmark ScienceBoard, CODA supera significativamente a los modelos de referencia y establece un nuevo estado del arte entre los modelos de código abierto.
English
Autonomous agents for Graphical User Interfaces (GUIs) face significant
challenges in specialized domains such as scientific computing, where both
long-horizon planning and precise execution are required. Existing approaches
suffer from a trade-off: generalist agents excel at planning but perform poorly
in execution, while specialized agents demonstrate the opposite weakness.
Recent compositional frameworks attempt to bridge this gap by combining a
planner and an actor, but they are typically static and non-trainable, which
prevents adaptation from experience. This is a critical limitation given the
scarcity of high-quality data in scientific domains. To address these
limitations, we introduce CODA, a novel and trainable compositional framework
that integrates a generalist planner (Cerebrum) with a specialist executor
(Cerebellum), trained via a dedicated two-stage pipeline. In the first stage,
Specialization, we apply a decoupled GRPO approach to train an expert planner
for each scientific application individually, bootstrapping from a small set of
task trajectories. In the second stage, Generalization, we aggregate all
successful trajectories from the specialized experts to build a consolidated
dataset, which is then used for supervised fine-tuning of the final planner.
This equips CODA with both robust execution and cross-domain generalization.
Evaluated on four challenging applications from the ScienceBoard benchmark,
CODA significantly outperforms baselines and establishes a new state of the art
among open-source models.