CODA: Coordinación del Cerebro y el Cerebelo para un Agente de Computación de Doble Cerebro con Aprendizaje por Refuerzo Desacoplado

Resumen

Los agentes autónomos para Interfaces Gráficas de Usuario (GUIs) enfrentan desafíos significativos en dominios especializados, como la computación científica, donde se requieren tanto la planificación a largo plazo como la ejecución precisa. Los enfoques existentes presentan una disyuntiva: los agentes generalistas sobresalen en la planificación pero tienen un desempeño deficiente en la ejecución, mientras que los agentes especializados muestran la debilidad opuesta. Los marcos composicionales recientes intentan cerrar esta brecha al combinar un planificador y un ejecutor, pero suelen ser estáticos y no entrenables, lo que impide la adaptación basada en la experiencia. Esta es una limitación crítica dada la escasez de datos de alta calidad en dominios científicos. Para abordar estas limitaciones, presentamos CODA, un marco composicional novedoso y entrenable que integra un planificador generalista (Cerebrum) con un ejecutor especialista (Cerebellum), entrenado mediante una canalización de dos etapas dedicada. En la primera etapa, Especialización, aplicamos un enfoque GRPO desacoplado para entrenar un planificador experto para cada aplicación científica individualmente, partiendo de un pequeño conjunto de trayectorias de tareas. En la segunda etapa, Generalización, agregamos todas las trayectorias exitosas de los expertos especializados para construir un conjunto de datos consolidado, que luego se utiliza para el ajuste supervisado del planificador final. Esto dota a CODA tanto de una ejecución robusta como de generalización cruzada de dominios. Evaluado en cuatro aplicaciones desafiantes del benchmark ScienceBoard, CODA supera significativamente a los modelos de referencia y establece un nuevo estado del arte entre los modelos de código abierto.

English

Autonomous agents for Graphical User Interfaces (GUIs) face significant challenges in specialized domains such as scientific computing, where both long-horizon planning and precise execution are required. Existing approaches suffer from a trade-off: generalist agents excel at planning but perform poorly in execution, while specialized agents demonstrate the opposite weakness. Recent compositional frameworks attempt to bridge this gap by combining a planner and an actor, but they are typically static and non-trainable, which prevents adaptation from experience. This is a critical limitation given the scarcity of high-quality data in scientific domains. To address these limitations, we introduce CODA, a novel and trainable compositional framework that integrates a generalist planner (Cerebrum) with a specialist executor (Cerebellum), trained via a dedicated two-stage pipeline. In the first stage, Specialization, we apply a decoupled GRPO approach to train an expert planner for each scientific application individually, bootstrapping from a small set of task trajectories. In the second stage, Generalization, we aggregate all successful trajectories from the specialized experts to build a consolidated dataset, which is then used for supervised fine-tuning of the final planner. This equips CODA with both robust execution and cross-domain generalization. Evaluated on four challenging applications from the ScienceBoard benchmark, CODA significantly outperforms baselines and establishes a new state of the art among open-source models.

CODA: Coordinación del Cerebro y el Cerebelo para un Agente de Computación de Doble Cerebro con Aprendizaje por Refuerzo Desacoplado

CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

Resumen

Support