CODA : Coordination du Cerveau et du Cervelet pour un Agent Informatique à Double Cerveau avec Apprentissage par Renforcement Découplé

papers.abstract

Les agents autonomes pour les interfaces graphiques (GUI) rencontrent des défis majeurs dans des domaines spécialisés tels que le calcul scientifique, où à la fois une planification à long terme et une exécution précise sont nécessaires. Les approches existantes souffrent d'un compromis : les agents généralistes excellent en planification mais performent mal en exécution, tandis que les agents spécialisés présentent la faiblesse inverse. Les cadres compositionnels récents tentent de combler cet écart en combinant un planificateur et un acteur, mais ils sont généralement statiques et non entraînables, ce qui empêche l'adaptation par l'expérience. C'est une limitation critique compte tenu de la rareté des données de haute qualité dans les domaines scientifiques. Pour répondre à ces limitations, nous introduisons CODA, un cadre compositionnel novateur et entraînable qui intègre un planificateur généraliste (Cerebrum) avec un exécuteur spécialiste (Cerebellum), entraîné via un pipeline dédié en deux étapes. Dans la première étape, Spécialisation, nous appliquons une approche GRPO découplée pour entraîner un planificateur expert pour chaque application scientifique individuellement, en amorçant à partir d'un petit ensemble de trajectoires de tâches. Dans la deuxième étape, Généralisation, nous agrégeons toutes les trajectoires réussies des experts spécialisés pour construire un ensemble de données consolidé, qui est ensuite utilisé pour l'affinage supervisé du planificateur final. Cela équipe CODA à la fois d'une exécution robuste et d'une généralisation inter-domaines. Évalué sur quatre applications difficiles du benchmark ScienceBoard, CODA surpasse significativement les modèles de référence et établit un nouvel état de l'art parmi les modèles open-source.

English

Autonomous agents for Graphical User Interfaces (GUIs) face significant challenges in specialized domains such as scientific computing, where both long-horizon planning and precise execution are required. Existing approaches suffer from a trade-off: generalist agents excel at planning but perform poorly in execution, while specialized agents demonstrate the opposite weakness. Recent compositional frameworks attempt to bridge this gap by combining a planner and an actor, but they are typically static and non-trainable, which prevents adaptation from experience. This is a critical limitation given the scarcity of high-quality data in scientific domains. To address these limitations, we introduce CODA, a novel and trainable compositional framework that integrates a generalist planner (Cerebrum) with a specialist executor (Cerebellum), trained via a dedicated two-stage pipeline. In the first stage, Specialization, we apply a decoupled GRPO approach to train an expert planner for each scientific application individually, bootstrapping from a small set of task trajectories. In the second stage, Generalization, we aggregate all successful trajectories from the specialized experts to build a consolidated dataset, which is then used for supervised fine-tuning of the final planner. This equips CODA with both robust execution and cross-domain generalization. Evaluated on four challenging applications from the ScienceBoard benchmark, CODA significantly outperforms baselines and establishes a new state of the art among open-source models.

CODA : Coordination du Cerveau et du Cervelet pour un Agent Informatique à Double Cerveau avec Apprentissage par Renforcement Découplé

CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

papers.abstract

Support