ChatPaper.aiChatPaper

CODA: Koordination von Großhirn und Kleinhirn für einen Dual-Gehirn-Computer Nutzen-Agent mit entkoppeltem Reinforcement Learning

CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

August 27, 2025
papers.authors: Zeyi Sun, Yuhang Cao, Jianze Liang, Qiushi Sun, Ziyu Liu, Zhixiong Zhang, Yuhang Zang, Xiaoyi Dong, Kai Chen, Dahua Lin, Jiaqi Wang
cs.AI

papers.abstract

Autonome Agenten für grafische Benutzeroberflächen (GUIs) stehen in spezialisierten Domänen wie dem wissenschaftlichen Rechnen vor erheblichen Herausforderungen, da sowohl langfristige Planung als auch präzise Ausführung erforderlich sind. Bestehende Ansätze leiden unter einem Kompromiss: Generalisten-Agenten sind in der Planung stark, schneiden jedoch bei der Ausführung schlecht ab, während spezialisierte Agenten das gegenteilige Problem aufweisen. Neuere kompositionelle Frameworks versuchen, diese Lücke zu schließen, indem sie einen Planer und einen Akteur kombinieren, sind jedoch typischerweise statisch und nicht trainierbar, was eine Anpassung durch Erfahrung verhindert. Dies ist eine kritische Einschränkung angesichts der Knappheit hochwertiger Daten in wissenschaftlichen Domänen. Um diese Einschränkungen zu überwinden, stellen wir CODA vor, ein neuartiges und trainierbares kompositionelles Framework, das einen Generalisten-Planer (Cerebrum) mit einem Spezialisten-Ausführer (Cerebellum) integriert, der über eine dedizierte zweistufige Pipeline trainiert wird. In der ersten Phase, der Spezialisierung, wenden wir einen entkoppelten GRPO-Ansatz an, um einen Experten-Planer für jede wissenschaftliche Anwendung individuell zu trainieren, ausgehend von einer kleinen Menge von Aufgaben-Trajektorien. In der zweiten Phase, der Generalisierung, aggregieren wir alle erfolgreichen Trajektorien der spezialisierten Experten, um einen konsolidierten Datensatz zu erstellen, der dann für das überwachte Feinabstimmen des finalen Planers verwendet wird. Dies stattet CODA sowohl mit robuster Ausführung als auch mit domänenübergreifender Generalisierung aus. Bei der Bewertung anhand von vier anspruchsvollen Anwendungen aus dem ScienceBoard-Benchmark übertrifft CODA die Baselines deutlich und setzt einen neuen Maßstab unter den Open-Source-Modellen.
English
Autonomous agents for Graphical User Interfaces (GUIs) face significant challenges in specialized domains such as scientific computing, where both long-horizon planning and precise execution are required. Existing approaches suffer from a trade-off: generalist agents excel at planning but perform poorly in execution, while specialized agents demonstrate the opposite weakness. Recent compositional frameworks attempt to bridge this gap by combining a planner and an actor, but they are typically static and non-trainable, which prevents adaptation from experience. This is a critical limitation given the scarcity of high-quality data in scientific domains. To address these limitations, we introduce CODA, a novel and trainable compositional framework that integrates a generalist planner (Cerebrum) with a specialist executor (Cerebellum), trained via a dedicated two-stage pipeline. In the first stage, Specialization, we apply a decoupled GRPO approach to train an expert planner for each scientific application individually, bootstrapping from a small set of task trajectories. In the second stage, Generalization, we aggregate all successful trajectories from the specialized experts to build a consolidated dataset, which is then used for supervised fine-tuning of the final planner. This equips CODA with both robust execution and cross-domain generalization. Evaluated on four challenging applications from the ScienceBoard benchmark, CODA significantly outperforms baselines and establishes a new state of the art among open-source models.
PDF312August 28, 2025