Orchard : un framework open-source de modélisation agentique

Résumé

La modélisation agentique vise à transformer les LLM en agents autonomes capables de résoudre des tâches complexes par le biais de la planification, du raisonnement, de l'utilisation d'outils et d'interactions multi-tours avec l'environnement. Malgré des investissements majeurs, la recherche ouverte reste contrainte par des lacunes en matière d'infrastructure et de formation. De nombreux systèmes performants s'appuient sur des bases de code, des modèles ou des services propriétaires, tandis que la plupart des cadres open-source se concentrent sur l'orchestration et l'évaluation plutôt que sur l'entraînement scalable d'agents. Nous présentons Orchard, un cadre open-source pour la modélisation agentique scalable. Au cœur de celui-ci se trouve Orchard Env, un service d'environnement léger fournissant des primitives réutilisables pour la gestion du cycle de vie des environnements sandbox à travers les domaines de tâches, les harnais d'agents et les étapes de pipeline. Au-dessus d'Orchard Env, nous construisons trois recettes de modélisation agentique. Orchard-SWE cible les agents de codage. Nous distillons 107 000 trajectoires à partir de MiniMax-M2.5 et Qwen3.5-397B, introduisons la SFT avec attribution de crédit pour apprendre des segments productifs de trajectoires non résolues, et appliquons le Déploiement Adaptatif Équilibré pour l'apprentissage par renforcement. En partant de Qwen3-30B-A3B-Thinking, Orchard-SWE atteint 64,3% sur SWE-bench Verified après SFT et 67,5% après SFT+RL, établissant un nouvel état de l'art parmi les modèles open-source de taille comparable. Orchard-GUI entraîne un agent visio-linguistique de 4B utilisant un ordinateur avec seulement 0,4K trajectoires distillées et 2,2K tâches ouvertes. Il atteint des taux de succès de 74,1%, 67,0% et 64,0% respectivement sur WebVoyager, Online-Mind2Web et DeepShop, ce qui en fait le modèle open-source le plus performant tout en restant compétitif avec les systèmes propriétaires. Orchard-Claw cible les agents assistants personnels. Entraîné avec seulement 0,2K tâches synthétiques, il atteint 59,6% pass@3 sur Claw-Eval et 73,9% lorsqu'il est associé à un harnais ZeroClaw plus performant. Collectivement, ces résultats montrent qu'une couche d'environnement légère, ouverte et indépendante des harnais permet de disposer de données agentiques, de recettes d'entraînement et d'évaluations réutilisables à travers les domaines.

English

Agentic modeling aims to transform LLMs into autonomous agents capable of solving complex tasks through planning, reasoning, tool use, and multi-turn interaction with environments. Despite major investment, open research remains constrained by infrastructure and training gaps. Many high-performing systems rely on proprietary codebases, models, or services, while most open-source frameworks focus on orchestration and evaluation rather than scalable agent training. We present Orchard, an open-source framework for scalable agentic modeling. At its core is Orchard Env, a lightweight environment service providing reusable primitives for sandbox lifecycle management across task domains, agent harnesses, and pipeline stages. On top of Orchard Env, we build three agentic modeling recipes. Orchard-SWE targets coding agents. We distill 107K trajectories from MiniMax-M2.5 and Qwen3.5-397B, introduce credit-assignment SFT to learn from productive segments of unresolved trajectories, and apply Balanced Adaptive Rollout for RL. Starting from Qwen3-30B-A3B-Thinking, Orchard-SWE achieves 64.3% on SWE-bench Verified after SFT and 67.5% after SFT+RL, setting a new state of the art among open-source models of comparable size. Orchard-GUI trains a 4B vision-language computer-use agent using only 0.4K distilled trajectories and 2.2K open-ended tasks. It achieves 74.1%, 67.0%, and 64.0% success rates on WebVoyager, Online-Mind2Web, and DeepShop, respectively, making it the strongest open-source model while remaining competitive with proprietary systems. Orchard-Claw targets personal assistant agents. Trained with only 0.2K synthetic tasks, it achieves 59.6% pass@3 on Claw-Eval and 73.9% when paired with a stronger ZeroClaw harness. Collectively, these results show that a lightweight, open, harness-agnostic environment layer enables reusable agentic data, training recipes, and evaluations across domains.