Orchard: Een open-source agentisch modelleringsframework

Samenvatting

Agentisch modelleren heeft als doel LLM's te transformeren in autonome agenten die complexe taken kunnen oplossen door middel van planning, redeneren, het gebruik van hulpmiddelen en meerstapsinteractie met omgevingen. Ondanks aanzienlijke investeringen wordt open onderzoek nog steeds beperkt door hiaten in infrastructuur en training. Veel hoogwaardige systemen zijn afhankelijk van propriëtaire codebases, modellen of diensten, terwijl de meeste opensourceframeworks zich richten op orkestratie en evaluatie in plaats van schaalbare agenttraining. Wij presenteren Orchard, een opensourceframework voor schaalbaar agentisch modelleren. De kern wordt gevormd door Orchard Env, een lichtgewicht omgevingsservice die herbruikbare primitieven biedt voor sandboxlevenscyclusbeheer, toepasbaar op taakdomeinen, agent-omhulsels en pijplijnfasen. Bovenop Orchard Env bouwen we drie recepten voor agentisch modelleren. Orchard-SWE richt zich op codeeragenten. We destilleren 107K trajecten uit MiniMax-M2.5 en Qwen3.5-397B, introduceren credit-assignment SFT om te leren van productieve segmenten van niet-afgeronde trajecten, en passen Balanced Adaptive Rollout toe voor RL. Uitgaande van Qwen3-30B-A3B-Thinking behaalt Orchard-SWE 64,3% op SWE-bench Verified na SFT en 67,5% na SFT+RL, waarmee het een nieuwe state of the art vestigt onder opensourcemodellen van vergelijkbare grootte. Orchard-GUI traint een 4B visie-taal agent voor computergebruik met slechts 0,4K gedestilleerde trajecten en 2,2K open-eindtaken. Het behaalt respectievelijk 74,1%, 67,0% en 64,0% succespercentages op WebVoyager, Online-Mind2Web en DeepShop, wat het het sterkste opensourcemodel maakt en tegelijk concurrerend met propriëtaire systemen. Orchard-Claw richt zich op persoonlijke assistentagenten. Het wordt getraind met slechts 0,2K synthetische taken en behaalt 59,6% pass@3 op Claw-Eval en 73,9% wanneer het wordt gecombineerd met een sterker ZeroClaw-omhulsel. Gezamenlijk tonen deze resultaten aan dat een lichte, open, harness-agnostische omgevingslaag herbruikbare agentgegevens, trainingsrecepten en evaluaties over domeinen heen mogelijk maakt.

English

Agentic modeling aims to transform LLMs into autonomous agents capable of solving complex tasks through planning, reasoning, tool use, and multi-turn interaction with environments. Despite major investment, open research remains constrained by infrastructure and training gaps. Many high-performing systems rely on proprietary codebases, models, or services, while most open-source frameworks focus on orchestration and evaluation rather than scalable agent training. We present Orchard, an open-source framework for scalable agentic modeling. At its core is Orchard Env, a lightweight environment service providing reusable primitives for sandbox lifecycle management across task domains, agent harnesses, and pipeline stages. On top of Orchard Env, we build three agentic modeling recipes. Orchard-SWE targets coding agents. We distill 107K trajectories from MiniMax-M2.5 and Qwen3.5-397B, introduce credit-assignment SFT to learn from productive segments of unresolved trajectories, and apply Balanced Adaptive Rollout for RL. Starting from Qwen3-30B-A3B-Thinking, Orchard-SWE achieves 64.3% on SWE-bench Verified after SFT and 67.5% after SFT+RL, setting a new state of the art among open-source models of comparable size. Orchard-GUI trains a 4B vision-language computer-use agent using only 0.4K distilled trajectories and 2.2K open-ended tasks. It achieves 74.1%, 67.0%, and 64.0% success rates on WebVoyager, Online-Mind2Web, and DeepShop, respectively, making it the strongest open-source model while remaining competitive with proprietary systems. Orchard-Claw targets personal assistant agents. Trained with only 0.2K synthetic tasks, it achieves 59.6% pass@3 on Claw-Eval and 73.9% when paired with a stronger ZeroClaw harness. Collectively, these results show that a lightweight, open, harness-agnostic environment layer enables reusable agentic data, training recipes, and evaluations across domains.