Orchard: Ein agentisches Open-Source-Modellierungsframework

Zusammenfassung

Agentenmodellierung zielt darauf ab, LLMs in autonome Agenten zu verwandeln, die komplexe Aufgaben durch Planung, logisches Denken, Werkzeugnutzung und mehrschrittige Interaktion mit Umgebungen lösen können. Trotz erheblicher Investitionen wird die offene Forschung weiterhin durch Infrastruktur- und Trainingslücken eingeschränkt. Viele leistungsstarke Systeme stützen sich auf proprietäre Codebasen, Modelle oder Dienste, während die meisten Open-Source-Frameworks sich eher auf Orchestrierung und Evaluierung konzentrieren als auf skalierbares Agententraining. Wir stellen Orchard vor, ein Open-Source-Framework für skalierbare Agentenmodellierung. Sein Kern ist Orchard Env, ein leichtgewichtiger Umgebungsdienst, der wiederverwendbare Primitive für die Verwaltung des Sandbox-Lebenszyklus über Aufgabendomänen, Agenten-Harnesses und Pipelinestufen hinweg bereitstellt. Aufbauend auf Orchard Env entwickeln wir drei Rezepte für die Agentenmodellierung. Orchard-SWE zielt auf Codierungsagenten ab. Wir destillieren 107.000 Trajektorien aus MiniMax-M2.5 und Qwen3.5-397B, führen Credit-Assignment-SFT ein, um aus produktiven Segmenten ungelöster Trajektorien zu lernen, und wenden Balanced Adaptive Rollout für RL an. Ausgehend von Qwen3-30B-A3B-Thinking erreicht Orchard-SWE nach SFT 64,3 % auf SWE-bench Verified und 67,5 % nach SFT+RL und setzt damit einen neuen State of the Art unter Open-Source-Modellen vergleichbarer Größe. Orchard-GUI trainiert einen 4B starken Computer-Nutzungs-Agenten für Bild und Sprache mit nur 400 destillierten Trajektorien und 2.200 offenen Aufgaben. Es erzielt Erfolgsraten von 74,1 %, 67,0 % und 64,0 % auf WebVoyager, Online-Mind2Web bzw. DeepShop und ist damit das stärkste Open-Source-Modell, während es weiterhin mit proprietären Systemen konkurrieren kann. Orchard-Claw zielt auf persönliche Assistenten-Agenten ab. Mit nur 200 synthetischen Aufgaben trainiert, erreicht es 59,6 % pass@3 auf Claw-Eval und 73,9 % in Kombination mit einem stärkeren ZeroClaw-Harness. Insgesamt zeigen diese Ergebnisse, dass eine leichte, offene, Harness-agnostische Umgebungsschicht wiederverwendbare agentische Daten, Trainingsrezepte und Evaluierungen über verschiedene Domänen hinweg ermöglicht.

English

Agentic modeling aims to transform LLMs into autonomous agents capable of solving complex tasks through planning, reasoning, tool use, and multi-turn interaction with environments. Despite major investment, open research remains constrained by infrastructure and training gaps. Many high-performing systems rely on proprietary codebases, models, or services, while most open-source frameworks focus on orchestration and evaluation rather than scalable agent training. We present Orchard, an open-source framework for scalable agentic modeling. At its core is Orchard Env, a lightweight environment service providing reusable primitives for sandbox lifecycle management across task domains, agent harnesses, and pipeline stages. On top of Orchard Env, we build three agentic modeling recipes. Orchard-SWE targets coding agents. We distill 107K trajectories from MiniMax-M2.5 and Qwen3.5-397B, introduce credit-assignment SFT to learn from productive segments of unresolved trajectories, and apply Balanced Adaptive Rollout for RL. Starting from Qwen3-30B-A3B-Thinking, Orchard-SWE achieves 64.3% on SWE-bench Verified after SFT and 67.5% after SFT+RL, setting a new state of the art among open-source models of comparable size. Orchard-GUI trains a 4B vision-language computer-use agent using only 0.4K distilled trajectories and 2.2K open-ended tasks. It achieves 74.1%, 67.0%, and 64.0% success rates on WebVoyager, Online-Mind2Web, and DeepShop, respectively, making it the strongest open-source model while remaining competitive with proprietary systems. Orchard-Claw targets personal assistant agents. Trained with only 0.2K synthetic tasks, it achieves 59.6% pass@3 on Claw-Eval and 73.9% when paired with a stronger ZeroClaw harness. Collectively, these results show that a lightweight, open, harness-agnostic environment layer enables reusable agentic data, training recipes, and evaluations across domains.