Orchard: Фреймворк агентного моделирования с открытым исходным кодом

Аннотация

Агентное моделирование направлено на превращение больших языковых моделей (LLM) в автономных агентов, способных решать сложные задачи с помощью планирования, рассуждения, использования инструментов и многошагового взаимодействия со средами. Несмотря на значительные инвестиции, открытые исследования остаются ограниченными из-за пробелов в инфраструктуре и обучении. Многие высокопроизводительные системы полагаются на проприетарные кодовые базы, модели или сервисы, в то время как большинство фреймворков с открытым исходным кодом сосредоточены на оркестровке и оценке, а не на масштабируемом обучении агентов. Мы представляем Orchard — фреймворк с открытым исходным кодом для масштабируемого агентного моделирования. В его основе лежит Orchard Env — легковесный сервис среды, предоставляющий повторно используемые примитивы для управления жизненным циклом песочницы в различных предметных областях задач, обвязках агентов и этапах конвейера. На основе Orchard Env мы создаем три рецепта агентного моделирования. Orchard-SWE нацелен на агентов по написанию кода. Мы дистиллируем 107 тысяч траекторий из MiniMax-M2.5 и Qwen3.5-397B, вводим SFT с присвоением кредита для обучения на продуктивных сегментах неразрешенных траекторий и применяем сбалансированный адаптивный прогон для RL. Начиная с Qwen3-30B-A3B-Thinking, Orchard-SWE достигает 64,3% на SWE-bench Verified после SFT и 67,5% после SFT+RL, устанавливая новый уровень наилучших результатов среди открытых моделей сопоставимого размера. Orchard-GUI обучает агента по использованию компьютера с 4 миллиардами параметров на основе зрения и языка, используя всего 0,4 тысячи дистиллированных траекторий и 2,2 тысячи открытых задач. Он достигает 74,1%, 67,0% и 64,0% успешности на WebVoyager, Online-Mind2Web и DeepShop соответственно, что делает его сильнейшей открытой моделью, оставаясь при этом конкурентоспособным с проприетарными системами. Orchard-Claw нацелен на агентов-личных помощников. Обучаясь всего на 0,2 тысячи синтетических задач, он достигает 59,6% pass@3 на Claw-Eval и 73,9% при использовании в паре с более сильной обвязкой ZeroClaw. В совокупности эти результаты показывают, что легковесный, открытый, не зависящий от обвязки уровень среды обеспечивает возможность повторного использования агентных данных, рецептов обучения и оценок в различных областях.

English

Agentic modeling aims to transform LLMs into autonomous agents capable of solving complex tasks through planning, reasoning, tool use, and multi-turn interaction with environments. Despite major investment, open research remains constrained by infrastructure and training gaps. Many high-performing systems rely on proprietary codebases, models, or services, while most open-source frameworks focus on orchestration and evaluation rather than scalable agent training. We present Orchard, an open-source framework for scalable agentic modeling. At its core is Orchard Env, a lightweight environment service providing reusable primitives for sandbox lifecycle management across task domains, agent harnesses, and pipeline stages. On top of Orchard Env, we build three agentic modeling recipes. Orchard-SWE targets coding agents. We distill 107K trajectories from MiniMax-M2.5 and Qwen3.5-397B, introduce credit-assignment SFT to learn from productive segments of unresolved trajectories, and apply Balanced Adaptive Rollout for RL. Starting from Qwen3-30B-A3B-Thinking, Orchard-SWE achieves 64.3% on SWE-bench Verified after SFT and 67.5% after SFT+RL, setting a new state of the art among open-source models of comparable size. Orchard-GUI trains a 4B vision-language computer-use agent using only 0.4K distilled trajectories and 2.2K open-ended tasks. It achieves 74.1%, 67.0%, and 64.0% success rates on WebVoyager, Online-Mind2Web, and DeepShop, respectively, making it the strongest open-source model while remaining competitive with proprietary systems. Orchard-Claw targets personal assistant agents. Trained with only 0.2K synthetic tasks, it achieves 59.6% pass@3 on Claw-Eval and 73.9% when paired with a stronger ZeroClaw harness. Collectively, these results show that a lightweight, open, harness-agnostic environment layer enables reusable agentic data, training recipes, and evaluations across domains.