ChatPaper.aiChatPaper

Orchard: Фреймворк агентного моделирования с открытым исходным кодом

Orchard: An Open-Source Agentic Modeling Framework

May 14, 2026
Авторы: Baolin Peng, Wenlin Yao, Qianhui Wu, Hao Cheng, Xiao Yu, Rui Yang, Tao Ge, Alessandrio Sordoni, Xingdi Yuan, Yelong Shen, Pengcheng He, Tong Zhang, Zhou Yu, Jianfeng Gao
cs.AI

Аннотация

Агентное моделирование направлено на превращение больших языковых моделей (LLM) в автономных агентов, способных решать сложные задачи с помощью планирования, рассуждения, использования инструментов и многошагового взаимодействия со средами. Несмотря на значительные инвестиции, открытые исследования остаются ограниченными из-за пробелов в инфраструктуре и обучении. Многие высокопроизводительные системы полагаются на проприетарные кодовые базы, модели или сервисы, в то время как большинство фреймворков с открытым исходным кодом сосредоточены на оркестровке и оценке, а не на масштабируемом обучении агентов. Мы представляем Orchard — фреймворк с открытым исходным кодом для масштабируемого агентного моделирования. В его основе лежит Orchard Env — легковесный сервис среды, предоставляющий повторно используемые примитивы для управления жизненным циклом песочницы в различных предметных областях задач, обвязках агентов и этапах конвейера. На основе Orchard Env мы создаем три рецепта агентного моделирования. Orchard-SWE нацелен на агентов по написанию кода. Мы дистиллируем 107 тысяч траекторий из MiniMax-M2.5 и Qwen3.5-397B, вводим SFT с присвоением кредита для обучения на продуктивных сегментах неразрешенных траекторий и применяем сбалансированный адаптивный прогон для RL. Начиная с Qwen3-30B-A3B-Thinking, Orchard-SWE достигает 64,3% на SWE-bench Verified после SFT и 67,5% после SFT+RL, устанавливая новый уровень наилучших результатов среди открытых моделей сопоставимого размера. Orchard-GUI обучает агента по использованию компьютера с 4 миллиардами параметров на основе зрения и языка, используя всего 0,4 тысячи дистиллированных траекторий и 2,2 тысячи открытых задач. Он достигает 74,1%, 67,0% и 64,0% успешности на WebVoyager, Online-Mind2Web и DeepShop соответственно, что делает его сильнейшей открытой моделью, оставаясь при этом конкурентоспособным с проприетарными системами. Orchard-Claw нацелен на агентов-личных помощников. Обучаясь всего на 0,2 тысячи синтетических задач, он достигает 59,6% pass@3 на Claw-Eval и 73,9% при использовании в паре с более сильной обвязкой ZeroClaw. В совокупности эти результаты показывают, что легковесный, открытый, не зависящий от обвязки уровень среды обеспечивает возможность повторного использования агентных данных, рецептов обучения и оценок в различных областях.
English
Agentic modeling aims to transform LLMs into autonomous agents capable of solving complex tasks through planning, reasoning, tool use, and multi-turn interaction with environments. Despite major investment, open research remains constrained by infrastructure and training gaps. Many high-performing systems rely on proprietary codebases, models, or services, while most open-source frameworks focus on orchestration and evaluation rather than scalable agent training. We present Orchard, an open-source framework for scalable agentic modeling. At its core is Orchard Env, a lightweight environment service providing reusable primitives for sandbox lifecycle management across task domains, agent harnesses, and pipeline stages. On top of Orchard Env, we build three agentic modeling recipes. Orchard-SWE targets coding agents. We distill 107K trajectories from MiniMax-M2.5 and Qwen3.5-397B, introduce credit-assignment SFT to learn from productive segments of unresolved trajectories, and apply Balanced Adaptive Rollout for RL. Starting from Qwen3-30B-A3B-Thinking, Orchard-SWE achieves 64.3% on SWE-bench Verified after SFT and 67.5% after SFT+RL, setting a new state of the art among open-source models of comparable size. Orchard-GUI trains a 4B vision-language computer-use agent using only 0.4K distilled trajectories and 2.2K open-ended tasks. It achieves 74.1%, 67.0%, and 64.0% success rates on WebVoyager, Online-Mind2Web, and DeepShop, respectively, making it the strongest open-source model while remaining competitive with proprietary systems. Orchard-Claw targets personal assistant agents. Trained with only 0.2K synthetic tasks, it achieves 59.6% pass@3 on Claw-Eval and 73.9% when paired with a stronger ZeroClaw harness. Collectively, these results show that a lightweight, open, harness-agnostic environment layer enables reusable agentic data, training recipes, and evaluations across domains.