Orchard: Um Framework de Modelagem Agentiva de Código Aberto

Resumo

A modelagem agentiva visa transformar LLMs em agentes autônomos capazes de resolver tarefas complexas por meio de planejamento, raciocínio, uso de ferramentas e interação em múltiplas rodadas com ambientes. Apesar de investimentos significativos, a pesquisa aberta permanece limitada por lacunas em infraestrutura e treinamento. Muitos sistemas de alto desempenho dependem de bases de código, modelos ou serviços proprietários, enquanto a maioria dos frameworks de código aberto foca em orquestração e avaliação, em vez de treinamento escalável de agentes. Apresentamos Orchard, um framework de código aberto para modelagem agentiva escalável. Seu núcleo é o Orchard Env, um serviço de ambiente leve que fornece primitivas reutilizáveis para gerenciamento do ciclo de vida de sandboxes em diferentes domínios de tarefas, harnesses de agentes e estágios do pipeline. Sobre o Orchard Env, construímos três receitas de modelagem agentiva. O Orchard-SWE tem como alvo agentes de codificação. Destilamos 107 mil trajetórias do MiniMax-M2.5 e do Qwen3.5-397B, introduzimos SFT com atribuição de crédito para aprender com segmentos produtivos de trajetórias não resolvidas e aplicamos Rollout Adaptativo Balanceado para RL. Partindo do Qwen3-30B-A3B-Thinking, o Orchard-SWE alcança 64,3% no SWE-bench Verified após SFT e 67,5% após SFT+RL, estabelecendo um novo estado da arte entre modelos de código aberto de tamanho comparável. O Orchard-GUI treina um agente de uso de computador visão-linguagem de 4B usando apenas 0,4 mil trajetórias destiladas e 2,2 mil tarefas abertas. Ele atinge taxas de sucesso de 74,1%, 67,0% e 64,0% no WebVoyager, Online-Mind2Web e DeepShop, respectivamente, tornando-se o modelo de código aberto mais forte, ao mesmo tempo que se mantém competitivo com sistemas proprietários. O Orchard-Claw tem como alvo agentes assistentes pessoais. Treinado com apenas 0,2 mil tarefas sintéticas, alcança 59,6% de pass@3 no Claw-Eval e 73,9% quando combinado com um harness ZeroClaw mais robusto. Coletivamente, esses resultados mostram que uma camada de ambiente leve, aberta e agnóstica em relação ao harness permite dados agentivos, receitas de treinamento e avaliações reutilizáveis entre domínios.

English

Agentic modeling aims to transform LLMs into autonomous agents capable of solving complex tasks through planning, reasoning, tool use, and multi-turn interaction with environments. Despite major investment, open research remains constrained by infrastructure and training gaps. Many high-performing systems rely on proprietary codebases, models, or services, while most open-source frameworks focus on orchestration and evaluation rather than scalable agent training. We present Orchard, an open-source framework for scalable agentic modeling. At its core is Orchard Env, a lightweight environment service providing reusable primitives for sandbox lifecycle management across task domains, agent harnesses, and pipeline stages. On top of Orchard Env, we build three agentic modeling recipes. Orchard-SWE targets coding agents. We distill 107K trajectories from MiniMax-M2.5 and Qwen3.5-397B, introduce credit-assignment SFT to learn from productive segments of unresolved trajectories, and apply Balanced Adaptive Rollout for RL. Starting from Qwen3-30B-A3B-Thinking, Orchard-SWE achieves 64.3% on SWE-bench Verified after SFT and 67.5% after SFT+RL, setting a new state of the art among open-source models of comparable size. Orchard-GUI trains a 4B vision-language computer-use agent using only 0.4K distilled trajectories and 2.2K open-ended tasks. It achieves 74.1%, 67.0%, and 64.0% success rates on WebVoyager, Online-Mind2Web, and DeepShop, respectively, making it the strongest open-source model while remaining competitive with proprietary systems. Orchard-Claw targets personal assistant agents. Trained with only 0.2K synthetic tasks, it achieves 59.6% pass@3 on Claw-Eval and 73.9% when paired with a stronger ZeroClaw harness. Collectively, these results show that a lightweight, open, harness-agnostic environment layer enables reusable agentic data, training recipes, and evaluations across domains.