Orchard: Un Marco de Modelado de Agentes de Código Abierto

Resumen

El modelado agentivo busca transformar los LLM en agentes autónomos capaces de resolver tareas complejas mediante planificación, razonamiento, uso de herramientas e interacción multidialogo con entornos. A pesar de las grandes inversiones, la investigación abierta sigue limitada por deficiencias en infraestructura y formación. Muchos sistemas de alto rendimiento dependen de códigos propietarios, modelos o servicios, mientras que la mayoría de los marcos de código abierto se centran en la orquestación y evaluación, no en el entrenamiento escalable de agentes. Presentamos Orchard, un marco de código abierto para modelado agentivo escalable. Su núcleo es Orchard Env, un servicio de entorno ligero que proporciona primitivas reutilizables para la gestión del ciclo de vida de entornos aislados en distintos dominios de tareas, arneses de agente y etapas del pipeline. Sobre Orchard Env, construimos tres recetas de modelado agentivo. Orchard-SWE se enfoca en agentes de codificación. Destilamos 107K trayectorias de MiniMax-M2.5 y Qwen3.5-397B, introducimos SFT con asignación de crédito para aprender de segmentos productivos de trayectorias no resueltas, y aplicamos Despliegue Adaptativo Balanceado para RL. Partiendo de Qwen3-30B-A3B-Thinking, Orchard-SWE alcanza un 64.3% en SWE-bench Verified tras SFT y un 67.5% tras SFT+RL, estableciendo un nuevo estado del arte entre modelos de código abierto de tamaño comparable. Orchard-GUI entrena un agente de uso de ordenador de 4B basado en visión y lenguaje utilizando solo 0.4K trayectorias destiladas y 2.2K tareas abiertas. Logra tasas de éxito del 74.1%, 67.0% y 64.0% en WebVoyager, Online-Mind2Web y DeepShop, respectivamente, convirtiéndose en el modelo de código abierto más potente y manteniéndose competitivo con sistemas propietarios. Orchard-Claw se dirige a agentes asistentes personales. Entrenado con solo 0.2K tareas sintéticas, alcanza un 59.6% de pass@3 en Claw-Eval y un 73.9% cuando se combina con un arnés ZeroClaw más potente. En conjunto, estos resultados muestran que una capa de entorno ligera, abierta e independiente del arnés permite datos, recetas de entrenamiento y evaluaciones agentivas reutilizables en distintos dominios.

English

Agentic modeling aims to transform LLMs into autonomous agents capable of solving complex tasks through planning, reasoning, tool use, and multi-turn interaction with environments. Despite major investment, open research remains constrained by infrastructure and training gaps. Many high-performing systems rely on proprietary codebases, models, or services, while most open-source frameworks focus on orchestration and evaluation rather than scalable agent training. We present Orchard, an open-source framework for scalable agentic modeling. At its core is Orchard Env, a lightweight environment service providing reusable primitives for sandbox lifecycle management across task domains, agent harnesses, and pipeline stages. On top of Orchard Env, we build three agentic modeling recipes. Orchard-SWE targets coding agents. We distill 107K trajectories from MiniMax-M2.5 and Qwen3.5-397B, introduce credit-assignment SFT to learn from productive segments of unresolved trajectories, and apply Balanced Adaptive Rollout for RL. Starting from Qwen3-30B-A3B-Thinking, Orchard-SWE achieves 64.3% on SWE-bench Verified after SFT and 67.5% after SFT+RL, setting a new state of the art among open-source models of comparable size. Orchard-GUI trains a 4B vision-language computer-use agent using only 0.4K distilled trajectories and 2.2K open-ended tasks. It achieves 74.1%, 67.0%, and 64.0% success rates on WebVoyager, Online-Mind2Web, and DeepShop, respectively, making it the strongest open-source model while remaining competitive with proprietary systems. Orchard-Claw targets personal assistant agents. Trained with only 0.2K synthetic tasks, it achieves 59.6% pass@3 on Claw-Eval and 73.9% when paired with a stronger ZeroClaw harness. Collectively, these results show that a lightweight, open, harness-agnostic environment layer enables reusable agentic data, training recipes, and evaluations across domains.