daVinci-Agency: Desbloqueo eficiente de datos de agencia de horizonte largo
daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently
February 2, 2026
Autores: Mohan Jiang, Dayuan Fu, Junhao Shi, Ji Zeng, Weiye Si, Keyu Li, Xuefeng Li, Yang Xiao, Wenjie Li, Dequan Wang, Pengfei Liu
cs.AI
Resumen
Si bien los Modelos de Lenguaje a Gran Escala (LLMs) sobresalen en tareas de corto plazo, escalarlos a flujos de trabajo agenticos de largo horizonte sigue siendo un desafío. El cuello de botella principal radica en la escasez de datos de entrenamiento que capturen estructuras auténticas de dependencia a largo plazo y dinámicas evolutivas entre etapas: los métodos de síntesis existentes se limitan a escenarios de característica única restringidos por la distribución del modelo, o incurren en costos prohibitivos de anotación humana, sin poder proporcionar una supervisión escalable y de alta calidad. Abordamos esto reconceptualizando la síntesis de datos a través del lente de la evolución del software del mundo real. Nuestra idea clave: las secuencias de Pull Requests (PRs) encarnan naturalmente las señales de supervisión para el aprendizaje de largo horizonte. Estas descomponen objetivos complejos en unidades de envío verificables, mantienen la coherencia funcional a través de iteraciones y codifican patrones auténticos de refinamiento mediante historiales de corrección de errores. Basándonos en esto, proponemos daVinci-Agency, que extrae sistemáticamente supervisión estructurada de cadenas de PRs mediante tres mecanismos interconectados: (1) descomposición progresiva de tareas mediante commits continuos, (2) aplicación de consistencia a largo plazo a través de objetivos funcionales unificados, y (3) refinamiento verificable a partir de trayectorias auténticas de corrección de errores. A diferencia de las trayectorias sintéticas que tratan cada paso de forma independiente, la estructura de daVinci-Agency basada en PRs preserva inherentemente las dependencias causales y los refinamientos iterativos esenciales para enseñar un comportamiento persistente orientado a objetivos, y permite una alineación natural con el modelado de tareas de ciclo completo a nivel de proyecto. Las trayectorias resultantes son sustanciales (con un promedio de 85k tokens y 116 llamadas a herramientas), y sin embargo, son notablemente eficientes en datos: el ajuste fino de GLM-4.6 en 239 muestras de daVinci-Agency produce mejoras generalizadas en diversos benchmarks, logrando notablemente una ganancia relativa del 47% en Toolathlon. Más allá del rendimiento en benchmarks, nuestro análisis confirma...
English
While Large Language Models (LLMs) excel at short-term tasks, scaling them to long-horizon agentic workflows remains challenging. The core bottleneck lies in the scarcity of training data that captures authentic long-dependency structures and cross-stage evolutionary dynamics--existing synthesis methods either confine to single-feature scenarios constrained by model distribution, or incur prohibitive human annotation costs, failing to provide scalable, high-quality supervision. We address this by reconceptualizing data synthesis through the lens of real-world software evolution. Our key insight: Pull Request (PR) sequences naturally embody the supervision signals for long-horizon learning. They decompose complex objectives into verifiable submission units, maintain functional coherence across iterations, and encode authentic refinement patterns through bug-fix histories. Building on this, we propose daVinci-Agency, which systematically mines structured supervision from chain-of-PRs through three interlocking mechanisms: (1) progressive task decomposition via continuous commits, (2) long-term consistency enforcement through unified functional objectives, and (3) verifiable refinement from authentic bug-fix trajectories. Unlike synthetic trajectories that treat each step independently, daVinci-Agency's PR-grounded structure inherently preserves the causal dependencies and iterative refinements essential for teaching persistent goal-directed behavior and enables natural alignment with project-level, full-cycle task modeling. The resulting trajectories are substantial--averaging 85k tokens and 116 tool calls--yet remarkably data-efficient: fine-tuning GLM-4.6 on 239 daVinci-Agency samples yields broad improvements across benchmarks, notably achieving a 47% relative gain on Toolathlon. Beyond benchmark performance, our analysis confirms...