ChatPaper.aiChatPaper

daVinci-Agency : Libérer efficacement les données d'agence à long horizon

daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

February 2, 2026
papers.authors: Mohan Jiang, Dayuan Fu, Junhao Shi, Ji Zeng, Weiye Si, Keyu Li, Xuefeng Li, Yang Xiao, Wenjie Li, Dequan Wang, Pengfei Liu
cs.AI

papers.abstract

Bien que les modèles de langage à grande échelle (LLM) excellent dans les tâches à court terme, leur mise à l'échelle pour des flux de travail agentiques de long horizon reste difficile. Le principal goulot d'étranglement réside dans la rareté des données d'entraînement qui capturent des structures de dépendances longues authentiques et des dynamiques évolutives trans-étapes – les méthodes de synthèse existantes se limitent soit à des scénarios à caractéristique unique contraints par la distribution du modèle, soit entraînent des coûts d'annotation humaine prohibitifs, échouant à fournir une supervision évolutive et de haute qualité. Nous abordons ce problème en reconceptualisant la synthèse de données à travers le prisme de l'évolution réelle des logiciels. Notre idée clé : les séquences de Demandes de Pull (PR) incarnent naturellement les signaux de supervision pour l'apprentissage de long horizon. Elles décomposent des objectifs complexes en unités de soumission vérifiables, maintiennent une cohérence fonctionnelle entre les itérations et encodent des modèles de raffinement authentiques via les historiques de corrections de bogues. En nous appuyant là-dessus, nous proposons daVinci-Agency, qui extrait systématiquement une supervision structurée d'une chaîne de PR via trois mécanismes imbriqués : (1) la décomposition progressive des tâches via des commits continus, (2) le maintien de la cohérence à long terme grâce à des objectifs fonctionnels unifiés, et (3) le raffinement vérifiable à partir de trajectoires authentiques de corrections de bogues. Contrairement aux trajectoires synthétiques qui traitent chaque étape indépendamment, la structure ancrée dans les PR de daVinci-Agency préserve intrinsèquement les dépendances causales et les affinages itératifs essentiels pour enseigner un comportement persistant dirigé vers un but, et permet un alignement naturel avec la modélisation de tâches cycliques complètes au niveau du projet. Les trajectoires résultantes sont substantielles – en moyenne 85k tokens et 116 appels d'outils – mais remarquablement efficaces en données : le fine-tuning de GLM-4.6 sur seulement 239 échantillons de daVinci-Agency produit des améliorations généralisées sur divers benchmarks, atteignant notamment un gain relatif de 47% sur Toolathlon. Au-delà des performances sur les benchmarks, notre analyse confirme...
English
While Large Language Models (LLMs) excel at short-term tasks, scaling them to long-horizon agentic workflows remains challenging. The core bottleneck lies in the scarcity of training data that captures authentic long-dependency structures and cross-stage evolutionary dynamics--existing synthesis methods either confine to single-feature scenarios constrained by model distribution, or incur prohibitive human annotation costs, failing to provide scalable, high-quality supervision. We address this by reconceptualizing data synthesis through the lens of real-world software evolution. Our key insight: Pull Request (PR) sequences naturally embody the supervision signals for long-horizon learning. They decompose complex objectives into verifiable submission units, maintain functional coherence across iterations, and encode authentic refinement patterns through bug-fix histories. Building on this, we propose daVinci-Agency, which systematically mines structured supervision from chain-of-PRs through three interlocking mechanisms: (1) progressive task decomposition via continuous commits, (2) long-term consistency enforcement through unified functional objectives, and (3) verifiable refinement from authentic bug-fix trajectories. Unlike synthetic trajectories that treat each step independently, daVinci-Agency's PR-grounded structure inherently preserves the causal dependencies and iterative refinements essential for teaching persistent goal-directed behavior and enables natural alignment with project-level, full-cycle task modeling. The resulting trajectories are substantial--averaging 85k tokens and 116 tool calls--yet remarkably data-efficient: fine-tuning GLM-4.6 on 239 daVinci-Agency samples yields broad improvements across benchmarks, notably achieving a 47% relative gain on Toolathlon. Beyond benchmark performance, our analysis confirms...
PDF473February 8, 2026