ChatPaper.aiChatPaper

daVinci-Agency: Sbloccare l'Agenzia a Lungo Orizzonte in Modo Efficiente dal Punto di Vista dei Dati

daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

February 2, 2026
Autori: Mohan Jiang, Dayuan Fu, Junhao Shi, Ji Zeng, Weiye Si, Keyu Li, Xuefeng Li, Yang Xiao, Wenjie Li, Dequan Wang, Pengfei Liu
cs.AI

Abstract

Mentre i Large Language Model (LLM) eccellono in compiti a breve termine, scalare tali modelli per workflow agentivi a lungo termine rimane una sfida. Il collo di bottiglia principale risiede nella scarsità di dati di addestramento che catturino strutture di dipendenza a lungo termine autentiche e dinamiche evolutive cross-stage: i metodi di sintesi esistenti si limitano a scenari a caratteristica singola vincolati dalla distribuzione del modello, oppure comportano costi proibitivi di annotazione umana, fallendo nel fornire una supervisione scalabile e di alta qualità. Affrontiamo questo problema riconcettualizzando la sintesi dei dati attraverso la lente dell'evoluzione del software nel mondo reale. La nostra intuizione chiave: le sequenze di Pull Request (PR) incarnano naturalmente i segnali di supervisione per l'apprendimento a lungo termine. Esse scompongono obiettivi complessi in unità di invio verificabili, mantengono la coerenza funzionale attraverso le iterazioni e codificano pattern di raffinamento autentici attraverso le cronologie di bug-fix. Basandoci su questo, proponiamo daVinci-Agency, che estrae sistematicamente supervisione strutturata da catene di PR attraverso tre meccanismi interconnessi: (1) scomposizione progressiva del compito tramite commit continui, (2) imposizione di coerenza a lungo termine attraverso obiettivi funzionali unificati, e (3) raffinamento verificabile da traiettorie autentiche di bug-fix. A differenza delle traiettorie sintetiche che trattano ogni passo in modo indipendente, la struttura di daVinci-Agency basata sulle PR preserva intrinsecamente le dipendenze causali e i perfezionamenti iterativi essenziali per insegnare comportamenti persistenti orientati all'obiettivo e consente un allineamento naturale con la modellazione di compiti a ciclo completo a livello di progetto. Le traiettorie risultanti sono sostanziali – in media 85k token e 116 chiamate a strumenti – eppure notevolmente efficienti in termini di dati: il fine-tuning di GLM-4.6 su 239 campioni di daVinci-Agency produce ampi miglioramenti su diversi benchmark, raggiungendo in particolare un guadagno relativo del 47% su Toolathlon. Oltre alle prestazioni sui benchmark, la nostra analisi conferma...
English
While Large Language Models (LLMs) excel at short-term tasks, scaling them to long-horizon agentic workflows remains challenging. The core bottleneck lies in the scarcity of training data that captures authentic long-dependency structures and cross-stage evolutionary dynamics--existing synthesis methods either confine to single-feature scenarios constrained by model distribution, or incur prohibitive human annotation costs, failing to provide scalable, high-quality supervision. We address this by reconceptualizing data synthesis through the lens of real-world software evolution. Our key insight: Pull Request (PR) sequences naturally embody the supervision signals for long-horizon learning. They decompose complex objectives into verifiable submission units, maintain functional coherence across iterations, and encode authentic refinement patterns through bug-fix histories. Building on this, we propose daVinci-Agency, which systematically mines structured supervision from chain-of-PRs through three interlocking mechanisms: (1) progressive task decomposition via continuous commits, (2) long-term consistency enforcement through unified functional objectives, and (3) verifiable refinement from authentic bug-fix trajectories. Unlike synthetic trajectories that treat each step independently, daVinci-Agency's PR-grounded structure inherently preserves the causal dependencies and iterative refinements essential for teaching persistent goal-directed behavior and enables natural alignment with project-level, full-cycle task modeling. The resulting trajectories are substantial--averaging 85k tokens and 116 tool calls--yet remarkably data-efficient: fine-tuning GLM-4.6 on 239 daVinci-Agency samples yields broad improvements across benchmarks, notably achieving a 47% relative gain on Toolathlon. Beyond benchmark performance, our analysis confirms...
PDF523March 19, 2026