ChatPaper.aiChatPaper

daVinci-Agent: Efficiënte Ontsluiting van Lange-Termijn Agency met Beperkte Data

daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

February 2, 2026
Auteurs: Mohan Jiang, Dayuan Fu, Junhao Shi, Ji Zeng, Weiye Si, Keyu Li, Xuefeng Li, Yang Xiao, Wenjie Li, Dequan Wang, Pengfei Liu
cs.AI

Samenvatting

Hoewel Large Language Models (LLM's) uitblinken in kortetermijntaken, blijft het opschalen ervan naar langetermijn, agent-gestuurde workflows een uitdaging. De belangrijkste bottleneck ligt in de schaarste aan trainingsdata die authentieke langetermijnafhankelijkheidsstructuren en evolutiedynamiek tussen fasen vastlegt – bestaande synthesemethoden beperken zich tot scenario's met één feature, begrensd door het modelbereik, of brengen onbetaalbare kosten voor menselijke annotatie met zich mee, waardoor ze geen schaalbare, hoogwaardige supervisie kunnen bieden. Wij pakken dit aan door datasynthese opnieuw te conceptualiseren door de lens van echte software-evolutie. Onze kerninzicht: Pull Request (PR)-reeksen belichamen van nature de supervisiesignalen voor leren op de lange termijn. Ze ontleden complexe doelstellingen in verifieerbare eenheden, handhaven functionele samenhang tussen iteraties en coderen authentieke verfijningspatronen door middel van bug-fix geschiedenissen. Hierop voortbouwend stellen wij daVinci-Agency voor, dat gestructureerde supervisie systematisch ontgint uit ketens van PR's via drie in elkaar grijpende mechanismen: (1) progressieve taakdecompositie via continue commits, (2) handhaving van langetermijnconsistentie door middel van verenigde functionele doelstellingen, en (3) verifieerbare verfijning vanuit authentieke bug-fix trajecten. In tegenstelling tot synthetische trajecten die elke stap onafhankelijk behandelt, behoudt de op PR's gefundeerde structuur van daVinci-Agency inherent de causale afhankelijkheden en iteratieve verfijningen die essentieel zijn voor het aanleren van persistent doelgericht gedrag, en maakt het een natuurlijke afstemming met projectniveau, volledige-cyclus taakmodellering mogelijk. De resulterende trajecten zijn substantieel – gemiddeld 85k tokens en 116 toolaanroepen – maar toch opmerkelijk data-efficiënt: het fine-tunen van GLM-4.6 op slechts 239 daVinci-Agency monsters leidt tot brede verbeteringen op benchmarks, met name een relatieve winst van 47% op Toolathlon. Naast benchmarkprestaties bevestigt onze analyse...
English
While Large Language Models (LLMs) excel at short-term tasks, scaling them to long-horizon agentic workflows remains challenging. The core bottleneck lies in the scarcity of training data that captures authentic long-dependency structures and cross-stage evolutionary dynamics--existing synthesis methods either confine to single-feature scenarios constrained by model distribution, or incur prohibitive human annotation costs, failing to provide scalable, high-quality supervision. We address this by reconceptualizing data synthesis through the lens of real-world software evolution. Our key insight: Pull Request (PR) sequences naturally embody the supervision signals for long-horizon learning. They decompose complex objectives into verifiable submission units, maintain functional coherence across iterations, and encode authentic refinement patterns through bug-fix histories. Building on this, we propose daVinci-Agency, which systematically mines structured supervision from chain-of-PRs through three interlocking mechanisms: (1) progressive task decomposition via continuous commits, (2) long-term consistency enforcement through unified functional objectives, and (3) verifiable refinement from authentic bug-fix trajectories. Unlike synthetic trajectories that treat each step independently, daVinci-Agency's PR-grounded structure inherently preserves the causal dependencies and iterative refinements essential for teaching persistent goal-directed behavior and enables natural alignment with project-level, full-cycle task modeling. The resulting trajectories are substantial--averaging 85k tokens and 116 tool calls--yet remarkably data-efficient: fine-tuning GLM-4.6 on 239 daVinci-Agency samples yields broad improvements across benchmarks, notably achieving a 47% relative gain on Toolathlon. Beyond benchmark performance, our analysis confirms...
PDF473February 8, 2026