daVinci-Agency: Effiziente Erschließung von Agenten-Fähigkeiten für langfristige Handlungsziele
daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently
February 2, 2026
papers.authors: Mohan Jiang, Dayuan Fu, Junhao Shi, Ji Zeng, Weiye Si, Keyu Li, Xuefeng Li, Yang Xiao, Wenjie Li, Dequan Wang, Pengfei Liu
cs.AI
papers.abstract
Während Large Language Models (LLMs) bei kurzfristigen Aufgaben hervorragend abschneiden, stellt die Skalierung auf langfristige, agentenbasierte Workflows nach wie vor eine Herausforderung dar. Der Kernengpass liegt in der Knappheit von Trainingsdaten, die authentische Langzeitabhängigkeiten und übergreifende evolutionäre Dynamiken erfassen – bestehende Synthesemethoden beschränken sich entweder auf Einzelmerkmal-Szenarien, die durch die Modellverteilung eingeschränkt sind, oder verursachen prohibitive Kosten für menschliche Annotationen und können somit keine skalierbare, hochwertige Supervision bieten. Wir adressieren dies, indem wir die Datensynthese durch die Linse realer Softwareevolution neu konzipieren. Unsere zentrale Erkenntnis: Pull-Request (PR)-Sequenzen verkörpern auf natürliche Weise die Supervisionssignale für langfristiges Lernen. Sie zerlegen komplexe Ziele in überprüfbare Einheiten, wahren funktionale Kohärenz über Iterationen hinweg und kodieren authentische Verfeinerungsmuster durch Bug-Fix-Historien. Aufbauend darauf schlagen wir daVinci-Agency vor, das strukturierte Supervision aus PR-Ketten durch drei verzahnte Mechanismen systematisch extrahiert: (1) progressive Aufgabenzerlegung via fortlaufender Commits, (2) Durchsetzung langfristiger Konsistenz durch einheitliche funktionale Ziele und (3) überprüfbare Verfeinerung aus authentischen Bug-Fix-Pfaden. Im Gegensatz zu synthetischen Trajektorien, die jeden Schritt unabhängig behandeln, bewahrt die PR-basierte Struktur von daVinci-Agency inherent die kausalen Abhängigkeiten und iterativen Verfeinerungen, die für das Erlernen von zielgerichtetem Dauerhaftverhalten essenziell sind, und ermöglicht eine natürliche Ausrichtung auf projektweite, vollständige Aufgabenmodellierung. Die resultierenden Trajektorien sind umfangreich – durchschnittlich 85k Tokens und 116 Tool-Aufrufe – und dennoch bemerkenswert dateneffizient: Das Fine-Tuning von GLM-4.6 mit nur 239 daVinci-Agency-Beispielen führt zu breiten Verbesserungen in Benchmarks, mit einem bemerkenswerten relativen Zuwachs von 47 % auf Toolathlon. Über die Benchmark-Leistung hinaus bestätigt unsere Analyse ...
English
While Large Language Models (LLMs) excel at short-term tasks, scaling them to long-horizon agentic workflows remains challenging. The core bottleneck lies in the scarcity of training data that captures authentic long-dependency structures and cross-stage evolutionary dynamics--existing synthesis methods either confine to single-feature scenarios constrained by model distribution, or incur prohibitive human annotation costs, failing to provide scalable, high-quality supervision. We address this by reconceptualizing data synthesis through the lens of real-world software evolution. Our key insight: Pull Request (PR) sequences naturally embody the supervision signals for long-horizon learning. They decompose complex objectives into verifiable submission units, maintain functional coherence across iterations, and encode authentic refinement patterns through bug-fix histories. Building on this, we propose daVinci-Agency, which systematically mines structured supervision from chain-of-PRs through three interlocking mechanisms: (1) progressive task decomposition via continuous commits, (2) long-term consistency enforcement through unified functional objectives, and (3) verifiable refinement from authentic bug-fix trajectories. Unlike synthetic trajectories that treat each step independently, daVinci-Agency's PR-grounded structure inherently preserves the causal dependencies and iterative refinements essential for teaching persistent goal-directed behavior and enables natural alignment with project-level, full-cycle task modeling. The resulting trajectories are substantial--averaging 85k tokens and 116 tool calls--yet remarkably data-efficient: fine-tuning GLM-4.6 on 239 daVinci-Agency samples yields broad improvements across benchmarks, notably achieving a 47% relative gain on Toolathlon. Beyond benchmark performance, our analysis confirms...