DIVE: Skalierung der Vielfalt in der agentenbasierten Aufgaben-Synthese für generalisierbaren Werkzeugeinsatz

Zusammenfassung

Aktuelle Arbeiten synthetisieren agentenbasierte Aufgaben für nachtrainierte, werkzeugnutzende LLMs, dennoch bleibt robuste Generalisierung unter Verschiebungen in Aufgaben und Werkzeugsets eine offene Herausforderung. Wir führen diese Brüchigkeit auf unzureichende Vielfalt in synthetisierten Aufgaben zurück. Die Skalierung von Diversität ist schwierig, da das Training erfordert, dass Aufgaben ausführbar und verifizierbar bleiben, während Generalisierung eine Abdeckung verschiedener Werkzeugtypen, Werkzeugset-Kombinationen und heterogener Werkzeugnutzungsmuster erfordert. Wir schlagen DIVE vor, ein evidenzbasiertes Verfahren, das die Synthesereihenfolge umkehrt: Es führt zunächst diverse, realweltliche Werkzeuge aus und leitet daraus streng abgeleitete Aufgaben aus den resultierenden Spuren ab, wodurch eine Verankerung durch Konstruktion gewährleistet wird. DIVE skaliert strukturelle Vielfalt entlang zwei kontrollierbarer Achsen – Werkzeugpool-Abdeckung und Werkzeugset-Vielfalt pro Aufgabe – und eine Evidenzsammelungs–Aufgabenableitungs-Schleife induziert zudem reichhaltige mehrstufige Werkzeugnutzungsmuster über 373 Werkzeuge in fünf Domänen hinweg. Das Training von Qwen3-8B auf DIVE-Daten (48k SFT + 3.2k RL) verbessert die Leistung um durchschnittlich +22 Punkte über 9 OOD-Benchmarks hinweg und übertrifft die stärkste 8B-Baseline um +68. Bemerkenswerterweise zeigt eine kontrollierte Skalierungsanalyse, dass die Skalierung von Diversität für die OOD-Generalisierung durchgängig besser abschneidet als die Skalierung der Datenmenge, selbst mit 4x weniger Daten.

English

Recent work synthesizes agentic tasks for post-training tool-using LLMs, yet robust generalization under shifts in tasks and toolsets remains an open challenge. We trace this brittleness to insufficient diversity in synthesized tasks. Scaling diversity is difficult because training requires tasks to remain executable and verifiable, while generalization demands coverage of diverse tool types, toolset combinations, and heterogeneous tool-use patterns. We propose DIVE, an evidence-driven recipe that inverts synthesis order, executing diverse, real-world tools first and reverse-deriving tasks strictly entailed by the resulting traces, thereby providing grounding by construction. DIVE scales structural diversity along two controllable axes, tool-pool coverage and per-task toolset variety, and an Evidence Collection--Task Derivation loop further induces rich multi-step tool-use patterns across 373 tools in five domains. Training Qwen3-8B on DIVE data (48k SFT + 3.2k RL) improves by +22 average points across 9 OOD benchmarks and outperforms the strongest 8B baseline by +68. Remarkably, controlled scaling analysis reveals that diversity scaling consistently outperforms quantity scaling for OOD generalization, even with 4x less data.

DIVE: Skalierung der Vielfalt in der agentenbasierten Aufgaben-Synthese für generalisierbaren Werkzeugeinsatz

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

Zusammenfassung

Support