ParaVT: Die Zähmung des Werkzeug-Prior-Paradoxons für die parallele Werkzeugnutzung im agentischen Video-Verstärkungslernen
ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning
May 19, 2026
Autoren: Zuhao Yang, Kaichen Zhang, Sudong Wang, Keming Wu, Zhongyu Yang, Bo Li, Xiaojuan Qi, Shijian Lu, Xingxuan Li, Lidong Bing
cs.AI
Zusammenfassung
Das Training großer multimodaler Modelle (LMMs) mittels Reinforcement Learning (RL), um nativ Videoverarbeitungswerkzeuge (z. B. Zuschneiden) aufzurufen, hat sich zu einem vielversprechenden Weg für das Verständnis langer Videos entwickelt. Allerdings senden bestehende native-RL-Methoden Werkzeugaufrufe sequenziell (d. h. einen pro Schritt): Ein einzelner falscher Zuschnitt verbreitet Fehler ohne Korrektur durch andere, mehrschrittige Werkzeugaufrufe verfälschen den Kontext, und die Inferenzkosten skalieren linear mit der Anzahl der Schritte. Wir stellen ParaVT vor, das erste Multi-Agenten-End-to-End-RL-trainierte Framework für paralleles Videowerkzeug-Aufrufen (Parallel Video Tool Calling), das mehrere Zeitfenster-Zuschnitte in einem einzigen Schritt ausführt, für einen saubereren Kontext und eine bessere Fehlertoleranz. Doch die Anwendung von Standard-RL auf ParaVT offenbart ein Hindernis, das wir als Tool-Prior-Paradoxon bezeichnen: Die vortrainierten Werkzeug-Priors, die die Werkzeugerkundung ermöglichen, destabilisieren gleichzeitig das kaltgestartete Strukturformat und legen unter Temperatursampling den Belohnungsabkürzungspfad des Überspringens von Werkzeugen offen. Ein modellübergreifender Vergleich mit einem LMM mit schwächeren Priors unterstützt diese Behauptung: Das Format bleibt stabil, aber RL ruft keine Werkzeuge auf, was darauf hindeutet, dass die Prior-Stärke der gemeinsame Treiber sowohl für den Formatzusammenbruch als auch für die Werkzeugerkundung ist. Wir schlagen PARA-GRPO (Parseability-Anchored and Ratio-gAted GRPO) vor, das Standard-RL mit zwei komplementären Mechanismen erweitert: (i) eine gezielte Formatbelohnung, die nur an den strukturellen Token-Positionen angewendet wird, die am anfälligsten für einen Zusammenbruch sind, und (ii) eine pro-Prompt-Frame-Budget-Randomisierung, die Trainingsprompts erzeugt, bei denen das Aufrufen des Werkzeugs ein messbares Belohnungssignal gegenüber dem Überspringen liefert. Über sechs Benchmarks zum Verständnis langer Videos hinweg verbessert ParaVT die Qwen3-VL-Baseline um durchschnittlich +7,9 %, wobei PARA-GRPO die Formatkonformität während des Trainings von 0,13 auf 0,64 anhebt. Da Werkzeugfähigkeiten in modernen LMMs zunehmend internalisiert werden, muss RL mit den resultierenden Priors zusammenarbeiten, und ParaVT bietet ein allgemeines Rezept für agentisches RL. Code, Daten und Modellgewichte sind öffentlich verfügbar.
English
Training large multimodal models (LMMs) via reinforcement learning (RL) to natively invoke video-processing tools (e.g., cropping) has become a promising route to long-video understanding. However, existing native-RL methods dispatch tool calls sequentially (i.e., one per turn): a single wrong crop propagates errors without peer correction, multi-turn tool calls corrupt context, and inference cost scales linearly with the number of turns. We introduce ParaVT, the first multi-agent end-to-end RL-trained framework for Parallel Video Tool calling, dispatching multiple time-window crops in a single turn for cleaner context and better fault tolerance. Yet applying standard RL to ParaVT reveals an obstacle we term the Tool Prior Paradox: the pretrained tool priors that enable tool exploration also destabilize cold-started structural format and expose the skip-tool reward shortcut under temperature sampling. A cross-model contrast on a weaker-prior LMM supports this claim: format stays stable but RL elicits zero tool calls, indicating that prior strength is the shared driver of both format collapse and tool exploration. We propose PARA-GRPO (Parseability-Anchored and Ratio-gAted GRPO), which augments standard RL with two complementary mechanisms: (i) a targeted format reward applied only at the structural-token positions most prone to collapse, and (ii) a per-prompt frame-budget randomization that creates training prompts where calling the tool yields a measurable reward signal over skipping it. Across six long-video understanding benchmarks, ParaVT improves over the Qwen3-VL baseline by +7.9% on average, with PARA-GRPO lifting training-time format compliance from 0.13 to 0.64. As tool capabilities become increasingly internalized in modern LMMs, RL must cooperate with the resulting priors, and ParaVT offers a general recipe for agentic RL. Code, data, and model weights are publicly available.