ParaVT: Het temmen van de tool prior paradox voor parallel toolgebruik in agentisch video reinforcement learning
ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning
May 19, 2026
Auteurs: Zuhao Yang, Kaichen Zhang, Sudong Wang, Keming Wu, Zhongyu Yang, Bo Li, Xiaojuan Qi, Shijian Lu, Xingxuan Li, Lidong Bing
cs.AI
Samenvatting
Het trainen van grote multimodale modellen (LMM's) via reinforcement learning (RL) om native videoverwerkingstools (bijv. bijsnijden) aan te roepen, is een veelbelovende route geworden voor het begrijpen van lange video's. Bestaande native-RL-methoden sturen toolaanroepen echter sequentieel (d.w.z. één per beurt): een enkele verkeerde bijsnijding verspreidt fouten zonder peer-correctie, multi-turn toolaanroepen verstoren de context, en de inferentiekosten schalen lineair met het aantal beurten. We introduceren ParaVT, het eerste multi-agent end-to-end RL-getrainde raamwerk voor Parallelle Video Tool-aanroeping, waarbij meerdere tijdvenster-bijsnijdingen in één beurt worden verstuurd voor een schonere context en betere fouttolerantie.
Het toepassen van standaard RL op ParaVT onthult echter een obstakel dat we de Tool Prior Paradox noemen: de voorgetrainde tool-priors die toolverkenning mogelijk maken, destabiliseren ook de koudgestarte structurele opmaak en leggen de skip-tool-beloningsshortcut bloot onder temperatuursampling. Een cross-model vergelijking op een zwakkere-prior LMM ondersteunt deze bewering: de opmaak blijft stabiel, maar RL levert nul toolaanroepen op, wat aangeeft dat priorsterkte de gemeenschappelijke drijfveer is van zowel formaatcollaps als toolverkenning. We stellen PARA-GRPO (Parseability-Anchored and Ratio-gAted GRPO) voor, dat standaard RL verrijkt met twee complementaire mechanismen: (i) een gerichte formaatbeloning die alleen wordt toegepast op de structurele tokenposities die het meest vatbaar zijn voor collaps, en (ii) een per-prompt frame-budget randomisatie die trainingsprompts creëert waarbij het aanroepen van de tool een meetbaar beloningssignaal oplevert ten opzichte van het overslaan ervan.
Over zes benchmarks voor het begrijpen van lange video's verbetert ParaVT de Qwen3-VL-baseline met gemiddeld +7,9%, waarbij PARA-GRPO de trainingsformaatnaleving verhoogt van 0,13 naar 0,64. Naarmate toolmogelijkheden steeds meer worden geïnternaliseerd in moderne LMM's, moet RL samenwerken met de resulterende priors, en ParaVT biedt een algemeen recept voor agentic RL. Code, data en modelgewichten zijn openbaar beschikbaar.
English
Training large multimodal models (LMMs) via reinforcement learning (RL) to natively invoke video-processing tools (e.g., cropping) has become a promising route to long-video understanding. However, existing native-RL methods dispatch tool calls sequentially (i.e., one per turn): a single wrong crop propagates errors without peer correction, multi-turn tool calls corrupt context, and inference cost scales linearly with the number of turns. We introduce ParaVT, the first multi-agent end-to-end RL-trained framework for Parallel Video Tool calling, dispatching multiple time-window crops in a single turn for cleaner context and better fault tolerance. Yet applying standard RL to ParaVT reveals an obstacle we term the Tool Prior Paradox: the pretrained tool priors that enable tool exploration also destabilize cold-started structural format and expose the skip-tool reward shortcut under temperature sampling. A cross-model contrast on a weaker-prior LMM supports this claim: format stays stable but RL elicits zero tool calls, indicating that prior strength is the shared driver of both format collapse and tool exploration. We propose PARA-GRPO (Parseability-Anchored and Ratio-gAted GRPO), which augments standard RL with two complementary mechanisms: (i) a targeted format reward applied only at the structural-token positions most prone to collapse, and (ii) a per-prompt frame-budget randomization that creates training prompts where calling the tool yields a measurable reward signal over skipping it. Across six long-video understanding benchmarks, ParaVT improves over the Qwen3-VL baseline by +7.9% on average, with PARA-GRPO lifting training-time format compliance from 0.13 to 0.64. As tool capabilities become increasingly internalized in modern LMMs, RL must cooperate with the resulting priors, and ParaVT offers a general recipe for agentic RL. Code, data, and model weights are publicly available.