ParaVT : Maîtriser le paradoxe du prior d'outil pour l'utilisation parallèle d'outils dans l'apprentissage par renforcement vidéo agentique

Résumé

L’entraînement de grands modèles multimodaux (LMM) par apprentissage par renforcement (RL) pour appeler nativement des outils de traitement vidéo (ex. recadrage) est devenu une voie prometteuse pour la compréhension de vidéos longues. Cependant, les méthodes RL natives existantes envoient les appels d’outils de manière séquentielle (un par tour) : un seul mauvais recadrage propage des erreurs sans correction par les pairs, les appels d’outils multi-tours corrompent le contexte, et le coût d’inférence évolue linéairement avec le nombre de tours. Nous introduisons ParaVT, le premier cadre multi-agent entraîné par RL de bout en bout pour l’appel parallèle d’outils vidéo, envoyant plusieurs recadrages par fenêtre temporelle en un seul tour pour un contexte plus propre et une meilleure tolérance aux pannes. Cependant, l’application du RL standard à ParaVT révèle un obstacle que nous appelons le Paradoxe du Prior d’Outil : les a priori d’outils pré-entraînés qui permettent l’exploration des outils déstabilisent également le format structurel démarré à froid et exposent le raccourci de récompense pour saut d’outil sous échantillonnage de température. Un contraste inter-modèle sur un LMM à prior plus faible appuie cette affirmation : le format reste stable mais le RL ne suscite aucun appel d’outil, indiquant que la force du prior est le facteur commun à la fois de l’effondrement du format et de l’exploration des outils. Nous proposons PARA-GRPO (GRPO Ancré sur la Parsabilité et Régulé par Ratio), qui enrichit le RL standard de deux mécanismes complémentaires : (i) une récompense de format ciblée appliquée uniquement aux positions de tokens structurels les plus sujettes à l’effondrement, et (ii) une randomisation du budget de trames par prompt qui crée des prompts d’entraînement où l’appel à l’outil produit un signal de récompense mesurable par rapport au fait de le sauter. Sur six bancs d’essai de compréhension de vidéos longues, ParaVT améliore la référence Qwen3-VL de +7,9 % en moyenne, tandis que PARA-GRPO élève la conformité de format en entraînement de 0,13 à 0,64. À mesure que les capacités des outils sont de plus en plus internalisées dans les LMM modernes, le RL doit coopérer avec les a priori qui en résultent, et ParaVT offre une recette générale pour le RL agentique. Le code, les données et les poids du modèle sont disponibles publiquement.

English

Training large multimodal models (LMMs) via reinforcement learning (RL) to natively invoke video-processing tools (e.g., cropping) has become a promising route to long-video understanding. However, existing native-RL methods dispatch tool calls sequentially (i.e., one per turn): a single wrong crop propagates errors without peer correction, multi-turn tool calls corrupt context, and inference cost scales linearly with the number of turns. We introduce ParaVT, the first multi-agent end-to-end RL-trained framework for Parallel Video Tool calling, dispatching multiple time-window crops in a single turn for cleaner context and better fault tolerance. Yet applying standard RL to ParaVT reveals an obstacle we term the Tool Prior Paradox: the pretrained tool priors that enable tool exploration also destabilize cold-started structural format and expose the skip-tool reward shortcut under temperature sampling. A cross-model contrast on a weaker-prior LMM supports this claim: format stays stable but RL elicits zero tool calls, indicating that prior strength is the shared driver of both format collapse and tool exploration. We propose PARA-GRPO (Parseability-Anchored and Ratio-gAted GRPO), which augments standard RL with two complementary mechanisms: (i) a targeted format reward applied only at the structural-token positions most prone to collapse, and (ii) a per-prompt frame-budget randomization that creates training prompts where calling the tool yields a measurable reward signal over skipping it. Across six long-video understanding benchmarks, ParaVT improves over the Qwen3-VL baseline by +7.9% on average, with PARA-GRPO lifting training-time format compliance from 0.13 to 0.64. As tool capabilities become increasingly internalized in modern LMMs, RL must cooperate with the resulting priors, and ParaVT offers a general recipe for agentic RL. Code, data, and model weights are publicly available.