ParaVT: Укрощение парадокса априорных знаний об инструментах для их параллельного использования в агентном видео-обучении с подкреплением

Аннотация

Обучение больших мультимодальных моделей (БММ) с помощью обучения с подкреплением (RL) для нативного вызова инструментов обработки видео (например, кадрирования) становится перспективным подходом к пониманию длинных видео. Однако существующие нативные RL-методы выполняют вызовы инструментов последовательно (по одному за шаг): единственная ошибка кадрирования распространяет ошибки без возможности коррекции, многошаговые вызовы инструментов загромождают контекст, а затраты на инференс линейно растут с числом шагов. Мы представляем ParaVT — первую мультиагентную сквозную RL-обученную структуру для параллельного вызова видеоинструментов, которая выполняет несколько кадрирований временных окон за один шаг, обеспечивая более чистый контекст и лучшую устойчивость к ошибкам. Однако применение стандартного RL к ParaVT выявляет препятствие, которое мы называем Парадоксом априорных знаний об инструментах: предварительно обученные априорные знания об инструментах, позволяющие их исследование, одновременно дестабилизируют холодно-запущенный структурный формат и создают сокращенный путь вознаграждения за пропуск инструмента при температурной выборке. Сравнение между моделями с более слабыми априорными знаниями подтверждает это утверждение: формат остается стабильным, но RL не вызывает ни одного вызова инструмента, что указывает на то, что сила априорных знаний является общей причиной как коллапса формата, так и исследования инструментов. Мы предлагаем ПАРА-GRPO (основанная на разбираемости и управляемая коэффициентом GRPO), которая дополняет стандартное RL двумя взаимодополняющими механизмами: (i) целевая награда за формат, применяемая только на позициях структурных токенов, наиболее склонных к коллапсу, и (ii) рандомизация кадрового бюджета на каждый запрос, создающая обучающие запросы, в которых вызов инструмента дает измеримый сигнал вознаграждения по сравнению с его пропуском. На шести эталонных тестах понимания длинных видео ParaVT в среднем улучшает базовую модель Qwen3-VL на +7,9%, при этом ПАРА-GRPO повышает соответствие формату во время обучения с 0,13 до 0,64. По мере того как возможности инструментов все больше интернализируются в современных БММ, RL должно сотрудничать с возникающими априорными знаниями, и ParaVT предлагает общий рецепт для агентного RL. Код, данные и веса моделей находятся в открытом доступе.

English

Training large multimodal models (LMMs) via reinforcement learning (RL) to natively invoke video-processing tools (e.g., cropping) has become a promising route to long-video understanding. However, existing native-RL methods dispatch tool calls sequentially (i.e., one per turn): a single wrong crop propagates errors without peer correction, multi-turn tool calls corrupt context, and inference cost scales linearly with the number of turns. We introduce ParaVT, the first multi-agent end-to-end RL-trained framework for Parallel Video Tool calling, dispatching multiple time-window crops in a single turn for cleaner context and better fault tolerance. Yet applying standard RL to ParaVT reveals an obstacle we term the Tool Prior Paradox: the pretrained tool priors that enable tool exploration also destabilize cold-started structural format and expose the skip-tool reward shortcut under temperature sampling. A cross-model contrast on a weaker-prior LMM supports this claim: format stays stable but RL elicits zero tool calls, indicating that prior strength is the shared driver of both format collapse and tool exploration. We propose PARA-GRPO (Parseability-Anchored and Ratio-gAted GRPO), which augments standard RL with two complementary mechanisms: (i) a targeted format reward applied only at the structural-token positions most prone to collapse, and (ii) a per-prompt frame-budget randomization that creates training prompts where calling the tool yields a measurable reward signal over skipping it. Across six long-video understanding benchmarks, ParaVT improves over the Qwen3-VL baseline by +7.9% on average, with PARA-GRPO lifting training-time format compliance from 0.13 to 0.64. As tool capabilities become increasingly internalized in modern LMMs, RL must cooperate with the resulting priors, and ParaVT offers a general recipe for agentic RL. Code, data, and model weights are publicly available.