ParaVT: Superando o Paradoxo do Prior de Ferramentas para Uso Paralelo de Ferramentas no Aprendizado por Reforço com Vídeo para Agentes

Resumo

Treinar modelos multimodais grandes (LMMs) via aprendizagem por reforço (RL) para invocar nativamente ferramentas de processamento de vídeo (e.g., recorte) tornou-se uma rota promissora para a compreensão de vídeos longos. No entanto, os métodos nativos de RL existentes despacham chamadas de ferramentas sequencialmente (ou seja, uma por turno): um único recorte errado propaga erros sem correção entre pares, chamadas de ferramentas em múltiplos turnos corrompem o contexto, e o custo de inferência escala linearmente com o número de turnos. Apresentamos o ParaVT, o primeiro framework multiagente treinado com RL de ponta a ponta para Chamada Paralela de Ferramentas de Vídeo, despachando múltiplos recortes de janelas temporais em um único turno para um contexto mais limpo e melhor tolerância a falhas. No entanto, aplicar RL padrão ao ParaVT revela um obstáculo que denominamos Paradoxo da Prioridade da Ferramenta: as prioridades pré-treinadas das ferramentas que permitem a exploração de ferramentas também desestabilizam o formato estrutural iniciado a frio e expõem o atalho de recompensa por ignorar a ferramenta sob amostragem por temperatura. Uma comparação entre modelos em um LMM com prioridade mais fraca corrobora essa afirmação: o formato permanece estável, mas a RL não elicita nenhuma chamada de ferramenta, indicando que a força da prioridade é o fator compartilhado tanto do colapso do formato quanto da exploração de ferramentas. Propomos o PARA-GRPO (GRPO Ancorado em Parseabilidade e Limitado por Razão), que aumenta a RL padrão com dois mecanismos complementares: (i) uma recompensa de formato direcionada aplicada apenas nas posições de tokens estruturais mais propensas ao colapso, e (ii) uma randomização do orçamento de quadros por prompt que cria prompts de treinamento onde chamar a ferramenta produz um sinal de recompensa mensurável em relação a ignorá-la. Em seis benchmarks de compreensão de vídeos longos, o ParaVT melhora a linha de base Qwen3-VL em +7,9% em média, com o PARA-GRPO elevando a conformidade de formato durante o treinamento de 0,13 para 0,64. À medida que as capacidades das ferramentas se tornam cada vez mais internalizadas nos LMMs modernos, a RL deve cooperar com as prioridades resultantes, e o ParaVT oferece uma receita geral para RL agentiva. Código, dados e pesos do modelo estão disponíveis publicamente.

English

Training large multimodal models (LMMs) via reinforcement learning (RL) to natively invoke video-processing tools (e.g., cropping) has become a promising route to long-video understanding. However, existing native-RL methods dispatch tool calls sequentially (i.e., one per turn): a single wrong crop propagates errors without peer correction, multi-turn tool calls corrupt context, and inference cost scales linearly with the number of turns. We introduce ParaVT, the first multi-agent end-to-end RL-trained framework for Parallel Video Tool calling, dispatching multiple time-window crops in a single turn for cleaner context and better fault tolerance. Yet applying standard RL to ParaVT reveals an obstacle we term the Tool Prior Paradox: the pretrained tool priors that enable tool exploration also destabilize cold-started structural format and expose the skip-tool reward shortcut under temperature sampling. A cross-model contrast on a weaker-prior LMM supports this claim: format stays stable but RL elicits zero tool calls, indicating that prior strength is the shared driver of both format collapse and tool exploration. We propose PARA-GRPO (Parseability-Anchored and Ratio-gAted GRPO), which augments standard RL with two complementary mechanisms: (i) a targeted format reward applied only at the structural-token positions most prone to collapse, and (ii) a per-prompt frame-budget randomization that creates training prompts where calling the tool yields a measurable reward signal over skipping it. Across six long-video understanding benchmarks, ParaVT improves over the Qwen3-VL baseline by +7.9% on average, with PARA-GRPO lifting training-time format compliance from 0.13 to 0.64. As tool capabilities become increasingly internalized in modern LMMs, RL must cooperate with the resulting priors, and ParaVT offers a general recipe for agentic RL. Code, data, and model weights are publicly available.