Optimisation de Politique Exploratoire d'Agent pour le Raisonnement Agentique Multimodal

Résumé

Les modèles vision-langage dotés d'un raisonnement étendu parviennent à résoudre des problèmes complexes, mais de nombreux problèmes du monde réel nécessitent des outils externes que le seul raisonnement interne ne peut souvent pas résoudre. Le raisonnement agentique entrelace donc deux comportements présentant une asymétrie structurelle : la réflexion (comportement par défaut autonome) et l'utilisation d'outils (action auxiliaire à forte variance). Nous appelons cette asymétrie le « fossé Pensée-Action ». Dans le cadre de recettes RL standard comme GRPO, ce fossé se manifeste par deux symptômes diagnostiques pendant l'entraînement : l'utilisation d'outils n'est tentée que dans ~30% des rollouts, et lorsqu'elle est tentée, les rollouts avec outils au sein d'un groupe sont tous incorrects pour ~40% des questions, ce qui supprime le signal d'apprentissage au niveau des appels d'outils qui en avaient besoin. Nous proposons AXPO (Agent eXplorative Policy Optimization) : pour chaque sous-groupe d'utilisation d'outils tous incorrects, AXPO fixe le préfixe de réflexion et rééchantillonne l'appel d'outil ainsi que sa continuation, associé à une sélection de préfixe basée sur l'incertitude. Sur neuf bancs d'essai multimodaux et trois échelles de Qwen3-VL-Thinking, SFT+AXPO surpasse SFT+GRPO en moyenne (+1,8 pp Pass@1 et +1,8 pp Pass@4 à 8B en moyenne) et, à 8B, SFT+AXPO dépasse le modèle de base 32B au Pass@4 avec quatre fois moins de paramètres.

English

Vision-language models with extended reasoning succeed on complex problems, but many real-world problems require external tools that internal reasoning alone often cannot resolve. Agentic reasoning therefore interleaves two behaviors with a structural asymmetry: thinking (the self-contained default) and tool use (a high-variance auxiliary acting). We refer to this asymmetry as the Thinking-Acting Gap. Under standard RL recipes like GRPO, the gap manifests as two diagnostic symptoms during training: tool use is attempted on only ~30% of rollouts, and when attempted, the tool-using rollouts within a group are all-wrong on ~40% of questions, suppressing the learning signal at the tool calls that needed it. We propose AXPO (Agent eXplorative Policy Optimization): for each all-wrong tool-using subgroup, AXPO fixes the thinking prefix and resamples the tool call and its continuation, paired with uncertainty-based prefix selection. Across nine multimodal benchmarks and three scales of Qwen3-VL-Thinking, SFT+AXPO outperforms SFT+GRPO at average (+1.8pp Pass@1 and +1.8pp Pass@4 at 8B on average) and 8B with SFT+AXPO surpasses the 32B Base on Pass@4 with 4 times fewer parameters.