Agent-exploratieve beleidsoptimalisatie voor multimodaal agentisch redeneren

Samenvatting

Visie-taalmodellen met uitgebreid redeneren presteren goed op complexe problemen, maar veel realistische problemen vereisen externe tools die interne redenering alleen vaak niet kan oplossen. Agentisch redeneren combineert daarom twee gedragingen met een structurele asymmetrie: denken (de op zichzelf staande standaard) en toolgebruik (een hoge-variantie aanvullende handeling). We verwijzen naar deze asymmetrie als de Thinking-Acting Gap. Onder standaard RL-recepten zoals GRPO manifesteert de kloof zich tijdens training in twee diagnostische symptomen: toolgebruik wordt slechts in ~30% van de uitrolmomenten geprobeerd, en wanneer het wordt geprobeerd, zijn de tool-gebruikende uitrolmomenten binnen een groep op ~40% van de vragen allemaal fout, waardoor het leersignaal wordt onderdrukt op de tool-aanroepen die het nodig hadden. Wij stellen AXPO (Agent eXplorative Policy Optimization) voor: voor elke subgroep van volledig foute tool-gebruikende uitrolmomenten fixeert AXPO de denkprefix en herneemt het de tool-aanroep en de voortzetting ervan, gekoppeld aan onzekerheidsgebaseerde prefixselectie. Over negen multimodale benchmarks en drie schalen van Qwen3-VL-Thinking presteert SFT+AXPO gemiddeld beter dan SFT+GRPO (+1,8 procentpunt Pass@1 en +1,8 procentpunt Pass@4 bij 8B gemiddeld) en 8B met SFT+AXPO overtreft de 32B Base op Pass@4 met 4 keer minder parameters.

English

Vision-language models with extended reasoning succeed on complex problems, but many real-world problems require external tools that internal reasoning alone often cannot resolve. Agentic reasoning therefore interleaves two behaviors with a structural asymmetry: thinking (the self-contained default) and tool use (a high-variance auxiliary acting). We refer to this asymmetry as the Thinking-Acting Gap. Under standard RL recipes like GRPO, the gap manifests as two diagnostic symptoms during training: tool use is attempted on only ~30% of rollouts, and when attempted, the tool-using rollouts within a group are all-wrong on ~40% of questions, suppressing the learning signal at the tool calls that needed it. We propose AXPO (Agent eXplorative Policy Optimization): for each all-wrong tool-using subgroup, AXPO fixes the thinking prefix and resamples the tool call and its continuation, paired with uncertainty-based prefix selection. Across nine multimodal benchmarks and three scales of Qwen3-VL-Thinking, SFT+AXPO outperforms SFT+GRPO at average (+1.8pp Pass@1 and +1.8pp Pass@4 at 8B on average) and 8B with SFT+AXPO surpasses the 32B Base on Pass@4 with 4 times fewer parameters.