Agentenexplorative Policy-Optimierung für multimodales agentisches Reasoning

Zusammenfassung

Vision-Language-Modelle mit erweitertem Reasoning lösen komplexe Probleme erfolgreich, aber viele reale Probleme erfordern externe Werkzeuge, da internes Reasoning allein diese oft nicht lösen kann. Agentisches Reasoning verschränkt daher zwei Verhaltensweisen mit einer strukturellen Asymmetrie: Denken (der autarke Standardmodus) und Werkzeuggebrauch (eine hochvarianzbehaftete Hilfsaktion). Wir bezeichnen diese Asymmetrie als Thinking-Acting-Gap. Bei standardmäßigen RL-Rezepten wie GRPO zeigt sich die Lücke während des Trainings durch zwei diagnostische Symptome: Werkzeuggebrauch wird nur in etwa 30% der Rollouts versucht, und wenn versucht, sind die Werkzeug nutzenden Rollouts innerhalb einer Gruppe bei etwa 40% der Fragen komplett falsch, was das Lernsignal an den Werkzeugaufrufen unterdrückt, die es benötigten. Wir schlagen AXPO (Agent eXplorative Policy Optimization) vor: Für jede All-wrong-Untergruppe von Werkzeug nutzenden Rollouts fixiert AXPO das Denk-Präfix und sampelt den Werkzeugaufruf sowie seine Fortsetzung neu, gepaart mit unsicherheitsbasierter Präfixauswahl. Über neun multimodale Benchmarks und drei Skalen von Qwen3-VL-Thinking hinweg übertrifft SFT+AXPO SFT+GRPO im Durchschnitt (im Durchschnitt +1,8 Prozentpunkte bei Pass@1 und +1,8 Prozentpunkte bei Pass@4 bei 8B) und 8B mit SFT+AXPO übertrifft das 32B Basis-Modell bei Pass@4 mit viermal weniger Parametern.

English

Vision-language models with extended reasoning succeed on complex problems, but many real-world problems require external tools that internal reasoning alone often cannot resolve. Agentic reasoning therefore interleaves two behaviors with a structural asymmetry: thinking (the self-contained default) and tool use (a high-variance auxiliary acting). We refer to this asymmetry as the Thinking-Acting Gap. Under standard RL recipes like GRPO, the gap manifests as two diagnostic symptoms during training: tool use is attempted on only ~30% of rollouts, and when attempted, the tool-using rollouts within a group are all-wrong on ~40% of questions, suppressing the learning signal at the tool calls that needed it. We propose AXPO (Agent eXplorative Policy Optimization): for each all-wrong tool-using subgroup, AXPO fixes the thinking prefix and resamples the tool call and its continuation, paired with uncertainty-based prefix selection. Across nine multimodal benchmarks and three scales of Qwen3-VL-Thinking, SFT+AXPO outperforms SFT+GRPO at average (+1.8pp Pass@1 and +1.8pp Pass@4 at 8B on average) and 8B with SFT+AXPO surpasses the 32B Base on Pass@4 with 4 times fewer parameters.