Оптимизация исследовательской политики агента для мультимодального агентного рассуждения

Аннотация

Модели «зрение-язык» с расширенным рассуждением успешно справляются со сложными задачами, однако многие реальные проблемы требуют внешних инструментов, которые одно лишь внутреннее рассуждение часто не может разрешить. Поэтому агентное рассуждение чередует два поведения, обладающих структурной асимметрией: мышление (самодостаточный режим по умолчанию) и использование инструментов (вспомогательное действие с высокой вариативностью). Мы называем эту асимметрию разрывом между мышлением и действием (Thinking-Acting Gap). При стандартных подходах RL, таких как GRPO, этот разрыв проявляется в виде двух диагностических симптомов во время обучения: использование инструментов предпринимается лишь в ~30% разверток, а когда оно предпринимается, то в ~40% вопросов все развертки с использованием инструментов внутри группы оказываются неверными, подавляя обучающий сигнал в тех вызовах инструментов, которые в нём нуждались. Мы предлагаем AXPO (Agent eXplorative Policy Optimization — оптимизация политики с агентным исследованием): для каждой подгруппы с полностью неверным использованием инструментов AXPO фиксирует префикс мышления и повторно выбирает вызов инструмента и его продолжение в сочетании с выбором префикса на основе неопределённости. На девяти мультимодальных бенчмарках и трёх масштабах Qwen3-VL-Thinking SFT+AXPO превосходит SFT+GRPO в среднем (+1,8 процентных пункта по Pass@1 и +1,8 п.п. по Pass@4 для модели 8B в среднем), а модель 8B с SFT+AXPO превосходит базовую модель 32B по Pass@4, имея в 4 раза меньше параметров.

English

Vision-language models with extended reasoning succeed on complex problems, but many real-world problems require external tools that internal reasoning alone often cannot resolve. Agentic reasoning therefore interleaves two behaviors with a structural asymmetry: thinking (the self-contained default) and tool use (a high-variance auxiliary acting). We refer to this asymmetry as the Thinking-Acting Gap. Under standard RL recipes like GRPO, the gap manifests as two diagnostic symptoms during training: tool use is attempted on only ~30% of rollouts, and when attempted, the tool-using rollouts within a group are all-wrong on ~40% of questions, suppressing the learning signal at the tool calls that needed it. We propose AXPO (Agent eXplorative Policy Optimization): for each all-wrong tool-using subgroup, AXPO fixes the thinking prefix and resamples the tool call and its continuation, paired with uncertainty-based prefix selection. Across nine multimodal benchmarks and three scales of Qwen3-VL-Thinking, SFT+AXPO outperforms SFT+GRPO at average (+1.8pp Pass@1 and +1.8pp Pass@4 at 8B on average) and 8B with SFT+AXPO surpasses the 32B Base on Pass@4 with 4 times fewer parameters.