Mini-o3: Opschaling van redeneerpatronen en interactiebeurten voor visuele zoekopdrachten
Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search
September 9, 2025
Auteurs: Xin Lai, Junyi Li, Wei Li, Tao Liu, Tianjian Li, Hengshuang Zhao
cs.AI
Samenvatting
Recente vooruitgang in grote multimodale modellen heeft beeldgebaseerde tools
gecombineerd met reinforcement learning om visuele problemen aan te pakken. Bestaande
open-source benaderingen vertonen echter vaak monotone redeneerpatronen en staan
slechts een beperkt aantal interactiestappen toe, waardoor ze ongeschikt zijn voor
moeilijke taken die trial-and-error exploratie vereisen. In dit werk pakken we deze
beperking aan door toolgebaseerde interacties op te schalen en introduceren we
Mini-o3, een systeem dat diep, multi-staps redeneren uitvoert -- over tientallen
stappen -- en state-of-the-art prestaties behaalt op uitdagende visuele zoekopdrachten.
Onze methode voor het reproduceren van OpenAI o3-achtig gedrag bestaat uit drie
belangrijke componenten. Ten eerste construeren we de Visual Probe Dataset, een
verzameling van duizenden uitdagende visuele zoekproblemen die zijn ontworpen voor
exploratief redeneren. Ten tweede ontwikkelen we een iteratief dataverzamelingsproces
om cold-start trajecten te verkrijgen die diverse redeneerpatronen vertonen, waaronder
depth-first search, trial-and-error en doelbehoud. Ten derde stellen we een
over-turn masking strategie voor die voorkomt dat over-turn reacties (die het maximale
aantal stappen bereiken) worden bestraft tijdens reinforcement learning, waardoor
trainings-efficiëntie wordt gebalanceerd met schaalbaarheid tijdens testen. Ondanks
training met een bovengrens van slechts zes interactiestappen, genereert ons model
trajecten die natuurlijk schalen naar tientallen stappen tijdens inferentie, waarbij
de nauwkeurigheid verbetert naarmate het aantal stappen toeneemt. Uitgebreide
experimenten tonen aan dat Mini-o3 rijke redeneerpatronen en diepe denkpaden produceert,
waardoor uitdagende visuele zoekproblemen effectief worden opgelost.
English
Recent advances in large multimodal models have leveraged image-based tools
with reinforcement learning to tackle visual problems. However, existing
open-source approaches often exhibit monotonous reasoning patterns and allow
only a limited number of interaction turns, making them inadequate for
difficult tasks that require trial-and-error exploration. In this work, we
address this limitation by scaling up tool-based interactions and introduce
Mini-o3, a system that executes deep, multi-turn reasoning -- spanning tens of
steps -- and achieves state-of-the-art performance on challenging visual search
tasks. Our recipe for reproducing OpenAI o3-style behaviors comprises three key
components. First, we construct the Visual Probe Dataset, a collection of
thousands of challenging visual search problems designed for exploratory
reasoning. Second, we develop an iterative data collection pipeline to obtain
cold-start trajectories that exhibit diverse reasoning patterns, including
depth-first search, trial-and-error, and goal maintenance. Third, we propose an
over-turn masking strategy that prevents penalization of over-turn responses
(those that hit the maximum number of turns) during reinforcement learning,
thereby balancing training-time efficiency with test-time scalability. Despite
training with an upper bound of only six interaction turns, our model generates
trajectories that naturally scale to tens of turns at inference time, with
accuracy improving as the number of turns increases. Extensive experiments
demonstrate that Mini-o3 produces rich reasoning patterns and deep thinking
paths, effectively solving challenging visual search problems.