Mini-o3: Scalabilità dei Modelli di Ragionamento e dei Turni di Interazione per la Ricerca Visiva
Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search
September 9, 2025
Autori: Xin Lai, Junyi Li, Wei Li, Tao Liu, Tianjian Li, Hengshuang Zhao
cs.AI
Abstract
I recenti progressi nei modelli multimodali di grandi dimensioni hanno sfruttato strumenti basati su immagini con apprendimento per rinforzo per affrontare problemi visivi. Tuttavia, gli approcci open-source esistenti spesso presentano schemi di ragionamento monotoni e consentono solo un numero limitato di interazioni, rendendoli inadeguati per compiti difficili che richiedono esplorazione per tentativi ed errori. In questo lavoro, affrontiamo questa limitazione aumentando le interazioni basate su strumenti e introduciamo Mini-o3, un sistema che esegue ragionamenti profondi e multi-turn – che si estendono per decine di passaggi – e raggiunge prestazioni all'avanguardia in compiti di ricerca visiva impegnativi. La nostra ricetta per riprodurre comportamenti in stile OpenAI o3 comprende tre componenti chiave. Innanzitutto, costruiamo il Visual Probe Dataset, una raccolta di migliaia di problemi di ricerca visiva impegnativi progettati per il ragionamento esplorativo. In secondo luogo, sviluppiamo una pipeline iterativa di raccolta dati per ottenere traiettorie di avvio a freddo che mostrano schemi di ragionamento diversificati, inclusi la ricerca in profondità, il tentativo ed errore e il mantenimento degli obiettivi. Terzo, proponiamo una strategia di mascheramento degli over-turn che evita la penalizzazione delle risposte over-turn (quelle che raggiungono il numero massimo di turni) durante l'apprendimento per rinforzo, bilanciando così l'efficienza del tempo di addestramento con la scalabilità del tempo di test. Nonostante l'addestramento con un limite superiore di soli sei turni di interazione, il nostro modello genera traiettorie che si estendono naturalmente a decine di turni durante l'inferenza, con una precisione che migliora all'aumentare del numero di turni. Esperimenti estensivi dimostrano che Mini-o3 produce schemi di ragionamento ricchi e percorsi di pensiero profondi, risolvendo efficacemente problemi di ricerca visiva impegnativi.
English
Recent advances in large multimodal models have leveraged image-based tools
with reinforcement learning to tackle visual problems. However, existing
open-source approaches often exhibit monotonous reasoning patterns and allow
only a limited number of interaction turns, making them inadequate for
difficult tasks that require trial-and-error exploration. In this work, we
address this limitation by scaling up tool-based interactions and introduce
Mini-o3, a system that executes deep, multi-turn reasoning -- spanning tens of
steps -- and achieves state-of-the-art performance on challenging visual search
tasks. Our recipe for reproducing OpenAI o3-style behaviors comprises three key
components. First, we construct the Visual Probe Dataset, a collection of
thousands of challenging visual search problems designed for exploratory
reasoning. Second, we develop an iterative data collection pipeline to obtain
cold-start trajectories that exhibit diverse reasoning patterns, including
depth-first search, trial-and-error, and goal maintenance. Third, we propose an
over-turn masking strategy that prevents penalization of over-turn responses
(those that hit the maximum number of turns) during reinforcement learning,
thereby balancing training-time efficiency with test-time scalability. Despite
training with an upper bound of only six interaction turns, our model generates
trajectories that naturally scale to tens of turns at inference time, with
accuracy improving as the number of turns increases. Extensive experiments
demonstrate that Mini-o3 produces rich reasoning patterns and deep thinking
paths, effectively solving challenging visual search problems.