Mini-o3: Escalando Patrones de Razonamiento y Turnos de Interacción para la Búsqueda Visual
Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search
September 9, 2025
Autores: Xin Lai, Junyi Li, Wei Li, Tao Liu, Tianjian Li, Hengshuang Zhao
cs.AI
Resumen
Los avances recientes en modelos multimodales de gran escala han aprovechado herramientas basadas en imágenes con aprendizaje por refuerzo para abordar problemas visuales. Sin embargo, los enfoques de código abierto existentes suelen exhibir patrones de razonamiento monótonos y permiten solo un número limitado de interacciones, lo que los hace inadecuados para tareas difíciles que requieren exploración por ensayo y error. En este trabajo, abordamos esta limitación escalando las interacciones basadas en herramientas e introducimos Mini-o3, un sistema que ejecuta un razonamiento profundo y de múltiples turnos —abarcando decenas de pasos— y logra un rendimiento de vanguardia en tareas desafiantes de búsqueda visual. Nuestra receta para reproducir comportamientos al estilo OpenAI o3 consta de tres componentes clave. Primero, construimos el Conjunto de Datos de Sonda Visual, una colección de miles de problemas desafiantes de búsqueda visual diseñados para el razonamiento exploratorio. Segundo, desarrollamos una canalización de recopilación de datos iterativa para obtener trayectorias de inicio en frío que exhiben patrones de razonamiento diversos, incluyendo búsqueda en profundidad, ensayo y error, y mantenimiento de objetivos. Tercero, proponemos una estrategia de enmascaramiento de turnos excedentes que evita la penalización de respuestas que superan el número máximo de turnos durante el aprendizaje por refuerzo, equilibrando así la eficiencia en el entrenamiento con la escalabilidad en la prueba. A pesar de entrenarse con un límite superior de solo seis turnos de interacción, nuestro modelo genera trayectorias que escalan naturalmente a decenas de turnos en tiempo de inferencia, con una precisión que mejora a medida que aumenta el número de turnos. Experimentos extensivos demuestran que Mini-o3 produce patrones de razonamiento ricos y caminos de pensamiento profundos, resolviendo efectivamente problemas desafiantes de búsqueda visual.
English
Recent advances in large multimodal models have leveraged image-based tools
with reinforcement learning to tackle visual problems. However, existing
open-source approaches often exhibit monotonous reasoning patterns and allow
only a limited number of interaction turns, making them inadequate for
difficult tasks that require trial-and-error exploration. In this work, we
address this limitation by scaling up tool-based interactions and introduce
Mini-o3, a system that executes deep, multi-turn reasoning -- spanning tens of
steps -- and achieves state-of-the-art performance on challenging visual search
tasks. Our recipe for reproducing OpenAI o3-style behaviors comprises three key
components. First, we construct the Visual Probe Dataset, a collection of
thousands of challenging visual search problems designed for exploratory
reasoning. Second, we develop an iterative data collection pipeline to obtain
cold-start trajectories that exhibit diverse reasoning patterns, including
depth-first search, trial-and-error, and goal maintenance. Third, we propose an
over-turn masking strategy that prevents penalization of over-turn responses
(those that hit the maximum number of turns) during reinforcement learning,
thereby balancing training-time efficiency with test-time scalability. Despite
training with an upper bound of only six interaction turns, our model generates
trajectories that naturally scale to tens of turns at inference time, with
accuracy improving as the number of turns increases. Extensive experiments
demonstrate that Mini-o3 produces rich reasoning patterns and deep thinking
paths, effectively solving challenging visual search problems.