Mini-o3: Escalando Patrones de Razonamiento y Turnos de Interacción para la Búsqueda Visual

Resumen

Los avances recientes en modelos multimodales de gran escala han aprovechado herramientas basadas en imágenes con aprendizaje por refuerzo para abordar problemas visuales. Sin embargo, los enfoques de código abierto existentes suelen exhibir patrones de razonamiento monótonos y permiten solo un número limitado de interacciones, lo que los hace inadecuados para tareas difíciles que requieren exploración por ensayo y error. En este trabajo, abordamos esta limitación escalando las interacciones basadas en herramientas e introducimos Mini-o3, un sistema que ejecuta un razonamiento profundo y de múltiples turnos —abarcando decenas de pasos— y logra un rendimiento de vanguardia en tareas desafiantes de búsqueda visual. Nuestra receta para reproducir comportamientos al estilo OpenAI o3 consta de tres componentes clave. Primero, construimos el Conjunto de Datos de Sonda Visual, una colección de miles de problemas desafiantes de búsqueda visual diseñados para el razonamiento exploratorio. Segundo, desarrollamos una canalización de recopilación de datos iterativa para obtener trayectorias de inicio en frío que exhiben patrones de razonamiento diversos, incluyendo búsqueda en profundidad, ensayo y error, y mantenimiento de objetivos. Tercero, proponemos una estrategia de enmascaramiento de turnos excedentes que evita la penalización de respuestas que superan el número máximo de turnos durante el aprendizaje por refuerzo, equilibrando así la eficiencia en el entrenamiento con la escalabilidad en la prueba. A pesar de entrenarse con un límite superior de solo seis turnos de interacción, nuestro modelo genera trayectorias que escalan naturalmente a decenas de turnos en tiempo de inferencia, con una precisión que mejora a medida que aumenta el número de turnos. Experimentos extensivos demuestran que Mini-o3 produce patrones de razonamiento ricos y caminos de pensamiento profundos, resolviendo efectivamente problemas desafiantes de búsqueda visual.

English

Recent advances in large multimodal models have leveraged image-based tools with reinforcement learning to tackle visual problems. However, existing open-source approaches often exhibit monotonous reasoning patterns and allow only a limited number of interaction turns, making them inadequate for difficult tasks that require trial-and-error exploration. In this work, we address this limitation by scaling up tool-based interactions and introduce Mini-o3, a system that executes deep, multi-turn reasoning -- spanning tens of steps -- and achieves state-of-the-art performance on challenging visual search tasks. Our recipe for reproducing OpenAI o3-style behaviors comprises three key components. First, we construct the Visual Probe Dataset, a collection of thousands of challenging visual search problems designed for exploratory reasoning. Second, we develop an iterative data collection pipeline to obtain cold-start trajectories that exhibit diverse reasoning patterns, including depth-first search, trial-and-error, and goal maintenance. Third, we propose an over-turn masking strategy that prevents penalization of over-turn responses (those that hit the maximum number of turns) during reinforcement learning, thereby balancing training-time efficiency with test-time scalability. Despite training with an upper bound of only six interaction turns, our model generates trajectories that naturally scale to tens of turns at inference time, with accuracy improving as the number of turns increases. Extensive experiments demonstrate that Mini-o3 produces rich reasoning patterns and deep thinking paths, effectively solving challenging visual search problems.