Mini-o3: Skalierung von Denkmustern und Interaktionsschritten für die visuelle Suche
Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search
September 9, 2025
papers.authors: Xin Lai, Junyi Li, Wei Li, Tao Liu, Tianjian Li, Hengshuang Zhao
cs.AI
papers.abstract
Jüngste Fortschritte bei großen multimodalen Modellen haben bildbasierte Werkzeuge mit Verstärkungslernen genutzt, um visuelle Probleme zu bewältigen. Bestehende Open-Source-Ansätze zeigen jedoch oft monotone Denkmuster und erlauben nur eine begrenzte Anzahl von Interaktionsschritten, was sie für schwierige Aufgaben, die Versuch-und-Irrtum-Exploration erfordern, ungeeignet macht. In dieser Arbeit beheben wir diese Einschränkung, indem wir werkzeugbasierte Interaktionen skalieren und Mini-o3 einführen, ein System, das tiefgreifende, mehrschrittige Denkprozesse – über Dutzende von Schritten hinweg – ausführt und Spitzenleistungen bei anspruchsvollen visuellen Suchaufgaben erzielt. Unser Rezept zur Reproduktion von OpenAI-o3-ähnlichem Verhalten umfasst drei Schlüsselkomponenten. Erstens erstellen wir den Visual Probe Dataset, eine Sammlung von Tausenden anspruchsvoller visueller Suchprobleme, die für exploratives Denken konzipiert sind. Zweitens entwickeln wir eine iterative Datenerfassungspipeline, um Cold-Start-Trajektorien zu erhalten, die vielfältige Denkmuster zeigen, einschließlich Tiefensuche, Versuch-und-Irrtum und Zielverfolgung. Drittens schlagen wir eine Over-Turn-Masking-Strategie vor, die die Bestrafung von Over-Turn-Antworten (solche, die die maximale Anzahl von Schritten erreichen) während des Verstärkungslernens verhindert und so die Effizienz während des Trainings mit der Skalierbarkeit während des Tests in Einklang bringt. Obwohl unser Modell mit einer Obergrenze von nur sechs Interaktionsschritten trainiert wurde, generiert es Trajektorien, die sich während der Inferenz natürlich auf Dutzende von Schritten skalieren lassen, wobei die Genauigkeit mit zunehmender Anzahl von Schritten steigt. Umfangreiche Experimente zeigen, dass Mini-o3 reichhaltige Denkmuster und tiefgreifende Denkpfade erzeugt und damit anspruchsvolle visuelle Suchprobleme effektiv löst.
English
Recent advances in large multimodal models have leveraged image-based tools
with reinforcement learning to tackle visual problems. However, existing
open-source approaches often exhibit monotonous reasoning patterns and allow
only a limited number of interaction turns, making them inadequate for
difficult tasks that require trial-and-error exploration. In this work, we
address this limitation by scaling up tool-based interactions and introduce
Mini-o3, a system that executes deep, multi-turn reasoning -- spanning tens of
steps -- and achieves state-of-the-art performance on challenging visual search
tasks. Our recipe for reproducing OpenAI o3-style behaviors comprises three key
components. First, we construct the Visual Probe Dataset, a collection of
thousands of challenging visual search problems designed for exploratory
reasoning. Second, we develop an iterative data collection pipeline to obtain
cold-start trajectories that exhibit diverse reasoning patterns, including
depth-first search, trial-and-error, and goal maintenance. Third, we propose an
over-turn masking strategy that prevents penalization of over-turn responses
(those that hit the maximum number of turns) during reinforcement learning,
thereby balancing training-time efficiency with test-time scalability. Despite
training with an upper bound of only six interaction turns, our model generates
trajectories that naturally scale to tens of turns at inference time, with
accuracy improving as the number of turns increases. Extensive experiments
demonstrate that Mini-o3 produces rich reasoning patterns and deep thinking
paths, effectively solving challenging visual search problems.