Mini-o3: Skalierung von Denkmustern und Interaktionsschritten für die visuelle Suche

papers.abstract

Jüngste Fortschritte bei großen multimodalen Modellen haben bildbasierte Werkzeuge mit Verstärkungslernen genutzt, um visuelle Probleme zu bewältigen. Bestehende Open-Source-Ansätze zeigen jedoch oft monotone Denkmuster und erlauben nur eine begrenzte Anzahl von Interaktionsschritten, was sie für schwierige Aufgaben, die Versuch-und-Irrtum-Exploration erfordern, ungeeignet macht. In dieser Arbeit beheben wir diese Einschränkung, indem wir werkzeugbasierte Interaktionen skalieren und Mini-o3 einführen, ein System, das tiefgreifende, mehrschrittige Denkprozesse – über Dutzende von Schritten hinweg – ausführt und Spitzenleistungen bei anspruchsvollen visuellen Suchaufgaben erzielt. Unser Rezept zur Reproduktion von OpenAI-o3-ähnlichem Verhalten umfasst drei Schlüsselkomponenten. Erstens erstellen wir den Visual Probe Dataset, eine Sammlung von Tausenden anspruchsvoller visueller Suchprobleme, die für exploratives Denken konzipiert sind. Zweitens entwickeln wir eine iterative Datenerfassungspipeline, um Cold-Start-Trajektorien zu erhalten, die vielfältige Denkmuster zeigen, einschließlich Tiefensuche, Versuch-und-Irrtum und Zielverfolgung. Drittens schlagen wir eine Over-Turn-Masking-Strategie vor, die die Bestrafung von Over-Turn-Antworten (solche, die die maximale Anzahl von Schritten erreichen) während des Verstärkungslernens verhindert und so die Effizienz während des Trainings mit der Skalierbarkeit während des Tests in Einklang bringt. Obwohl unser Modell mit einer Obergrenze von nur sechs Interaktionsschritten trainiert wurde, generiert es Trajektorien, die sich während der Inferenz natürlich auf Dutzende von Schritten skalieren lassen, wobei die Genauigkeit mit zunehmender Anzahl von Schritten steigt. Umfangreiche Experimente zeigen, dass Mini-o3 reichhaltige Denkmuster und tiefgreifende Denkpfade erzeugt und damit anspruchsvolle visuelle Suchprobleme effektiv löst.

English

Recent advances in large multimodal models have leveraged image-based tools with reinforcement learning to tackle visual problems. However, existing open-source approaches often exhibit monotonous reasoning patterns and allow only a limited number of interaction turns, making them inadequate for difficult tasks that require trial-and-error exploration. In this work, we address this limitation by scaling up tool-based interactions and introduce Mini-o3, a system that executes deep, multi-turn reasoning -- spanning tens of steps -- and achieves state-of-the-art performance on challenging visual search tasks. Our recipe for reproducing OpenAI o3-style behaviors comprises three key components. First, we construct the Visual Probe Dataset, a collection of thousands of challenging visual search problems designed for exploratory reasoning. Second, we develop an iterative data collection pipeline to obtain cold-start trajectories that exhibit diverse reasoning patterns, including depth-first search, trial-and-error, and goal maintenance. Third, we propose an over-turn masking strategy that prevents penalization of over-turn responses (those that hit the maximum number of turns) during reinforcement learning, thereby balancing training-time efficiency with test-time scalability. Despite training with an upper bound of only six interaction turns, our model generates trajectories that naturally scale to tens of turns at inference time, with accuracy improving as the number of turns increases. Extensive experiments demonstrate that Mini-o3 produces rich reasoning patterns and deep thinking paths, effectively solving challenging visual search problems.

Mini-o3: Skalierung von Denkmustern und Interaktionsschritten für die visuelle Suche

Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search

papers.abstract

Support