Thyme: Denken über Bilder hinaus

papers.abstract

Nach der Einführung des Konzepts „Denken mit Bildern“ durch OpenAI haben aktuelle Bestrebungen untersucht, die Nutzung visueller Informationen im Denkprozess zu stimulieren, um die Modellleistung bei Wahrnehmungs- und Denkaufgaben zu verbessern. Nach unserem Kenntnisstand bietet jedoch derzeit keine Open-Source-Arbeit einen Funktionsumfang, der so umfangreich ist wie proprietäre Modelle (O3), die diverse Bildmanipulationen durchführen und gleichzeitig logische Denkfähigkeiten durch Code erweitern können. In diesem Papier unternehmen wir einen ersten Versuch in diese Richtung, indem wir Thyme (Think Beyond Images) vorstellen, ein neuartiges Paradigma, das MLLMs ermöglicht, bestehende „Denken mit Bildern“-Ansätze zu übertreffen, indem es autonom diverse Bildverarbeitungs- und Berechnungsoperationen über ausführbaren Code generiert und ausführt. Dieser Ansatz ermöglicht nicht nur eine reichhaltige, spontane Bildbearbeitung (z. B. Zuschneiden, Drehen, Kontrastverbesserung), sondern auch mathematische Berechnungen, während gleichzeitig eine hohe Autonomie bei der Entscheidung, wann und wie diese Operationen anzuwenden sind, erhalten bleibt. Wir aktivieren diese Fähigkeit durch eine zweistufige Trainingsstrategie: ein anfängliches SFT auf einem kuratierten Datensatz von 500.000 Proben, um die Codegenerierung zu lehren, gefolgt von einer RL-Phase zur Verfeinerung der Entscheidungsfindung. Für die RL-Phase sammeln und entwerfen wir manuell hochauflösende Frage-Antwort-Paare, um den Lernschwierigkeitsgrad zu erhöhen, und wir schlagen GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling) vor, einen Algorithmus, der unterschiedliche Temperaturen auf Text- und Codegenerierung anwendet, um die Denkexploration mit der Präzision der Codeausführung auszugleichen. Wir führen umfangreiche experimentelle Analysen und Ablationsstudien durch. Umfassende Bewertungen auf fast 20 Benchmarks zeigen, dass Thyme signifikante und konsistente Leistungssteigerungen erzielt, insbesondere bei anspruchsvollen hochauflösenden Wahrnehmungs- und komplexen Denkaufgaben.

English

Following OpenAI's introduction of the ``thinking with images'' concept, recent efforts have explored stimulating the use of visual information in the reasoning process to enhance model performance in perception and reasoning tasks. However, to the best of our knowledge, no open-source work currently offers a feature set as rich as proprietary models (O3), which can perform diverse image manipulations and simultaneously enhance logical reasoning capabilities through code. In this paper, we make a preliminary attempt in this direction by introducing Thyme (Think Beyond Images), a novel paradigm for enabling MLLMs to transcend existing ``think with images'' approaches by autonomously generating and executing diverse image processing and computational operations via executable code. This approach not only facilitates a rich, on-the-fly set of image manipulations (e.g., cropping, rotation, contrast enhancement) but also allows for mathematical computations, all while maintaining high autonomy in deciding when and how to apply these operations. We activate this capability through a two-stage training strategy: an initial SFT on a curated dataset of 500K samples to teach code generation, followed by a RL phase to refine decision-making. For the RL stage, we manually collect and design high-resolution question-answer pairs to increase the learning difficulty, and we propose GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling), an algorithm that applies distinct temperatures to text and code generation to balance reasoning exploration with code execution precision. We conduct extensive experimental analysis and ablation studies. Comprehensive evaluations on nearly 20 benchmarks show that Thyme yields significant and consistent performance gains, particularly in challenging high-resolution perception and complex reasoning tasks.

Thyme: Denken über Bilder hinaus

Thyme: Think Beyond Images

papers.abstract

Support