Thyme: Denken über Bilder hinaus
Thyme: Think Beyond Images
August 15, 2025
papers.authors: Yi-Fan Zhang, Xingyu Lu, Shukang Yin, Chaoyou Fu, Wei Chen, Xiao Hu, Bin Wen, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Haonan Fan, Kaibing Chen, Jiankang Chen, Haojie Ding, Kaiyu Tang, Zhang Zhang, Liang Wang, Fan Yang, Tingting Gao, Guorui Zhou
cs.AI
papers.abstract
Nach der Einführung des Konzepts „Denken mit Bildern“ durch OpenAI haben aktuelle Bestrebungen untersucht, die Nutzung visueller Informationen im Denkprozess zu stimulieren, um die Modellleistung bei Wahrnehmungs- und Denkaufgaben zu verbessern. Nach unserem Kenntnisstand bietet jedoch derzeit keine Open-Source-Arbeit einen Funktionsumfang, der so umfangreich ist wie proprietäre Modelle (O3), die diverse Bildmanipulationen durchführen und gleichzeitig logische Denkfähigkeiten durch Code erweitern können. In diesem Papier unternehmen wir einen ersten Versuch in diese Richtung, indem wir Thyme (Think Beyond Images) vorstellen, ein neuartiges Paradigma, das MLLMs ermöglicht, bestehende „Denken mit Bildern“-Ansätze zu übertreffen, indem es autonom diverse Bildverarbeitungs- und Berechnungsoperationen über ausführbaren Code generiert und ausführt. Dieser Ansatz ermöglicht nicht nur eine reichhaltige, spontane Bildbearbeitung (z. B. Zuschneiden, Drehen, Kontrastverbesserung), sondern auch mathematische Berechnungen, während gleichzeitig eine hohe Autonomie bei der Entscheidung, wann und wie diese Operationen anzuwenden sind, erhalten bleibt. Wir aktivieren diese Fähigkeit durch eine zweistufige Trainingsstrategie: ein anfängliches SFT auf einem kuratierten Datensatz von 500.000 Proben, um die Codegenerierung zu lehren, gefolgt von einer RL-Phase zur Verfeinerung der Entscheidungsfindung. Für die RL-Phase sammeln und entwerfen wir manuell hochauflösende Frage-Antwort-Paare, um den Lernschwierigkeitsgrad zu erhöhen, und wir schlagen GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling) vor, einen Algorithmus, der unterschiedliche Temperaturen auf Text- und Codegenerierung anwendet, um die Denkexploration mit der Präzision der Codeausführung auszugleichen. Wir führen umfangreiche experimentelle Analysen und Ablationsstudien durch. Umfassende Bewertungen auf fast 20 Benchmarks zeigen, dass Thyme signifikante und konsistente Leistungssteigerungen erzielt, insbesondere bei anspruchsvollen hochauflösenden Wahrnehmungs- und komplexen Denkaufgaben.
English
Following OpenAI's introduction of the ``thinking with images'' concept,
recent efforts have explored stimulating the use of visual information in the
reasoning process to enhance model performance in perception and reasoning
tasks. However, to the best of our knowledge, no open-source work currently
offers a feature set as rich as proprietary models (O3), which can perform
diverse image manipulations and simultaneously enhance logical reasoning
capabilities through code. In this paper, we make a preliminary attempt in this
direction by introducing Thyme (Think Beyond Images), a novel paradigm for
enabling MLLMs to transcend existing ``think with images'' approaches by
autonomously generating and executing diverse image processing and
computational operations via executable code. This approach not only
facilitates a rich, on-the-fly set of image manipulations (e.g., cropping,
rotation, contrast enhancement) but also allows for mathematical computations,
all while maintaining high autonomy in deciding when and how to apply these
operations. We activate this capability through a two-stage training strategy:
an initial SFT on a curated dataset of 500K samples to teach code generation,
followed by a RL phase to refine decision-making. For the RL stage, we manually
collect and design high-resolution question-answer pairs to increase the
learning difficulty, and we propose GRPO-ATS (Group Relative Policy
Optimization with Adaptive Temperature Sampling), an algorithm that applies
distinct temperatures to text and code generation to balance reasoning
exploration with code execution precision. We conduct extensive experimental
analysis and ablation studies. Comprehensive evaluations on nearly 20
benchmarks show that Thyme yields significant and consistent performance gains,
particularly in challenging high-resolution perception and complex reasoning
tasks.