Thyme: Denk Voorbij Beelden
Thyme: Think Beyond Images
August 15, 2025
Auteurs: Yi-Fan Zhang, Xingyu Lu, Shukang Yin, Chaoyou Fu, Wei Chen, Xiao Hu, Bin Wen, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Haonan Fan, Kaibing Chen, Jiankang Chen, Haojie Ding, Kaiyu Tang, Zhang Zhang, Liang Wang, Fan Yang, Tingting Gao, Guorui Zhou
cs.AI
Samenvatting
Na de introductie van het concept "denken met afbeeldingen" door OpenAI, hebben recente inspanningen zich gericht op het stimuleren van het gebruik van visuele informatie in het redeneerproces om de modelprestaties in perceptie- en redeneertaken te verbeteren. Voor zover wij weten, biedt geen enkele open-source werkzaamheid momenteel een functieset die zo rijk is als die van propriëtaire modellen (O3), die diverse beeldmanipulaties kunnen uitvoeren en tegelijkertijd logische redeneervaardigheden kunnen verbeteren via code. In dit artikel doen we een eerste poging in deze richting door Thyme (Think Beyond Images) te introduceren, een nieuw paradigma dat MLLM's in staat stelt om bestaande "denken met afbeeldingen"-benaderingen te overstijgen door autonoom diverse beeldverwerkings- en rekenkundige operaties te genereren en uit te voeren via uitvoerbare code. Deze aanpak faciliteert niet alleen een rijke, dynamische set van beeldmanipulaties (bijvoorbeeld bijsnijden, roteren, contrastverbetering), maar maakt ook wiskundige berekeningen mogelijk, terwijl een hoge autonomie wordt behouden in het beslissen wanneer en hoe deze operaties toe te passen. We activeren deze mogelijkheid via een tweefasige trainingsstrategie: een initiële SFT op een gecureerde dataset van 500K samples om codegeneratie aan te leren, gevolgd door een RL-fase om besluitvorming te verfijnen. Voor de RL-fase verzamelen en ontwerpen we handmatig hoogwaardige vraag-antwoordparen om de leeruitdaging te vergroten, en we stellen GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling) voor, een algoritme dat verschillende temperaturen toepast op tekst- en codegeneratie om redeneerverkenning te balanceren met precisie in code-uitvoering. We voeren uitgebreide experimentele analyses en ablatiestudies uit. Uitgebreide evaluaties op bijna 20 benchmarks tonen aan dat Thyme aanzienlijke en consistente prestatieverbeteringen oplevert, met name in uitdagende hoogwaardige perceptie- en complexe redeneertaken.
English
Following OpenAI's introduction of the ``thinking with images'' concept,
recent efforts have explored stimulating the use of visual information in the
reasoning process to enhance model performance in perception and reasoning
tasks. However, to the best of our knowledge, no open-source work currently
offers a feature set as rich as proprietary models (O3), which can perform
diverse image manipulations and simultaneously enhance logical reasoning
capabilities through code. In this paper, we make a preliminary attempt in this
direction by introducing Thyme (Think Beyond Images), a novel paradigm for
enabling MLLMs to transcend existing ``think with images'' approaches by
autonomously generating and executing diverse image processing and
computational operations via executable code. This approach not only
facilitates a rich, on-the-fly set of image manipulations (e.g., cropping,
rotation, contrast enhancement) but also allows for mathematical computations,
all while maintaining high autonomy in deciding when and how to apply these
operations. We activate this capability through a two-stage training strategy:
an initial SFT on a curated dataset of 500K samples to teach code generation,
followed by a RL phase to refine decision-making. For the RL stage, we manually
collect and design high-resolution question-answer pairs to increase the
learning difficulty, and we propose GRPO-ATS (Group Relative Policy
Optimization with Adaptive Temperature Sampling), an algorithm that applies
distinct temperatures to text and code generation to balance reasoning
exploration with code execution precision. We conduct extensive experimental
analysis and ablation studies. Comprehensive evaluations on nearly 20
benchmarks show that Thyme yields significant and consistent performance gains,
particularly in challenging high-resolution perception and complex reasoning
tasks.