Thyme: Pensare Oltre le Immagini
Thyme: Think Beyond Images
August 15, 2025
Autori: Yi-Fan Zhang, Xingyu Lu, Shukang Yin, Chaoyou Fu, Wei Chen, Xiao Hu, Bin Wen, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Haonan Fan, Kaibing Chen, Jiankang Chen, Haojie Ding, Kaiyu Tang, Zhang Zhang, Liang Wang, Fan Yang, Tingting Gao, Guorui Zhou
cs.AI
Abstract
A seguito dell'introduzione del concetto di "pensare con le immagini" da parte di OpenAI, recenti sforzi hanno esplorato la stimolazione dell'uso delle informazioni visive nel processo di ragionamento per migliorare le prestazioni dei modelli nei compiti di percezione e ragionamento. Tuttavia, per quanto ne sappiamo, nessun lavoro open-source offre attualmente un set di funzionalità così ricco come i modelli proprietari (O3), che possono eseguire diverse manipolazioni di immagini e contemporaneamente potenziare le capacità di ragionamento logico attraverso il codice. In questo articolo, facciamo un tentativo preliminare in questa direzione introducendo Thyme (Think Beyond Images), un nuovo paradigma che consente ai MLLM di trascendere gli approcci esistenti di "pensare con le immagini" generando ed eseguendo autonomamente diverse operazioni di elaborazione delle immagini e computazionali tramite codice eseguibile. Questo approccio non solo facilita un ricco set di manipolazioni di immagini in tempo reale (ad esempio, ritaglio, rotazione, miglioramento del contrasto), ma consente anche calcoli matematici, mantenendo un'elevata autonomia nel decidere quando e come applicare queste operazioni. Attiviamo questa capacità attraverso una strategia di addestramento in due fasi: un SFT iniziale su un dataset curato di 500K campioni per insegnare la generazione di codice, seguito da una fase di RL per affinare il processo decisionale. Per la fase di RL, raccogliamo e progettiamo manualmente coppie domanda-risposta ad alta risoluzione per aumentare la difficoltà di apprendimento, e proponiamo GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling), un algoritmo che applica temperature distinte alla generazione di testo e codice per bilanciare l'esplorazione del ragionamento con la precisione dell'esecuzione del codice. Condividiamo un'ampia analisi sperimentale e studi di ablazione. Valutazioni complete su quasi 20 benchmark mostrano che Thyme produce miglioramenti significativi e consistenti nelle prestazioni, in particolare nei compiti di percezione ad alta risoluzione e di ragionamento complesso.
English
Following OpenAI's introduction of the ``thinking with images'' concept,
recent efforts have explored stimulating the use of visual information in the
reasoning process to enhance model performance in perception and reasoning
tasks. However, to the best of our knowledge, no open-source work currently
offers a feature set as rich as proprietary models (O3), which can perform
diverse image manipulations and simultaneously enhance logical reasoning
capabilities through code. In this paper, we make a preliminary attempt in this
direction by introducing Thyme (Think Beyond Images), a novel paradigm for
enabling MLLMs to transcend existing ``think with images'' approaches by
autonomously generating and executing diverse image processing and
computational operations via executable code. This approach not only
facilitates a rich, on-the-fly set of image manipulations (e.g., cropping,
rotation, contrast enhancement) but also allows for mathematical computations,
all while maintaining high autonomy in deciding when and how to apply these
operations. We activate this capability through a two-stage training strategy:
an initial SFT on a curated dataset of 500K samples to teach code generation,
followed by a RL phase to refine decision-making. For the RL stage, we manually
collect and design high-resolution question-answer pairs to increase the
learning difficulty, and we propose GRPO-ATS (Group Relative Policy
Optimization with Adaptive Temperature Sampling), an algorithm that applies
distinct temperatures to text and code generation to balance reasoning
exploration with code execution precision. We conduct extensive experimental
analysis and ablation studies. Comprehensive evaluations on nearly 20
benchmarks show that Thyme yields significant and consistent performance gains,
particularly in challenging high-resolution perception and complex reasoning
tasks.