Thyme : Penser au-delà des images
Thyme: Think Beyond Images
August 15, 2025
papers.authors: Yi-Fan Zhang, Xingyu Lu, Shukang Yin, Chaoyou Fu, Wei Chen, Xiao Hu, Bin Wen, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Haonan Fan, Kaibing Chen, Jiankang Chen, Haojie Ding, Kaiyu Tang, Zhang Zhang, Liang Wang, Fan Yang, Tingting Gao, Guorui Zhou
cs.AI
papers.abstract
Suite à l'introduction par OpenAI du concept de « raisonnement avec les images », des efforts récents ont exploré la stimulation de l'utilisation d'informations visuelles dans le processus de raisonnement pour améliorer les performances des modèles dans les tâches de perception et de raisonnement. Cependant, à notre connaissance, aucun travail open-source n'offre actuellement un ensemble de fonctionnalités aussi riche que les modèles propriétaires (O3), capables d'effectuer diverses manipulations d'images tout en renforçant les capacités de raisonnement logique via le code. Dans cet article, nous faisons une première tentative dans cette direction en introduisant Thyme (Think Beyond Images), un nouveau paradigme permettant aux MLLMs de transcender les approches existantes de « raisonnement avec les images » en générant et exécutant de manière autonome diverses opérations de traitement d'images et de calcul via du code exécutable. Cette approche facilite non seulement un ensemble riche et dynamique de manipulations d'images (par exemple, recadrage, rotation, amélioration du contraste), mais permet également des calculs mathématiques, tout en maintenant une autonomie élevée dans la décision de quand et comment appliquer ces opérations. Nous activons cette capacité grâce à une stratégie d'entraînement en deux étapes : un SFT initial sur un ensemble de données soigneusement sélectionné de 500 000 échantillons pour enseigner la génération de code, suivi d'une phase de RL pour affiner la prise de décision. Pour l'étape de RL, nous collectons et concevons manuellement des paires question-réponse à haute résolution pour augmenter la difficulté d'apprentissage, et nous proposons GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling), un algorithme qui applique des températures distinctes à la génération de texte et de code pour équilibrer l'exploration du raisonnement avec la précision de l'exécution du code. Nous menons une analyse expérimentale approfondie et des études d'ablation. Des évaluations complètes sur près de 20 benchmarks montrent que Thyme apporte des gains de performance significatifs et cohérents, en particulier dans les tâches de perception à haute résolution et de raisonnement complexe.
English
Following OpenAI's introduction of the ``thinking with images'' concept,
recent efforts have explored stimulating the use of visual information in the
reasoning process to enhance model performance in perception and reasoning
tasks. However, to the best of our knowledge, no open-source work currently
offers a feature set as rich as proprietary models (O3), which can perform
diverse image manipulations and simultaneously enhance logical reasoning
capabilities through code. In this paper, we make a preliminary attempt in this
direction by introducing Thyme (Think Beyond Images), a novel paradigm for
enabling MLLMs to transcend existing ``think with images'' approaches by
autonomously generating and executing diverse image processing and
computational operations via executable code. This approach not only
facilitates a rich, on-the-fly set of image manipulations (e.g., cropping,
rotation, contrast enhancement) but also allows for mathematical computations,
all while maintaining high autonomy in deciding when and how to apply these
operations. We activate this capability through a two-stage training strategy:
an initial SFT on a curated dataset of 500K samples to teach code generation,
followed by a RL phase to refine decision-making. For the RL stage, we manually
collect and design high-resolution question-answer pairs to increase the
learning difficulty, and we propose GRPO-ATS (Group Relative Policy
Optimization with Adaptive Temperature Sampling), an algorithm that applies
distinct temperatures to text and code generation to balance reasoning
exploration with code execution precision. We conduct extensive experimental
analysis and ablation studies. Comprehensive evaluations on nearly 20
benchmarks show that Thyme yields significant and consistent performance gains,
particularly in challenging high-resolution perception and complex reasoning
tasks.