Thyme: Pense Além das Imagens
Thyme: Think Beyond Images
August 15, 2025
Autores: Yi-Fan Zhang, Xingyu Lu, Shukang Yin, Chaoyou Fu, Wei Chen, Xiao Hu, Bin Wen, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Haonan Fan, Kaibing Chen, Jiankang Chen, Haojie Ding, Kaiyu Tang, Zhang Zhang, Liang Wang, Fan Yang, Tingting Gao, Guorui Zhou
cs.AI
Resumo
Após a introdução do conceito de "pensar com imagens" pela OpenAI, esforços recentes têm explorado o estímulo ao uso de informações visuais no processo de raciocínio para melhorar o desempenho dos modelos em tarefas de percepção e raciocínio. No entanto, até onde sabemos, nenhum trabalho de código aberto atualmente oferece um conjunto de recursos tão rico quanto os modelos proprietários (O3), que podem realizar diversas manipulações de imagens e, simultaneamente, aprimorar as capacidades de raciocínio lógico por meio de código. Neste artigo, fazemos uma tentativa preliminar nessa direção ao introduzir Thyme (Think Beyond Images), um novo paradigma que permite que MLLMs (Modelos Multimodais de Linguagem) transcendam as abordagens existentes de "pensar com imagens" ao gerar e executar autonomamente diversas operações de processamento de imagens e computacionais por meio de código executável. Essa abordagem não apenas facilita um conjunto rico e dinâmico de manipulações de imagens (por exemplo, recorte, rotação, aumento de contraste), mas também permite cálculos matemáticos, tudo isso mantendo alta autonomia na decisão de quando e como aplicar essas operações. Ativamos essa capacidade por meio de uma estratégia de treinamento em duas etapas: um SFT (Supervised Fine-Tuning) inicial em um conjunto de dados curado de 500 mil amostras para ensinar a geração de código, seguido por uma fase de RL (Reinforcement Learning) para refinar a tomada de decisões. Para a etapa de RL, coletamos e projetamos manualmente pares de perguntas e respostas de alta resolução para aumentar a dificuldade de aprendizado, e propomos o GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling), um algoritmo que aplica temperaturas distintas à geração de texto e código para equilibrar a exploração de raciocínio com a precisão na execução de código. Realizamos uma extensa análise experimental e estudos de ablação. Avaliações abrangentes em quase 20 benchmarks mostram que o Thyme produz ganhos de desempenho significativos e consistentes, especialmente em tarefas desafiadoras de percepção de alta resolução e raciocínio complexo.
English
Following OpenAI's introduction of the ``thinking with images'' concept,
recent efforts have explored stimulating the use of visual information in the
reasoning process to enhance model performance in perception and reasoning
tasks. However, to the best of our knowledge, no open-source work currently
offers a feature set as rich as proprietary models (O3), which can perform
diverse image manipulations and simultaneously enhance logical reasoning
capabilities through code. In this paper, we make a preliminary attempt in this
direction by introducing Thyme (Think Beyond Images), a novel paradigm for
enabling MLLMs to transcend existing ``think with images'' approaches by
autonomously generating and executing diverse image processing and
computational operations via executable code. This approach not only
facilitates a rich, on-the-fly set of image manipulations (e.g., cropping,
rotation, contrast enhancement) but also allows for mathematical computations,
all while maintaining high autonomy in deciding when and how to apply these
operations. We activate this capability through a two-stage training strategy:
an initial SFT on a curated dataset of 500K samples to teach code generation,
followed by a RL phase to refine decision-making. For the RL stage, we manually
collect and design high-resolution question-answer pairs to increase the
learning difficulty, and we propose GRPO-ATS (Group Relative Policy
Optimization with Adaptive Temperature Sampling), an algorithm that applies
distinct temperatures to text and code generation to balance reasoning
exploration with code execution precision. We conduct extensive experimental
analysis and ablation studies. Comprehensive evaluations on nearly 20
benchmarks show that Thyme yields significant and consistent performance gains,
particularly in challenging high-resolution perception and complex reasoning
tasks.