ChatPaper.aiChatPaper

Thyme: Piensa Más Allá de las Imágenes

Thyme: Think Beyond Images

August 15, 2025
Autores: Yi-Fan Zhang, Xingyu Lu, Shukang Yin, Chaoyou Fu, Wei Chen, Xiao Hu, Bin Wen, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Haonan Fan, Kaibing Chen, Jiankang Chen, Haojie Ding, Kaiyu Tang, Zhang Zhang, Liang Wang, Fan Yang, Tingting Gao, Guorui Zhou
cs.AI

Resumen

Tras la introducción del concepto de "pensar con imágenes" por parte de OpenAI, esfuerzos recientes han explorado estimular el uso de información visual en el proceso de razonamiento para mejorar el rendimiento de los modelos en tareas de percepción y razonamiento. Sin embargo, hasta donde sabemos, ningún trabajo de código abierto ofrece actualmente un conjunto de características tan rico como los modelos propietarios (O3), que pueden realizar diversas manipulaciones de imágenes y, simultáneamente, mejorar las capacidades de razonamiento lógico mediante código. En este artículo, realizamos un intento preliminar en esta dirección al presentar Thyme (Think Beyond Images), un paradigma novedoso que permite a los MLLMs trascender los enfoques existentes de "pensar con imágenes" al generar y ejecutar de manera autónoma diversas operaciones de procesamiento de imágenes y cálculos computacionales mediante código ejecutable. Este enfoque no solo facilita un conjunto rico y dinámico de manipulaciones de imágenes (por ejemplo, recorte, rotación, mejora de contraste), sino que también permite realizar cálculos matemáticos, todo mientras se mantiene una alta autonomía en la decisión de cuándo y cómo aplicar estas operaciones. Activamos esta capacidad mediante una estrategia de entrenamiento en dos etapas: una SFT inicial en un conjunto de datos curado de 500K muestras para enseñar la generación de código, seguida de una fase de RL para refinar la toma de decisiones. Para la etapa de RL, recopilamos y diseñamos manualmente pares de preguntas y respuestas de alta resolución para aumentar la dificultad de aprendizaje, y proponemos GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling), un algoritmo que aplica temperaturas distintas a la generación de texto y código para equilibrar la exploración del razonamiento con la precisión en la ejecución del código. Realizamos un extenso análisis experimental y estudios de ablación. Evaluaciones exhaustivas en casi 20 benchmarks muestran que Thyme produce mejoras significativas y consistentes en el rendimiento, particularmente en tareas desafiantes de percepción de alta resolución y razonamiento complejo.
English
Following OpenAI's introduction of the ``thinking with images'' concept, recent efforts have explored stimulating the use of visual information in the reasoning process to enhance model performance in perception and reasoning tasks. However, to the best of our knowledge, no open-source work currently offers a feature set as rich as proprietary models (O3), which can perform diverse image manipulations and simultaneously enhance logical reasoning capabilities through code. In this paper, we make a preliminary attempt in this direction by introducing Thyme (Think Beyond Images), a novel paradigm for enabling MLLMs to transcend existing ``think with images'' approaches by autonomously generating and executing diverse image processing and computational operations via executable code. This approach not only facilitates a rich, on-the-fly set of image manipulations (e.g., cropping, rotation, contrast enhancement) but also allows for mathematical computations, all while maintaining high autonomy in deciding when and how to apply these operations. We activate this capability through a two-stage training strategy: an initial SFT on a curated dataset of 500K samples to teach code generation, followed by a RL phase to refine decision-making. For the RL stage, we manually collect and design high-resolution question-answer pairs to increase the learning difficulty, and we propose GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling), an algorithm that applies distinct temperatures to text and code generation to balance reasoning exploration with code execution precision. We conduct extensive experimental analysis and ablation studies. Comprehensive evaluations on nearly 20 benchmarks show that Thyme yields significant and consistent performance gains, particularly in challenging high-resolution perception and complex reasoning tasks.
PDF685August 18, 2025