Thyme: Мысли за пределами изображений
Thyme: Think Beyond Images
August 15, 2025
Авторы: Yi-Fan Zhang, Xingyu Lu, Shukang Yin, Chaoyou Fu, Wei Chen, Xiao Hu, Bin Wen, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Haonan Fan, Kaibing Chen, Jiankang Chen, Haojie Ding, Kaiyu Tang, Zhang Zhang, Liang Wang, Fan Yang, Tingting Gao, Guorui Zhou
cs.AI
Аннотация
После введения OpenAI концепции «мышления с помощью изображений» недавние исследования были направлены на стимулирование использования визуальной информации в процессе рассуждений для повышения производительности моделей в задачах восприятия и логического анализа. Однако, насколько нам известно, в настоящее время ни одна открытая разработка не предлагает столь богатый набор функций, как проприетарные модели (O3), которые способны выполнять разнообразные манипуляции с изображениями и одновременно улучшать логические способности через использование кода. В данной статье мы делаем предварительную попытку в этом направлении, представляя Thyme (Think Beyond Images) — новую парадигму, которая позволяет мультимодальным языковым моделям (MLLMs) выйти за рамки существующих подходов «мышления с помощью изображений», автономно генерируя и выполняя разнообразные операции обработки изображений и вычисления через исполняемый код. Этот подход не только обеспечивает богатый набор операций с изображениями на лету (например, обрезка, поворот, улучшение контраста), но также позволяет выполнять математические вычисления, сохраняя высокую автономность в принятии решений о том, когда и как применять эти операции. Мы активируем эту возможность с помощью двухэтапной стратегии обучения: начальное тонкое обучение (SFT) на тщательно отобранном наборе данных из 500 тыс. образцов для обучения генерации кода, за которым следует этап обучения с подкреплением (RL) для улучшения принятия решений. Для этапа RL мы вручную собираем и разрабатываем высококачественные пары вопросов и ответов, чтобы увеличить сложность обучения, и предлагаем GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling) — алгоритм, который применяет различные температуры для генерации текста и кода, чтобы сбалансировать исследование рассуждений с точностью выполнения кода. Мы проводим обширный экспериментальный анализ и исследования с исключением. Комплексные оценки на почти 20 бенчмарках показывают, что Thyme обеспечивает значительный и стабильный прирост производительности, особенно в сложных задачах восприятия высокого разрешения и комплексного логического анализа.
English
Following OpenAI's introduction of the ``thinking with images'' concept,
recent efforts have explored stimulating the use of visual information in the
reasoning process to enhance model performance in perception and reasoning
tasks. However, to the best of our knowledge, no open-source work currently
offers a feature set as rich as proprietary models (O3), which can perform
diverse image manipulations and simultaneously enhance logical reasoning
capabilities through code. In this paper, we make a preliminary attempt in this
direction by introducing Thyme (Think Beyond Images), a novel paradigm for
enabling MLLMs to transcend existing ``think with images'' approaches by
autonomously generating and executing diverse image processing and
computational operations via executable code. This approach not only
facilitates a rich, on-the-fly set of image manipulations (e.g., cropping,
rotation, contrast enhancement) but also allows for mathematical computations,
all while maintaining high autonomy in deciding when and how to apply these
operations. We activate this capability through a two-stage training strategy:
an initial SFT on a curated dataset of 500K samples to teach code generation,
followed by a RL phase to refine decision-making. For the RL stage, we manually
collect and design high-resolution question-answer pairs to increase the
learning difficulty, and we propose GRPO-ATS (Group Relative Policy
Optimization with Adaptive Temperature Sampling), an algorithm that applies
distinct temperatures to text and code generation to balance reasoning
exploration with code execution precision. We conduct extensive experimental
analysis and ablation studies. Comprehensive evaluations on nearly 20
benchmarks show that Thyme yields significant and consistent performance gains,
particularly in challenging high-resolution perception and complex reasoning
tasks.