CoF-T2I: Видеомодели как чистые визуальные анализаторы для генерации изображений по тексту
CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation
January 15, 2026
Авторы: Chengzhuo Tong, Mingkun Chang, Shenglong Zhang, Yuran Wang, Cheng Liang, Zhizheng Zhao, Ruichuan An, Bohan Zeng, Yang Shi, Yifan Dai, Ziming Zhao, Guanbin Li, Pengfei Wan, Yuanxing Zhang, Wentao Zhang
cs.AI
Аннотация
Современные модели генерации видео продемонстрировали появление механизма Chain-of-Frame (CoF) — последовательного фрейм-за-фреймом визуального вывода. Благодаря этой возможности видео-модели успешно применяются для решения различных визуальных задач (например, прохождения лабиринтов, визуальных головоломок). Однако их потенциал для улучшения генерации изображений по текстовому описанию (Text-to-Image, T2I) остаётся в значительной степени неисследованным из-за отсутствия чётко определённой отправной точки для визуального рассуждения и интерпретируемых промежуточных состояний в процессе T2I-генерации. Для преодоления этого разрыва мы предлагаем CoF-T2I — модель, интегрирующую CoF-рассуждения в T2I-генерацию посредством прогрессивного визуального уточнения, где промежуточные кадры выступают в качестве явных шагов рассуждения, а конечный кадр принимается в качестве результата. Для организации такого явного процесса генерации мы создали CoF-Evol-Instruct — набор данных CoF-траекторий, моделирующих процесс генерации от семантики к эстетике. Для дальнейшего повышения качества и избежания артефактов движения мы реализовали независимое кодирование для каждого кадра. Эксперименты показывают, что CoF-T2I значительно превосходит базовую видео-модель и демонстрирует конкурентоспособные результаты на сложных бенчмарках, достигая 0.86 на GenEval и 7.468 на Imagine-Bench. Эти результаты свидетельствуют о существенном потенциале видео-моделей для развития высококачественной генерации изображений по текстовому описанию.
English
Recent video generation models have revealed the emergence of Chain-of-Frame (CoF) reasoning, enabling frame-by-frame visual inference. With this capability, video models have been successfully applied to various visual tasks (e.g., maze solving, visual puzzles). However, their potential to enhance text-to-image (T2I) generation remains largely unexplored due to the absence of a clearly defined visual reasoning starting point and interpretable intermediate states in the T2I generation process. To bridge this gap, we propose CoF-T2I, a model that integrates CoF reasoning into T2I generation via progressive visual refinement, where intermediate frames act as explicit reasoning steps and the final frame is taken as output. To establish such an explicit generation process, we curate CoF-Evol-Instruct, a dataset of CoF trajectories that model the generation process from semantics to aesthetics. To further improve quality and avoid motion artifacts, we enable independent encoding operation for each frame. Experiments show that CoF-T2I significantly outperforms the base video model and achieves competitive performance on challenging benchmarks, reaching 0.86 on GenEval and 7.468 on Imagine-Bench. These results indicate the substantial promise of video models for advancing high-quality text-to-image generation.