CoF-T2I: テキストから画像生成のための純粋な視覚推論器としてのビデオモデル
CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation
January 15, 2026
著者: Chengzhuo Tong, Mingkun Chang, Shenglong Zhang, Yuran Wang, Cheng Liang, Zhizheng Zhao, Ruichuan An, Bohan Zeng, Yang Shi, Yifan Dai, Ziming Zhao, Guanbin Li, Pengfei Wan, Yuanxing Zhang, Wentao Zhang
cs.AI
要旨
近年の映像生成モデルでは、フレーム連鎖(Chain-of-Frame: CoF)推論の出現が見られ、フレーム単位の視覚的推論が可能となっています。この能力により、映像モデルは様々な視覚タスク(迷路解決、視覚パズルなど)に応用されてきました。しかし、テキストから画像への生成(T2I)プロセスには明確な視覚推論の出発点と解釈可能な中間状態が欠如しているため、T2I生成を強化する可能性はほとんど検討されていません。この隔たりを埋めるため、我々はCoF-T2Iを提案します。これは漸進的な視覚的洗練を通じてCoF推論をT2I生成に統合するモデルであり、中間フレームが明示的な推論ステップとして機能し、最終フレームが出力として扱われます。
この明示的生成プロセスを確立するため、意味論から美学へ至る生成プロセスをモデル化したCoF軌跡データセット「CoF-Evol-Instruct」を構築しました。さらに品質向上とモーションアーティファクト回避のため、各フレームの独立した符号化操作を可能にしています。実験結果では、CoF-T2Iがベースとなる映像モデルを大幅に上回り、挑戦的なベンチマークで競争力のある性能を達成しました(GenEvalで0.86、Imagine-Benchで7.468を記録)。これらの結果は、高品質なテキストから画像への生成を進展させる上で、映像モデルが大きな可能性を秘めていることを示しています。
English
Recent video generation models have revealed the emergence of Chain-of-Frame (CoF) reasoning, enabling frame-by-frame visual inference. With this capability, video models have been successfully applied to various visual tasks (e.g., maze solving, visual puzzles). However, their potential to enhance text-to-image (T2I) generation remains largely unexplored due to the absence of a clearly defined visual reasoning starting point and interpretable intermediate states in the T2I generation process. To bridge this gap, we propose CoF-T2I, a model that integrates CoF reasoning into T2I generation via progressive visual refinement, where intermediate frames act as explicit reasoning steps and the final frame is taken as output. To establish such an explicit generation process, we curate CoF-Evol-Instruct, a dataset of CoF trajectories that model the generation process from semantics to aesthetics. To further improve quality and avoid motion artifacts, we enable independent encoding operation for each frame. Experiments show that CoF-T2I significantly outperforms the base video model and achieves competitive performance on challenging benchmarks, reaching 0.86 on GenEval and 7.468 on Imagine-Bench. These results indicate the substantial promise of video models for advancing high-quality text-to-image generation.