CoF-T2I: 텍스트-이미지 생성을 위한 순수 시각 추론기로서의 비디오 모델
CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation
January 15, 2026
저자: Chengzhuo Tong, Mingkun Chang, Shenglong Zhang, Yuran Wang, Cheng Liang, Zhizheng Zhao, Ruichuan An, Bohan Zeng, Yang Shi, Yifan Dai, Ziming Zhao, Guanbin Li, Pengfei Wan, Yuanxing Zhang, Wentao Zhang
cs.AI
초록
최근 비디오 생성 모델에서는 프레임별 시각적 추론을 가능하게 하는 프레임 연쇄(Chain-of-Frame, CoF) 추론 능력의 출현이 확인되었습니다. 이러한 능력을 바탕으로 비디오 모델은 다양한 시각 작업(예: 미로 해결, 시각적 퍼즐)에 성공적으로 적용되고 있습니다. 그러나 텍스트-이미지(T2I) 생성 과정에는 명확히 정의된 시각 추론 시작점과 해석 가능한 중간 상태가 부재하기 때문에, T2I 생성 성능 향상에 대한 비디오 모델의 잠재력은 대부분 탐구되지 않은 상태입니다. 이러한 간극을 메우기 위해 우리는 CoF 추론을 T2I 생성에 통합하는 CoF-T2I 모델을 제안합니다. 이 모델은 점진적 시각 정제를 통해 중간 프레임을 명시적 추론 단계로 활용하고 최종 프레임을 출력으로 생성합니다. 이러한 명시적 생성 과정을 구축하기 위해 우리는 의미론에서 심미성으로 이어지는 생성 과정을 모델링하는 CoF 궤적 데이터셋인 CoF-Evol-Instruct를 구축했습니다. 또한 품질을 개선하고 모션 아티팩트를 방지하기 위해 각 프레임에 대한 독립적인 인코딩 연산을 가능하게 합니다. 실험 결과, CoF-T2I는 기본 비디오 모델을 크게 능가하며 까다로운 벤치마크에서 경쟁력 있는 성능을 달성하여 GenEval에서 0.86점, Imagine-Bench에서 7.468점에 도달했습니다. 이러한 결과는 고품질 텍스트-이미지 생성 발전을 위한 비디오 모델의 상당한 가능성을 시사합니다.
English
Recent video generation models have revealed the emergence of Chain-of-Frame (CoF) reasoning, enabling frame-by-frame visual inference. With this capability, video models have been successfully applied to various visual tasks (e.g., maze solving, visual puzzles). However, their potential to enhance text-to-image (T2I) generation remains largely unexplored due to the absence of a clearly defined visual reasoning starting point and interpretable intermediate states in the T2I generation process. To bridge this gap, we propose CoF-T2I, a model that integrates CoF reasoning into T2I generation via progressive visual refinement, where intermediate frames act as explicit reasoning steps and the final frame is taken as output. To establish such an explicit generation process, we curate CoF-Evol-Instruct, a dataset of CoF trajectories that model the generation process from semantics to aesthetics. To further improve quality and avoid motion artifacts, we enable independent encoding operation for each frame. Experiments show that CoF-T2I significantly outperforms the base video model and achieves competitive performance on challenging benchmarks, reaching 0.86 on GenEval and 7.468 on Imagine-Bench. These results indicate the substantial promise of video models for advancing high-quality text-to-image generation.