ChatPaper.aiChatPaper

CoF-T2I: Modelos de Video como Razonadores Visuales Puros para la Generación de Imágenes a partir de Texto

CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation

January 15, 2026
Autores: Chengzhuo Tong, Mingkun Chang, Shenglong Zhang, Yuran Wang, Cheng Liang, Zhizheng Zhao, Ruichuan An, Bohan Zeng, Yang Shi, Yifan Dai, Ziming Zhao, Guanbin Li, Pengfei Wan, Yuanxing Zhang, Wentao Zhang
cs.AI

Resumen

Los modelos recientes de generación de vídeo han revelado el surgimiento del razonamiento en Cadena de Fotogramas (CoF), permitiendo inferencia visual fotograma a fotograma. Con esta capacidad, los modelos de vídeo se han aplicado con éxito a diversas tareas visuales (por ejemplo, resolución de laberintos, puzles visuales). Sin embargo, su potencial para mejorar la generación de texto a imagen (T2I) permanece en gran medida inexplorado, debido a la ausencia de un punto de partida de razonamiento visual claramente definido y de estados intermedios interpretables en el proceso de generación T2I. Para salvar esta brecha, proponemos CoF-T2I, un modelo que integra el razonamiento CoF en la generación T2I mediante un refinamiento visual progresivo, donde los fotogramas intermedios actúan como pasos de razonamiento explícitos y el fotograma final se toma como salida. Para establecer dicho proceso de generación explícito, hemos creado CoF-Evol-Instruct, un conjunto de datos de trayectorias CoF que modelan el proceso de generación desde la semántica hasta la estética. Para mejorar aún más la calidad y evitar artefactos de movimiento, habilitamos una operación de codificación independiente para cada fotograma. Los experimentos muestran que CoF-T2I supera significativamente al modelo de vídeo base y logra un rendimiento competitivo en benchmarks desafiantes, alcanzando 0.86 en GenEval y 7.468 en Imagine-Bench. Estos resultados indican la promesa sustancial de los modelos de vídeo para impulsar la generación de texto a imagen de alta calidad.
English
Recent video generation models have revealed the emergence of Chain-of-Frame (CoF) reasoning, enabling frame-by-frame visual inference. With this capability, video models have been successfully applied to various visual tasks (e.g., maze solving, visual puzzles). However, their potential to enhance text-to-image (T2I) generation remains largely unexplored due to the absence of a clearly defined visual reasoning starting point and interpretable intermediate states in the T2I generation process. To bridge this gap, we propose CoF-T2I, a model that integrates CoF reasoning into T2I generation via progressive visual refinement, where intermediate frames act as explicit reasoning steps and the final frame is taken as output. To establish such an explicit generation process, we curate CoF-Evol-Instruct, a dataset of CoF trajectories that model the generation process from semantics to aesthetics. To further improve quality and avoid motion artifacts, we enable independent encoding operation for each frame. Experiments show that CoF-T2I significantly outperforms the base video model and achieves competitive performance on challenging benchmarks, reaching 0.86 on GenEval and 7.468 on Imagine-Bench. These results indicate the substantial promise of video models for advancing high-quality text-to-image generation.
PDF251January 17, 2026