ChatPaper.aiChatPaper

CookAnything: Un Marco para la Generación Flexible y Consistente de Imágenes de Recetas Multi-Etapa

CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation

December 3, 2025
Autores: Ruoxuan Zhang, Bin Wen, Hongxia Xie, Yi Yao, Songhan Zuo, Jian-Yu Jiang-Lin, Hong-Han Shuai, Wen-Huang Cheng
cs.AI

Resumen

La cocina es una actividad secuencial y visualmente fundamentada, donde cada paso, como cortar, mezclar o freír, conlleva tanto una lógica procedimental como una semántica visual. Si bien los modelos de difusión recientes han demostrado una gran capacidad en la generación de imágenes a partir de texto, presentan dificultades para manejar escenarios estructurados de múltiples pasos, como la ilustración de recetas. Además, los métodos actuales de ilustración de recetas no pueden adaptarse a la variabilidad natural en la longitud de las recetas, generando un número fijo de imágenes independientemente de la estructura real de las instrucciones. Para abordar estas limitaciones, presentamos CookAnything, un marco flexible y consistente basado en difusión que genera secuencias de imágenes coherentes y semánticamente distintas a partir de instrucciones culinarias textuales de longitud arbitraria. El marco introduce tres componentes clave: (1) Control Regional por Pasos (SRC), que alinea los pasos textuales con las regiones de imagen correspondientes dentro de un único proceso de eliminación de ruido; (2) RoPE Flexible, un mecanismo de codificación posicional consciente de los pasos que mejora tanto la coherencia temporal como la diversidad espacial; y (3) Control de Consistencia Transpaso (CSCC), que mantiene la consistencia de ingredientes a nivel de grano fino a lo largo de los pasos. Los resultados experimentales en benchmarks de ilustración de recetas muestran que CookAnything supera a los métodos existentes en entornos con y sin entrenamiento. El marco propuesto permite una síntesis visual escalable y de alta calidad de instrucciones complejas de múltiples pasos, y posee un potencial significativo para amplias aplicaciones en medios instructivos y creación de contenido procedimental.
English
Cooking is a sequential and visually grounded activity, where each step such as chopping, mixing, or frying carries both procedural logic and visual semantics. While recent diffusion models have shown strong capabilities in text-to-image generation, they struggle to handle structured multi-step scenarios like recipe illustration. Additionally, current recipe illustration methods are unable to adjust to the natural variability in recipe length, generating a fixed number of images regardless of the actual instructions structure. To address these limitations, we present CookAnything, a flexible and consistent diffusion-based framework that generates coherent, semantically distinct image sequences from textual cooking instructions of arbitrary length. The framework introduces three key components: (1) Step-wise Regional Control (SRC), which aligns textual steps with corresponding image regions within a single denoising process; (2) Flexible RoPE, a step-aware positional encoding mechanism that enhances both temporal coherence and spatial diversity; and (3) Cross-Step Consistency Control (CSCC), which maintains fine-grained ingredient consistency across steps. Experimental results on recipe illustration benchmarks show that CookAnything performs better than existing methods in training-based and training-free settings. The proposed framework supports scalable, high-quality visual synthesis of complex multi-step instructions and holds significant potential for broad applications in instructional media, and procedural content creation.
PDF40December 5, 2025