ChatPaper.aiChatPaper

CookAnything: Un Framework per la Generazione Flessibile e Coerente di Immagini di Ricette a Più Fasi

CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation

December 3, 2025
Autori: Ruoxuan Zhang, Bin Wen, Hongxia Xie, Yi Yao, Songhan Zuo, Jian-Yu Jiang-Lin, Hong-Han Shuai, Wen-Huang Cheng
cs.AI

Abstract

La cucina è un’attività sequenziale e basata sull’aspetto visivo, in cui ogni fase, come tagliare, mescolare o friggere, possiede sia una logica procedurale che una semantica visiva. Sebbene i recenti modelli diffusion abbiano dimostrato notevoli capacità nella generazione di immagini da testo, faticano a gestire scenari strutturati a più fasi, come l’illustrazione di ricette. Inoltre, gli attuali metodi di illustrazione di ricette non sono in grado di adattarsi alla variabilità naturale della lunghezza delle ricette, generando un numero fisso di immagini indipendentemente dalla struttura effettiva delle istruzioni. Per affrontare queste limitazioni, presentiamo CookAnything, un framework flessibile e coerente basato su modelli diffusion, in grado di generare sequenze di immagini coerenti e semanticamente distinte a partire da istruzioni di cucina testuali di lunghezza arbitraria. Il framework introduce tre componenti chiave: (1) Step-wise Regional Control (SRC), che allinea i passaggi testuali con le corrispondenti regioni dell’immagine all’interno di un singolo processo di denoising; (2) Flexible RoPE, un meccanismo di codifica posizionale consapevole dei passaggi, che migliora sia la coerenza temporale che la diversità spaziale; e (3) Cross-Step Consistency Control (CSCC), che mantiene la coerenza fine degli ingredienti attraverso i vari passaggi. I risultati sperimentali su benchmark di illustrazione di ricette mostrano che CookAnything supera i metodi esistenti sia in contesti con training che senza training. Il framework proposto supporta una sintesi visiva scalabile e di alta qualità per istruzioni complesse a più passaggi e possiede un significativo potenziale per ampie applicazioni nei media didattici e nella creazione di contenuti procedurali.
English
Cooking is a sequential and visually grounded activity, where each step such as chopping, mixing, or frying carries both procedural logic and visual semantics. While recent diffusion models have shown strong capabilities in text-to-image generation, they struggle to handle structured multi-step scenarios like recipe illustration. Additionally, current recipe illustration methods are unable to adjust to the natural variability in recipe length, generating a fixed number of images regardless of the actual instructions structure. To address these limitations, we present CookAnything, a flexible and consistent diffusion-based framework that generates coherent, semantically distinct image sequences from textual cooking instructions of arbitrary length. The framework introduces three key components: (1) Step-wise Regional Control (SRC), which aligns textual steps with corresponding image regions within a single denoising process; (2) Flexible RoPE, a step-aware positional encoding mechanism that enhances both temporal coherence and spatial diversity; and (3) Cross-Step Consistency Control (CSCC), which maintains fine-grained ingredient consistency across steps. Experimental results on recipe illustration benchmarks show that CookAnything performs better than existing methods in training-based and training-free settings. The proposed framework supports scalable, high-quality visual synthesis of complex multi-step instructions and holds significant potential for broad applications in instructional media, and procedural content creation.
PDF40December 5, 2025