ChatPaper.aiChatPaper

CookAnything : Un Cadre pour la Génération d'Images de Recettes Multi-Étapes Flexible et Cohérente

CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation

December 3, 2025
papers.authors: Ruoxuan Zhang, Bin Wen, Hongxia Xie, Yi Yao, Songhan Zuo, Jian-Yu Jiang-Lin, Hong-Han Shuai, Wen-Huang Cheng
cs.AI

papers.abstract

La cuisine est une activité séquentielle et visuellement ancrée, où chaque étape telle que la découpe, le mélange ou la friture possède à la fois une logique procédurale et une sémantique visuelle. Bien que les modèles de diffusion récents aient démontré de solides capacités en génération d'images à partir de texte, ils peinent à gérer des scénarios structurés à multiples étapes comme l'illustration de recettes. De plus, les méthodes actuelles d'illustration de recettes sont incapables de s'adapter à la variabilité naturelle de la longueur des recettes, générant un nombre fixe d'images indépendamment de la structure réelle des instructions. Pour résoudre ces limitations, nous présentons CookAnything, un cadre flexible et cohérent basé sur la diffusion qui génère des séquences d'images cohérentes et sémantiquement distinctes à partir d'instructions culinaires textuelles de longueur arbitraire. Le cadre introduit trois composants clés : (1) le Contrôle Régional par Étape (SRC), qui aligne les étapes textuelles avec les régions d'image correspondantes dans un seul processus de débruitage ; (2) le RoPE Flexible, un mécanisme d'encodage positionnel sensible aux étapes qui améliore à la fois la cohérence temporelle et la diversité spatiale ; et (3) le Contrôle de Cohérence Trans-Étapes (CSCC), qui maintient la cohérence fine des ingrédients à travers les étapes. Les résultats expérimentaux sur des benchmarks d'illustration de recettes montrent que CookAnything surpasse les méthodes existantes dans des contextes avec et sans apprentissage. Le cadre proposé prend en charge la synthèse visuelle évolutive et de haute qualité d'instructions complexes à multiples étapes et présente un potentiel significatif pour des applications étendues dans les médias pédagogiques et la création de contenu procédural.
English
Cooking is a sequential and visually grounded activity, where each step such as chopping, mixing, or frying carries both procedural logic and visual semantics. While recent diffusion models have shown strong capabilities in text-to-image generation, they struggle to handle structured multi-step scenarios like recipe illustration. Additionally, current recipe illustration methods are unable to adjust to the natural variability in recipe length, generating a fixed number of images regardless of the actual instructions structure. To address these limitations, we present CookAnything, a flexible and consistent diffusion-based framework that generates coherent, semantically distinct image sequences from textual cooking instructions of arbitrary length. The framework introduces three key components: (1) Step-wise Regional Control (SRC), which aligns textual steps with corresponding image regions within a single denoising process; (2) Flexible RoPE, a step-aware positional encoding mechanism that enhances both temporal coherence and spatial diversity; and (3) Cross-Step Consistency Control (CSCC), which maintains fine-grained ingredient consistency across steps. Experimental results on recipe illustration benchmarks show that CookAnything performs better than existing methods in training-based and training-free settings. The proposed framework supports scalable, high-quality visual synthesis of complex multi-step instructions and holds significant potential for broad applications in instructional media, and procedural content creation.
PDF40December 5, 2025