ChatPaper.aiChatPaper

CookAnything: Een Raamwerk voor Flexibele en Consistente Multi-Stap Receptafbeeldinggeneratie

CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation

December 3, 2025
Auteurs: Ruoxuan Zhang, Bin Wen, Hongxia Xie, Yi Yao, Songhan Zuo, Jian-Yu Jiang-Lin, Hong-Han Shuai, Wen-Huang Cheng
cs.AI

Samenvatting

Koken is een sequentiële en visueel verankerde activiteit, waarbij elke stap zoals snijden, mengen of bakken zowel procedurele logica als visuele semantiek met zich meedraagt. Hoewel recente diffusiemodellen sterke capaciteiten hebben getoond in tekst-naar-beeld-generatie, hebben ze moeite met gestructureerde scenario's met meerdere stappen, zoals receptillustratie. Bovendien kunnen huidige methoden voor receptillustratie zich niet aanpassen aan de natuurlijke variabiliteit in receptlengte; ze genereren een vast aantal afbeeldingen, ongeacht de daadwerkelijke instructiestructuur. Om deze beperkingen aan te pakken, presenteren we CookAnything, een flexibel en consistent op diffusie gebaseerd framework dat samenhangende, semantisch duidelijke beeldsequenties genereert uit tekstuele kookinstructies van willekeurige lengte. Het framework introduceert drie belangrijke componenten: (1) Stapsgewijze Regionale Controle (SRC), die tekstuele stappen uitlijnt met corresponderende beeldregio's binnen een enkel denoisingsproces; (2) Flexibele RoPE, een stapbewust positioneel coderingsmechanisme dat zowel temporele coherentie als ruimtelijke diversiteit verbetert; en (3) Cross-Step Consistentie Controle (CSCC), die fijnmazige ingrediëntenconsistentie over stappen heen handhaaft. Experimentele resultaten op receptillustratiebenchmarks tonen aan dat CookAnything beter presteert dan bestaande methoden in zowel trainingsgebonden als trainingsvrije settings. Het voorgestelde framework ondersteunt schaalbare, hoogwaardige visuele synthese van complexe instructies met meerdere stappen en heeft aanzienlijk potentieel voor brede toepassingen in instructiemedia en procedurele contentcreatie.
English
Cooking is a sequential and visually grounded activity, where each step such as chopping, mixing, or frying carries both procedural logic and visual semantics. While recent diffusion models have shown strong capabilities in text-to-image generation, they struggle to handle structured multi-step scenarios like recipe illustration. Additionally, current recipe illustration methods are unable to adjust to the natural variability in recipe length, generating a fixed number of images regardless of the actual instructions structure. To address these limitations, we present CookAnything, a flexible and consistent diffusion-based framework that generates coherent, semantically distinct image sequences from textual cooking instructions of arbitrary length. The framework introduces three key components: (1) Step-wise Regional Control (SRC), which aligns textual steps with corresponding image regions within a single denoising process; (2) Flexible RoPE, a step-aware positional encoding mechanism that enhances both temporal coherence and spatial diversity; and (3) Cross-Step Consistency Control (CSCC), which maintains fine-grained ingredient consistency across steps. Experimental results on recipe illustration benchmarks show that CookAnything performs better than existing methods in training-based and training-free settings. The proposed framework supports scalable, high-quality visual synthesis of complex multi-step instructions and holds significant potential for broad applications in instructional media, and procedural content creation.
PDF40December 5, 2025