CookAnything: Ein Framework für flexible und konsistente mehrstufige Rezeptbildgenerierung
CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation
December 3, 2025
papers.authors: Ruoxuan Zhang, Bin Wen, Hongxia Xie, Yi Yao, Songhan Zuo, Jian-Yu Jiang-Lin, Hong-Han Shuai, Wen-Huang Cheng
cs.AI
papers.abstract
Kochen ist eine sequenzielle und visuell fundierte Aktivität, bei der jeder Schritt wie Schneiden, Mischen oder Braten sowohl prozedurale Logik als auch visuelle Semantik trägt. Während aktuelle Diffusionsmodelle starke Fähigkeiten in der Text-zu-Bild-Generierung gezeigt haben, haben sie Schwierigkeiten mit strukturierten Mehrschrittszenarien wie Rezeptillustrationen. Zudem können aktuelle Methoden zur Rezeptillustration nicht auf die natürliche Variabilität der Rezeptlänge reagieren und generieren unabhängig von der tatsächlichen Anweisungsstruktur eine feste Anzahl von Bildern. Um diese Einschränkungen zu adressieren, stellen wir CookAnything vor, ein flexibles und konsistentes diffusionsbasiertes Framework, das kohärente, semantisch distinkte Bildsequenzen aus textuellen Kochanweisungen beliebiger Länge erzeugt. Das Framework führt drei Schlüsselkomponenten ein: (1) Schrittweise regionale Steuerung (Step-wise Regional Control, SRC), die Textschritte mit entsprechenden Bildregionen in einem einzelnen Denoising-Prozess abgleicht; (2) Flexibles RoPE, ein schrittbewusser Positionskodierungsmechanismus, der sowohl temporale Kohärenz als auch räumliche Diversität verbessert; und (3) Schrittübergreifende Konsistenzsteuerung (Cross-Step Consistency Control, CSCC), die feinkörnige Zutatenkonsistenz über alle Schritte hinweg aufrechterhält. Experimentelle Ergebnisse auf Rezeptillustrations-Benchmarks zeigen, dass CookAnything in trainingsbasierten und trainingsfreien Settings besser abschneidet als bestehende Methoden. Das vorgeschlagene Framework unterstützt skalierbare, hochwertige visuelle Synthese komplexer Mehrschrittanleitungen und birgt großes Potenzial für breite Anwendungen in instruktiven Medien und prozeduraler Inhaltserstellung.
English
Cooking is a sequential and visually grounded activity, where each step such as chopping, mixing, or frying carries both procedural logic and visual semantics. While recent diffusion models have shown strong capabilities in text-to-image generation, they struggle to handle structured multi-step scenarios like recipe illustration. Additionally, current recipe illustration methods are unable to adjust to the natural variability in recipe length, generating a fixed number of images regardless of the actual instructions structure. To address these limitations, we present CookAnything, a flexible and consistent diffusion-based framework that generates coherent, semantically distinct image sequences from textual cooking instructions of arbitrary length. The framework introduces three key components: (1) Step-wise Regional Control (SRC), which aligns textual steps with corresponding image regions within a single denoising process; (2) Flexible RoPE, a step-aware positional encoding mechanism that enhances both temporal coherence and spatial diversity; and (3) Cross-Step Consistency Control (CSCC), which maintains fine-grained ingredient consistency across steps. Experimental results on recipe illustration benchmarks show that CookAnything performs better than existing methods in training-based and training-free settings. The proposed framework supports scalable, high-quality visual synthesis of complex multi-step instructions and holds significant potential for broad applications in instructional media, and procedural content creation.