ChatPaper.aiChatPaper

CookAnything: Фреймворк для гибкого и согласованного поэтапного генерирования изображений рецептов

CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation

December 3, 2025
Авторы: Ruoxuan Zhang, Bin Wen, Hongxia Xie, Yi Yao, Songhan Zuo, Jian-Yu Jiang-Lin, Hong-Han Shuai, Wen-Huang Cheng
cs.AI

Аннотация

Приготовление пищи представляет собой последовательный и визуально обоснованный процесс, где каждый этап (нарезка, смешивание, жарка и т.д.) обладает как процедурной логикой, так и визуальной семантикой. Хотя современные диффузионные модели демонстрируют высокую эффективность в генерации изображений по тексту, они испытывают трудности со структурированными многоэтапными сценариями, такими как иллюстрирование рецептов. Кроме того, существующие методы иллюстрации рецептов не способны адаптироваться к естественной вариативности их длины, генерируя фиксированное количество изображений независимо от фактической структуры инструкций. Для преодоления этих ограничений мы представляем CookAnything — гибкую и согласованную диффузионную систему, генерирующую последовательности связных и семантически различимых изображений на основе текстовых кулинарных инструкций произвольной длины. Фреймворк включает три ключевых компонента: (1) пошаговый региональный контроль (Step-wise Regional Control, SRC), обеспечивающий соответствие текстовых шагов соответствующим областям изображения в рамках единого процесса денойзинга; (2) гибкий механизм позиционного кодирования RoPE (Flexible RoPE), учитывающий этапы выполнения и улучшающий как временную согласованность, так и пространственное разнообразие; (3) межшаговый контроль согласованности (Cross-Step Consistency Control, CSCC), сохраняющий детальную консистентность ингредиентов между этапами. Эксперименты на бенчмарках иллюстрирования рецептов показали, что CookAnything превосходит существующие методы как в обучении, так и в условиях без обучения. Предложенный фреймворк поддерживает масштабируемый и качественный визуальный синтез сложных многоэтапных инструкций и обладает значительным потенциалом для широкого применения в обучающих медиа и создании процедурного контента.
English
Cooking is a sequential and visually grounded activity, where each step such as chopping, mixing, or frying carries both procedural logic and visual semantics. While recent diffusion models have shown strong capabilities in text-to-image generation, they struggle to handle structured multi-step scenarios like recipe illustration. Additionally, current recipe illustration methods are unable to adjust to the natural variability in recipe length, generating a fixed number of images regardless of the actual instructions structure. To address these limitations, we present CookAnything, a flexible and consistent diffusion-based framework that generates coherent, semantically distinct image sequences from textual cooking instructions of arbitrary length. The framework introduces three key components: (1) Step-wise Regional Control (SRC), which aligns textual steps with corresponding image regions within a single denoising process; (2) Flexible RoPE, a step-aware positional encoding mechanism that enhances both temporal coherence and spatial diversity; and (3) Cross-Step Consistency Control (CSCC), which maintains fine-grained ingredient consistency across steps. Experimental results on recipe illustration benchmarks show that CookAnything performs better than existing methods in training-based and training-free settings. The proposed framework supports scalable, high-quality visual synthesis of complex multi-step instructions and holds significant potential for broad applications in instructional media, and procedural content creation.
PDF40December 5, 2025