ChatPaper.aiChatPaper

CookAnything: 柔軟で一貫性のあるマルチステップレシピ画像生成のフレームワーク

CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation

December 3, 2025
著者: Ruoxuan Zhang, Bin Wen, Hongxia Xie, Yi Yao, Songhan Zuo, Jian-Yu Jiang-Lin, Hong-Han Shuai, Wen-Huang Cheng
cs.AI

要旨

調理は段階的で視覚に基づく活動であり、刻む、混ぜる、揚げるといった各工程は、手順の論理性と視覚的意味論の両方を持ちます。近年の拡散モデルはテキストから画像への生成において優れた能力を示していますが、レシピのイラスト化のような構造化された多段階のシナリオを扱うことは困難です。さらに、既存のレシピイラスト生成手法は、実際の手順の構造に関わらず固定枚数の画像を生成するため、レシピの長さに自然に適応することができません。これらの課題を解決するため、本論文ではCookAnythingを提案します。これは任意の長さの調理手順テキストから、一貫性があり意味的に明確な画像シーケンスを生成する、柔軟な拡散モデルベースのフレームワークです。本フレームワークは以下の3つの主要コンポーネントを導入します:(1) 単一のノイズ除去プロセス内でテキストの工程と対応する画像領域を整合させるStep-wise Regional Control (SRC)、(2) 時間的一貫性と空間的多様性の両方を強化する工程を考慮した位置符号化機構Flexible RoPE、(3) 工程間で微細な食材の一貫性を維持するCross-Step Consistency Control (CSCC)です。レシピイラスト生成のベンチマークにおける実験結果は、CookAnythingが学習ベース及び学習不要の設定において既存手法よりも優れた性能を発揮することを示しています。提案フレームワークは、複雑な多段階手順のスケーラブルで高品質な視覚的合成をサポートし、教育メディアや手順に基づくコンテンツ創作における幅広い応用への大きな可能性を秘めています。
English
Cooking is a sequential and visually grounded activity, where each step such as chopping, mixing, or frying carries both procedural logic and visual semantics. While recent diffusion models have shown strong capabilities in text-to-image generation, they struggle to handle structured multi-step scenarios like recipe illustration. Additionally, current recipe illustration methods are unable to adjust to the natural variability in recipe length, generating a fixed number of images regardless of the actual instructions structure. To address these limitations, we present CookAnything, a flexible and consistent diffusion-based framework that generates coherent, semantically distinct image sequences from textual cooking instructions of arbitrary length. The framework introduces three key components: (1) Step-wise Regional Control (SRC), which aligns textual steps with corresponding image regions within a single denoising process; (2) Flexible RoPE, a step-aware positional encoding mechanism that enhances both temporal coherence and spatial diversity; and (3) Cross-Step Consistency Control (CSCC), which maintains fine-grained ingredient consistency across steps. Experimental results on recipe illustration benchmarks show that CookAnything performs better than existing methods in training-based and training-free settings. The proposed framework supports scalable, high-quality visual synthesis of complex multi-step instructions and holds significant potential for broad applications in instructional media, and procedural content creation.
PDF40December 5, 2025