CookAnything: 유연하고 일관된 다단계 레시피 이미지 생성 프레임워크
CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation
December 3, 2025
저자: Ruoxuan Zhang, Bin Wen, Hongxia Xie, Yi Yao, Songhan Zuo, Jian-Yu Jiang-Lin, Hong-Han Shuai, Wen-Huang Cheng
cs.AI
초록
요리는 각각의 단계(썰기, 섞기, 볶기 등)가 절차적 논리와 시각적 의미를 모두 내포하는 순차적이고 시각적으로 근거 있는 활동입니다. 최근 디퓨전 모델이 텍스트-이미지 생성에서 강력한 능력을 보여주고 있지만, 레시피 일러스트레이션과 같은 구조화된 다단계 시나리오를 처리하는 데는 어려움을 겪고 있습니다. 또한 기존 레시피 일러스트레이션 방법들은 레시피 길이의 자연스러운 변동성에 적응하지 못하며, 실제 지시 구조와 관계없이 고정된 수의 이미지를 생성합니다. 이러한 한계를 해결하기 위해 우리는 임의 길이의 텍스트 요리 지침으로부터 일관성 있고 의미적으로 구분되는 이미지 시퀀스를 생성하는 유연한 디퓨전 기반 프레임워크인 CookAnything를 제안합니다. 본 프레임워크는 세 가지 핵심 구성 요소를 도입합니다: (1) 단일 노이즈 제거 과정 내에서 텍스트 단계와 해당 이미지 영역을 정렬하는 단계별 지역 제어(Step-wise Regional Control, SRC); (2) 시간적 일관성과 공간적 다양성을 모두 향상시키는 단계 인식 위치 인코딩 메커니즘인 유연한 RoPE(Flexible RoPE); (3) 단계 간 세부 재료 일관성을 유지하는 교차 단계 일관성 제어(Cross-Step Consistency Control, CSCC). 레시피 일러스트레이션 벤치마크에 대한 실험 결과는 CookAnything가 학습 기반 및 학습 없음 설정에서 기존 방법들보다 더 나은 성능을 보여줍니다. 제안된 프레임워크는 복잡한 다단계 지침의 확장 가능하고 고품질인 시각적 합성을 지원하며, 교육 매체 및 절차적 콘텐츠 생성 분야에서 광범위한 적용 가능성을 가지고 있습니다.
English
Cooking is a sequential and visually grounded activity, where each step such as chopping, mixing, or frying carries both procedural logic and visual semantics. While recent diffusion models have shown strong capabilities in text-to-image generation, they struggle to handle structured multi-step scenarios like recipe illustration. Additionally, current recipe illustration methods are unable to adjust to the natural variability in recipe length, generating a fixed number of images regardless of the actual instructions structure. To address these limitations, we present CookAnything, a flexible and consistent diffusion-based framework that generates coherent, semantically distinct image sequences from textual cooking instructions of arbitrary length. The framework introduces three key components: (1) Step-wise Regional Control (SRC), which aligns textual steps with corresponding image regions within a single denoising process; (2) Flexible RoPE, a step-aware positional encoding mechanism that enhances both temporal coherence and spatial diversity; and (3) Cross-Step Consistency Control (CSCC), which maintains fine-grained ingredient consistency across steps. Experimental results on recipe illustration benchmarks show that CookAnything performs better than existing methods in training-based and training-free settings. The proposed framework supports scalable, high-quality visual synthesis of complex multi-step instructions and holds significant potential for broad applications in instructional media, and procedural content creation.