CookAnything: Uma Estrutura para Geração Flexível e Consistente de Imagens de Receitas em Múltiplas Etapas

Resumo

A culinária é uma atividade sequencial e visualmente fundamentada, na qual cada etapa, como cortar, misturar ou fritar, carrega tanto uma lógica processual quanto semântica visual. Embora os modelos de difusão recentes tenham demonstrado fortes capacidades na geração de imagens a partir de texto, eles lutam para lidar com cenários estruturados de múltiplas etapas, como a ilustração de receitas. Além disso, os métodos atuais de ilustração de receitas são incapazes de se adaptar à variabilidade natural no comprimento das receitas, gerando um número fixo de imagens independentemente da estrutura real das instruções. Para superar essas limitações, apresentamos o CookAnything, uma estrutura flexível e consistente baseada em difusão que gera sequências de imagens coerentes e semanticamente distintas a partir de instruções culinárias textuais de comprimento arbitrário. A estrutura introduz três componentes principais: (1) o Controle Regional por Etapa (SRC), que alinha as etapas textuais com as regiões correspondentes da imagem dentro de um único processo de eliminação de ruído; (2) o RoPE Flexível, um mecanismo de codificação posicional consciente da etapa que melhora tanto a coerência temporal quanto a diversidade espacial; e (3) o Controle de Consistência Transetapas (CSCC), que mantém a consistência de ingredientes em nível granular entre as etapas. Resultados experimentais em benchmarks de ilustração de receitas mostram que o CookAnything tem um desempenho superior aos métodos existentes em configurações com e sem treinamento. A estrutura proposta suporta a síntese visual escalável e de alta qualidade de instruções complexas de múltiplas etapas e possui um potencial significativo para amplas aplicações em mídia instrucional e criação de conteúdo processual.

English

Cooking is a sequential and visually grounded activity, where each step such as chopping, mixing, or frying carries both procedural logic and visual semantics. While recent diffusion models have shown strong capabilities in text-to-image generation, they struggle to handle structured multi-step scenarios like recipe illustration. Additionally, current recipe illustration methods are unable to adjust to the natural variability in recipe length, generating a fixed number of images regardless of the actual instructions structure. To address these limitations, we present CookAnything, a flexible and consistent diffusion-based framework that generates coherent, semantically distinct image sequences from textual cooking instructions of arbitrary length. The framework introduces three key components: (1) Step-wise Regional Control (SRC), which aligns textual steps with corresponding image regions within a single denoising process; (2) Flexible RoPE, a step-aware positional encoding mechanism that enhances both temporal coherence and spatial diversity; and (3) Cross-Step Consistency Control (CSCC), which maintains fine-grained ingredient consistency across steps. Experimental results on recipe illustration benchmarks show that CookAnything performs better than existing methods in training-based and training-free settings. The proposed framework supports scalable, high-quality visual synthesis of complex multi-step instructions and holds significant potential for broad applications in instructional media, and procedural content creation.

CookAnything: Uma Estrutura para Geração Flexível e Consistente de Imagens de Receitas em Múltiplas Etapas

CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation

Resumo

Support