Story-Adapter: Um Framework Iterativo sem Treinamento para Visualização de Histórias Longas

Resumo

A visualização de histórias, a tarefa de gerar imagens coerentes com base em uma narrativa, tem visto avanços significativos com o surgimento de modelos de texto para imagem, especialmente modelos de difusão. No entanto, manter consistência semântica, gerar interações de alta qualidade detalhadas e garantir viabilidade computacional continuam sendo desafios, especialmente em visualizações de histórias longas (ou seja, até 100 quadros). Neste trabalho, propomos um framework sem treinamento e computacionalmente eficiente, denominado Story-Adapter, para aprimorar a capacidade generativa de histórias longas. Especificamente, propomos um paradigma iterativo para refinar cada imagem gerada, aproveitando tanto o prompt de texto quanto todas as imagens geradas da iteração anterior. Central em nosso framework está um módulo de atenção cruzada global de referência sem treinamento, que agrega todas as imagens geradas da iteração anterior para preservar a consistência semântica em toda a história, ao mesmo tempo que minimiza os custos computacionais com embeddings globais. Esse processo iterativo otimiza progressivamente a geração de imagens incorporando repetidamente restrições de texto, resultando em interações mais precisas e detalhadas. Experimentos extensos validam a superioridade do Story-Adapter em melhorar tanto a consistência semântica quanto a capacidade generativa para interações detalhadas, especialmente em cenários de histórias longas. A página do projeto e o código associado podem ser acessados em https://jwmao1.github.io/storyadapter.

English

Story visualization, the task of generating coherent images based on a narrative, has seen significant advancements with the emergence of text-to-image models, particularly diffusion models. However, maintaining semantic consistency, generating high-quality fine-grained interactions, and ensuring computational feasibility remain challenging, especially in long story visualization (i.e., up to 100 frames). In this work, we propose a training-free and computationally efficient framework, termed Story-Adapter, to enhance the generative capability of long stories. Specifically, we propose an iterative paradigm to refine each generated image, leveraging both the text prompt and all generated images from the previous iteration. Central to our framework is a training-free global reference cross-attention module, which aggregates all generated images from the previous iteration to preserve semantic consistency across the entire story, while minimizing computational costs with global embeddings. This iterative process progressively optimizes image generation by repeatedly incorporating text constraints, resulting in more precise and fine-grained interactions. Extensive experiments validate the superiority of Story-Adapter in improving both semantic consistency and generative capability for fine-grained interactions, particularly in long story scenarios. The project page and associated code can be accessed via https://jwmao1.github.io/storyadapter .

Story-Adapter: Um Framework Iterativo sem Treinamento para Visualização de Histórias Longas

Story-Adapter: A Training-free Iterative Framework for Long Story Visualization

Resumo

Support