Story-Adapter: Um Framework Iterativo sem Treinamento para Visualização de Histórias Longas
Story-Adapter: A Training-free Iterative Framework for Long Story Visualization
October 8, 2024
Autores: Jiawei Mao, Xiaoke Huang, Yunfei Xie, Yuanqi Chang, Mude Hui, Bingjie Xu, Yuyin Zhou
cs.AI
Resumo
A visualização de histórias, a tarefa de gerar imagens coerentes com base em uma narrativa, tem visto avanços significativos com o surgimento de modelos de texto para imagem, especialmente modelos de difusão. No entanto, manter consistência semântica, gerar interações de alta qualidade detalhadas e garantir viabilidade computacional continuam sendo desafios, especialmente em visualizações de histórias longas (ou seja, até 100 quadros). Neste trabalho, propomos um framework sem treinamento e computacionalmente eficiente, denominado Story-Adapter, para aprimorar a capacidade generativa de histórias longas. Especificamente, propomos um paradigma iterativo para refinar cada imagem gerada, aproveitando tanto o prompt de texto quanto todas as imagens geradas da iteração anterior. Central em nosso framework está um módulo de atenção cruzada global de referência sem treinamento, que agrega todas as imagens geradas da iteração anterior para preservar a consistência semântica em toda a história, ao mesmo tempo que minimiza os custos computacionais com embeddings globais. Esse processo iterativo otimiza progressivamente a geração de imagens incorporando repetidamente restrições de texto, resultando em interações mais precisas e detalhadas. Experimentos extensos validam a superioridade do Story-Adapter em melhorar tanto a consistência semântica quanto a capacidade generativa para interações detalhadas, especialmente em cenários de histórias longas. A página do projeto e o código associado podem ser acessados em https://jwmao1.github.io/storyadapter.
English
Story visualization, the task of generating coherent images based on a
narrative, has seen significant advancements with the emergence of
text-to-image models, particularly diffusion models. However, maintaining
semantic consistency, generating high-quality fine-grained interactions, and
ensuring computational feasibility remain challenging, especially in long story
visualization (i.e., up to 100 frames). In this work, we propose a
training-free and computationally efficient framework, termed Story-Adapter, to
enhance the generative capability of long stories. Specifically, we propose an
iterative paradigm to refine each generated image, leveraging both the text
prompt and all generated images from the previous iteration. Central to our
framework is a training-free global reference cross-attention module, which
aggregates all generated images from the previous iteration to preserve
semantic consistency across the entire story, while minimizing computational
costs with global embeddings. This iterative process progressively optimizes
image generation by repeatedly incorporating text constraints, resulting in
more precise and fine-grained interactions. Extensive experiments validate the
superiority of Story-Adapter in improving both semantic consistency and
generative capability for fine-grained interactions, particularly in long story
scenarios. The project page and associated code can be accessed via
https://jwmao1.github.io/storyadapter .