Auditoría y Reparación: Un Marco Agéntico para la Visualización Consistente de Historias en Modelos de Difusión de Texto a Imagen
Audit & Repair: An Agentic Framework for Consistent Story Visualization in Text-to-Image Diffusion Models
June 23, 2025
Autores: Kiymet Akdemir, Tahira Kazimi, Pinar Yanardag
cs.AI
Resumen
La visualización de historias se ha convertido en una tarea popular en la que se generan escenas visuales para representar una narrativa a través de múltiples paneles. Un desafío central en este contexto es mantener la consistencia visual, particularmente en cómo los personajes y los objetos persisten y evolucionan a lo largo de la historia. A pesar de los avances recientes en los modelos de difusión, los enfoques actuales a menudo no logran preservar los atributos clave de los personajes, lo que lleva a narrativas incoherentes. En este trabajo, proponemos un marco colaborativo de múltiples agentes que identifica, corrige y refina de manera autónoma las inconsistencias en las visualizaciones de historias de múltiples paneles. Los agentes operan en un ciclo iterativo, permitiendo actualizaciones detalladas a nivel de panel sin necesidad de regenerar secuencias completas. Nuestro marco es independiente del modelo y se integra de manera flexible con una variedad de modelos de difusión, incluyendo transformadores de flujo rectificado como Flux y modelos de difusión latente como Stable Diffusion. Los experimentos cuantitativos y cualitativos muestran que nuestro método supera a los enfoques anteriores en términos de consistencia en múltiples paneles.
English
Story visualization has become a popular task where visual scenes are
generated to depict a narrative across multiple panels. A central challenge in
this setting is maintaining visual consistency, particularly in how characters
and objects persist and evolve throughout the story. Despite recent advances in
diffusion models, current approaches often fail to preserve key character
attributes, leading to incoherent narratives. In this work, we propose a
collaborative multi-agent framework that autonomously identifies, corrects, and
refines inconsistencies across multi-panel story visualizations. The agents
operate in an iterative loop, enabling fine-grained, panel-level updates
without re-generating entire sequences. Our framework is model-agnostic and
flexibly integrates with a variety of diffusion models, including rectified
flow transformers such as Flux and latent diffusion models such as Stable
Diffusion. Quantitative and qualitative experiments show that our method
outperforms prior approaches in terms of multi-panel consistency.