Openstory++: Un conjunto de datos a gran escala y un punto de referencia para la narración visual de historias en dominios abiertos con conciencia de instancias.
Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling
August 7, 2024
Autores: Zilyu Ye, Jinxiu Liu, Ruotian Peng, Jinjin Cao, Zhiyang Chen, Yiyang Zhang, Ziwei Xuan, Mingyuan Zhou, Xiaoqian Shen, Mohamed Elhoseiny, Qi Liu, Guo-Jun Qi
cs.AI
Resumen
Los modelos recientes de generación de imágenes destacan en la creación de imágenes de alta calidad a partir de breves descripciones. Sin embargo, fallan en mantener la consistencia de múltiples instancias a lo largo de las imágenes al encontrarse con contextos extensos. Esta inconsistencia se debe en gran medida a la ausencia de etiquetado detallado de características de instancia en los conjuntos de datos de entrenamiento existentes. Para abordar estos problemas, presentamos Openstory++, un conjunto de datos a gran escala que combina anotaciones adicionales a nivel de instancia con imágenes y texto. Además, desarrollamos una metodología de entrenamiento que enfatiza la generación de imágenes y texto centrada en entidades, asegurando que los modelos aprendan a entrelazar de manera efectiva la información visual y textual. Específicamente, Openstory++ agiliza el proceso de extracción de fotogramas clave de videos de dominio abierto, empleando modelos de visión y lenguaje para generar descripciones que luego son pulidas por un gran modelo de lenguaje para mantener la continuidad narrativa. Supera a conjuntos de datos anteriores al ofrecer un recurso de dominio abierto más amplio, que incorpora subtitulación automatizada, imágenes de alta resolución adaptadas al recuento de instancias y extensas secuencias de fotogramas para consistencia temporal. Además, presentamos Cohere-Bench, un marco de referencia pionero para evaluar las tareas de generación de imágenes cuando se proporciona un contexto multimodal largo, incluida la capacidad de mantener coherente el fondo, el estilo y las instancias en el contexto dado. En comparación con los marcos de referencia existentes, nuestro trabajo cubre lagunas críticas en la generación multimodal, impulsando el desarrollo de modelos que puedan generar e interpretar con destreza narrativas complejas en entornos de dominio abierto. Experimentos realizados dentro de Cohere-Bench confirman la superioridad de Openstory++ en el fomento de modelos de narración visual de alta calidad, mejorando su capacidad para abordar tareas de generación de dominio abierto. Se pueden encontrar más detalles en https://openstorypp.github.io/
English
Recent image generation models excel at creating high-quality images from
brief captions. However, they fail to maintain consistency of multiple
instances across images when encountering lengthy contexts. This inconsistency
is largely due to in existing training datasets the absence of granular
instance feature labeling in existing training datasets. To tackle these
issues, we introduce Openstory++, a large-scale dataset combining additional
instance-level annotations with both images and text. Furthermore, we develop a
training methodology that emphasizes entity-centric image-text generation,
ensuring that the models learn to effectively interweave visual and textual
information. Specifically, Openstory++ streamlines the process of keyframe
extraction from open-domain videos, employing vision-language models to
generate captions that are then polished by a large language model for
narrative continuity. It surpasses previous datasets by offering a more
expansive open-domain resource, which incorporates automated captioning,
high-resolution imagery tailored for instance count, and extensive frame
sequences for temporal consistency. Additionally, we present Cohere-Bench, a
pioneering benchmark framework for evaluating the image generation tasks when
long multimodal context is provided, including the ability to keep the
background, style, instances in the given context coherent. Compared to
existing benchmarks, our work fills critical gaps in multi-modal generation,
propelling the development of models that can adeptly generate and interpret
complex narratives in open-domain environments. Experiments conducted within
Cohere-Bench confirm the superiority of Openstory++ in nurturing high-quality
visual storytelling models, enhancing their ability to address open-domain
generation tasks. More details can be found at https://openstorypp.github.io/Summary
AI-Generated Summary