Openstory++: Een grootschalige dataset en benchmark voor instance-aware open-domein visuele verhalenvertelling
Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling
August 7, 2024
Auteurs: Zilyu Ye, Jinxiu Liu, Ruotian Peng, Jinjin Cao, Zhiyang Chen, Yiyang Zhang, Ziwei Xuan, Mingyuan Zhou, Xiaoqian Shen, Mohamed Elhoseiny, Qi Liu, Guo-Jun Qi
cs.AI
Samenvatting
Recente modellen voor beeldgeneratie blinken uit in het creëren van hoogwaardige afbeeldingen op basis van korte beschrijvingen. Ze slagen er echter niet in om consistentie van meerdere instanties over afbeeldingen heen te behouden bij het verwerken van uitgebreide contexten. Deze inconsistentie is grotendeels te wijten aan het ontbreken van gedetailleerde labeling van instantiekenmerken in bestaande trainingsdatasets. Om deze problemen aan te pakken, introduceren we Openstory++, een grootschalige dataset die aanvullende annotaties op instantieniveau combineert met zowel afbeeldingen als tekst. Bovendien ontwikkelen we een trainingsmethodologie die zich richt op entiteitsgerichte beeld-tekstgeneratie, waardoor modellen leren om visuele en tekstuele informatie effectief te verweven. Specifiek vereenvoudigt Openstory++ het proces van sleutelframe-extractie uit open-domeinvideo's, waarbij vision-language-modellen worden ingezet om bijschriften te genereren die vervolgens worden verfijnd door een groot taalmodel voor narratieve continuïteit. Het overtreft eerdere datasets door een uitgebreidere open-domeinbron te bieden, die geautomatiseerde bijschrijving, hoogwaardige afbeeldingen afgestemd op instantieaantallen, en uitgebreide framereeksen voor temporele consistentie omvat. Daarnaast presenteren we Cohere-Bench, een baanbrekend benchmarkframework voor het evalueren van beeldgeneratietaken wanneer lange multimodale context wordt geboden, inclusief het vermogen om de achtergrond, stijl en instanties in de gegeven context coherent te houden. In vergelijking met bestaande benchmarks vult ons werk cruciale lacunes in multimodale generatie op, waardoor de ontwikkeling van modellen wordt bevorderd die complexe verhalen in open-domeinomgevingen vaardig kunnen genereren en interpreteren. Experimenten uitgevoerd binnen Cohere-Bench bevestigen de superioriteit van Openstory++ in het ontwikkelen van hoogwaardige visuele verhalende modellen, waardoor hun vermogen om open-domeingeneratietaken aan te pakken wordt verbeterd. Meer details zijn te vinden op https://openstorypp.github.io/.
English
Recent image generation models excel at creating high-quality images from
brief captions. However, they fail to maintain consistency of multiple
instances across images when encountering lengthy contexts. This inconsistency
is largely due to in existing training datasets the absence of granular
instance feature labeling in existing training datasets. To tackle these
issues, we introduce Openstory++, a large-scale dataset combining additional
instance-level annotations with both images and text. Furthermore, we develop a
training methodology that emphasizes entity-centric image-text generation,
ensuring that the models learn to effectively interweave visual and textual
information. Specifically, Openstory++ streamlines the process of keyframe
extraction from open-domain videos, employing vision-language models to
generate captions that are then polished by a large language model for
narrative continuity. It surpasses previous datasets by offering a more
expansive open-domain resource, which incorporates automated captioning,
high-resolution imagery tailored for instance count, and extensive frame
sequences for temporal consistency. Additionally, we present Cohere-Bench, a
pioneering benchmark framework for evaluating the image generation tasks when
long multimodal context is provided, including the ability to keep the
background, style, instances in the given context coherent. Compared to
existing benchmarks, our work fills critical gaps in multi-modal generation,
propelling the development of models that can adeptly generate and interpret
complex narratives in open-domain environments. Experiments conducted within
Cohere-Bench confirm the superiority of Openstory++ in nurturing high-quality
visual storytelling models, enhancing their ability to address open-domain
generation tasks. More details can be found at https://openstorypp.github.io/