Openstory++: Ein umfangreiches Datenset und Benchmark für instanzbewusstes, offenes visuelles Storytelling.
Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling
August 7, 2024
Autoren: Zilyu Ye, Jinxiu Liu, Ruotian Peng, Jinjin Cao, Zhiyang Chen, Yiyang Zhang, Ziwei Xuan, Mingyuan Zhou, Xiaoqian Shen, Mohamed Elhoseiny, Qi Liu, Guo-Jun Qi
cs.AI
Zusammenfassung
Aktuelle Bildgenerierungsmodelle zeichnen sich durch die Fähigkeit aus, hochwertige Bilder aus kurzen Bildunterschriften zu erstellen. Allerdings scheitern sie daran, die Konsistenz mehrerer Instanzen über Bilder hinweg aufrechtzuerhalten, wenn sie auf umfangreiche Kontexte treffen. Diese Inkonsistenz ist größtenteils auf das Fehlen einer granularen Instanzmerkmalbeschriftung in vorhandenen Trainingsdatensätzen zurückzuführen. Um diese Probleme anzugehen, führen wir Openstory++ ein, einen groß angelegten Datensatz, der zusätzliche instanzbezogene Annotationen mit Bildern und Text kombiniert. Darüber hinaus entwickeln wir eine Schulungsmethodik, die die entitätszentrierte Bild-Text-Generierung betont und sicherstellt, dass die Modelle lernen, visuelle und textuelle Informationen effektiv zu verweben. Speziell optimiert Openstory++ den Prozess der Schlüsselbildextraktion aus Open-Domain-Videos, indem es Vision-Sprach-Modelle einsetzt, um Bildunterschriften zu generieren, die dann von einem großen Sprachmodell für narrative Kontinuität verfeinert werden. Es übertrifft bisherige Datensätze, indem es eine umfassendere Open-Domain-Ressource bietet, die automatisierte Bildunterschriften, hochauflösende Bilder, die auf die Instanzanzahl zugeschnitten sind, und umfangreiche Rahmenfolgen für zeitliche Konsistenz integriert. Darüber hinaus präsentieren wir Cohere-Bench, einen wegweisenden Benchmark-Rahmen zur Bewertung der Bildgenerierungsaufgaben, wenn ein langer multimodaler Kontext bereitgestellt wird, einschließlich der Fähigkeit, den Hintergrund, den Stil und die Instanzen im gegebenen Kontext kohärent zu halten. Im Vergleich zu bestehenden Benchmarks schließt unsere Arbeit kritische Lücken in der multimodalen Generierung und treibt die Entwicklung von Modellen voran, die komplexe Erzählungen in Open-Domain-Umgebungen geschickt generieren und interpretieren können. Experimente innerhalb von Cohere-Bench bestätigen die Überlegenheit von Openstory++ bei der Förderung hochwertiger visueller Erzählmodelle und verbessern deren Fähigkeit, Open-Domain-Generierungsaufgaben anzugehen. Weitere Details finden Sie unter https://openstorypp.github.io/
English
Recent image generation models excel at creating high-quality images from
brief captions. However, they fail to maintain consistency of multiple
instances across images when encountering lengthy contexts. This inconsistency
is largely due to in existing training datasets the absence of granular
instance feature labeling in existing training datasets. To tackle these
issues, we introduce Openstory++, a large-scale dataset combining additional
instance-level annotations with both images and text. Furthermore, we develop a
training methodology that emphasizes entity-centric image-text generation,
ensuring that the models learn to effectively interweave visual and textual
information. Specifically, Openstory++ streamlines the process of keyframe
extraction from open-domain videos, employing vision-language models to
generate captions that are then polished by a large language model for
narrative continuity. It surpasses previous datasets by offering a more
expansive open-domain resource, which incorporates automated captioning,
high-resolution imagery tailored for instance count, and extensive frame
sequences for temporal consistency. Additionally, we present Cohere-Bench, a
pioneering benchmark framework for evaluating the image generation tasks when
long multimodal context is provided, including the ability to keep the
background, style, instances in the given context coherent. Compared to
existing benchmarks, our work fills critical gaps in multi-modal generation,
propelling the development of models that can adeptly generate and interpret
complex narratives in open-domain environments. Experiments conducted within
Cohere-Bench confirm the superiority of Openstory++ in nurturing high-quality
visual storytelling models, enhancing their ability to address open-domain
generation tasks. More details can be found at https://openstorypp.github.io/Summary
AI-Generated Summary