Openstory++: Большой набор данных и бенчмарк для инстанс-осведомленного открытого визуального повествования.
Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling
August 7, 2024
Авторы: Zilyu Ye, Jinxiu Liu, Ruotian Peng, Jinjin Cao, Zhiyang Chen, Yiyang Zhang, Ziwei Xuan, Mingyuan Zhou, Xiaoqian Shen, Mohamed Elhoseiny, Qi Liu, Guo-Jun Qi
cs.AI
Аннотация
Современные модели генерации изображений отличаются в создании качественных изображений по кратким описаниям. Однако они не способны сохранить согласованность множественных экземпляров на изображениях при обработке длинных контекстов. Эта несогласованность в значительной степени обусловлена отсутствием детализированной разметки характеристик экземпляров в существующих обучающих наборах данных. Для решения этих проблем мы представляем Openstory++, крупномасштабный набор данных, объединяющий дополнительные аннотации на уровне экземпляров с изображениями и текстом. Более того, мы разрабатываем методику обучения, которая акцентирует генерацию изображений и текста, сосредотачиваясь на сущностях, что гарантирует, что модели научатся эффективно переплетать визуальную и текстовую информацию. Конкретно, Openstory++ упрощает процесс извлечения ключевых кадров из видеороликов общего доступа, используя модели видео-языка для генерации подписей, которые затем улучшаются большой языковой моделью для сохранения повествовательной целостности. Он превосходит предыдущие наборы данных, предлагая более обширный ресурс общего доступа, который включает автоматическое создание подписей, изображения высокого разрешения, адаптированные для количества экземпляров, и обширные последовательности кадров для временной согласованности. Кроме того, мы представляем Cohere-Bench, новаторскую бенчмарк-платформу для оценки задач генерации изображений при предоставлении длинного мультимодального контекста, включая способность сохранять фон, стиль, экземпляры в данном контексте согласованными. По сравнению с существующими бенчмарками, наша работа заполняет критические пробелы в мультимодальной генерации, способствуя развитию моделей, способных ловко генерировать и интерпретировать сложные повествования в средах общего доступа. Эксперименты, проведенные в рамках Cohere-Bench, подтверждают превосходство Openstory++ в развитии моделей высококачественного визуального повествования, улучшая их способность решать задачи генерации в средах общего доступа. Более подробную информацию можно найти на https://openstorypp.github.io/
English
Recent image generation models excel at creating high-quality images from
brief captions. However, they fail to maintain consistency of multiple
instances across images when encountering lengthy contexts. This inconsistency
is largely due to in existing training datasets the absence of granular
instance feature labeling in existing training datasets. To tackle these
issues, we introduce Openstory++, a large-scale dataset combining additional
instance-level annotations with both images and text. Furthermore, we develop a
training methodology that emphasizes entity-centric image-text generation,
ensuring that the models learn to effectively interweave visual and textual
information. Specifically, Openstory++ streamlines the process of keyframe
extraction from open-domain videos, employing vision-language models to
generate captions that are then polished by a large language model for
narrative continuity. It surpasses previous datasets by offering a more
expansive open-domain resource, which incorporates automated captioning,
high-resolution imagery tailored for instance count, and extensive frame
sequences for temporal consistency. Additionally, we present Cohere-Bench, a
pioneering benchmark framework for evaluating the image generation tasks when
long multimodal context is provided, including the ability to keep the
background, style, instances in the given context coherent. Compared to
existing benchmarks, our work fills critical gaps in multi-modal generation,
propelling the development of models that can adeptly generate and interpret
complex narratives in open-domain environments. Experiments conducted within
Cohere-Bench confirm the superiority of Openstory++ in nurturing high-quality
visual storytelling models, enhancing their ability to address open-domain
generation tasks. More details can be found at https://openstorypp.github.io/Summary
AI-Generated Summary