Openstory++: Um conjunto de dados e referência em larga escala para Narrativa Visual de Domínio Aberto com Consciência de Instância.
Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling
August 7, 2024
Autores: Zilyu Ye, Jinxiu Liu, Ruotian Peng, Jinjin Cao, Zhiyang Chen, Yiyang Zhang, Ziwei Xuan, Mingyuan Zhou, Xiaoqian Shen, Mohamed Elhoseiny, Qi Liu, Guo-Jun Qi
cs.AI
Resumo
Os modelos recentes de geração de imagens se destacam na criação de imagens de alta qualidade a partir de legendas breves. No entanto, falham em manter a consistência de múltiplas instâncias entre imagens ao se depararem com contextos extensos. Essa inconsistência se deve principalmente à ausência de rotulagem detalhada de características de instância nos conjuntos de dados de treinamento existentes. Para lidar com essas questões, apresentamos o Openstory++, um conjunto de dados em grande escala que combina anotações adicionais em nível de instância com imagens e texto. Além disso, desenvolvemos uma metodologia de treinamento que enfatiza a geração de imagens e texto centrada na entidade, garantindo que os modelos aprendam a entrelaçar de forma eficaz informações visuais e textuais. Especificamente, o Openstory++ simplifica o processo de extração de quadros-chave de vídeos de domínio aberto, empregando modelos de visão e linguagem para gerar legendas que são então refinadas por um grande modelo de linguagem para continuidade narrativa. Ele supera conjuntos de dados anteriores ao oferecer um recurso de domínio aberto mais abrangente, que incorpora legendas automatizadas, imagens de alta resolução adaptadas para contagem de instâncias e extensas sequências de quadros para consistência temporal. Além disso, apresentamos o Cohere-Bench, um framework de referência pioneiro para avaliar as tarefas de geração de imagens quando um contexto multimodal longo é fornecido, incluindo a capacidade de manter o plano de fundo, estilo e instâncias no contexto fornecido coerentes. Comparado aos benchmarks existentes, nosso trabalho preenche lacunas críticas na geração multimodal, impulsionando o desenvolvimento de modelos que podem gerar e interpretar adequadamente narrativas complexas em ambientes de domínio aberto. Experimentos realizados dentro do Cohere-Bench confirmam a superioridade do Openstory++ no cultivo de modelos de narrativa visual de alta qualidade, aprimorando sua capacidade de lidar com tarefas de geração de domínio aberto. Mais detalhes podem ser encontrados em https://openstorypp.github.io/
English
Recent image generation models excel at creating high-quality images from
brief captions. However, they fail to maintain consistency of multiple
instances across images when encountering lengthy contexts. This inconsistency
is largely due to in existing training datasets the absence of granular
instance feature labeling in existing training datasets. To tackle these
issues, we introduce Openstory++, a large-scale dataset combining additional
instance-level annotations with both images and text. Furthermore, we develop a
training methodology that emphasizes entity-centric image-text generation,
ensuring that the models learn to effectively interweave visual and textual
information. Specifically, Openstory++ streamlines the process of keyframe
extraction from open-domain videos, employing vision-language models to
generate captions that are then polished by a large language model for
narrative continuity. It surpasses previous datasets by offering a more
expansive open-domain resource, which incorporates automated captioning,
high-resolution imagery tailored for instance count, and extensive frame
sequences for temporal consistency. Additionally, we present Cohere-Bench, a
pioneering benchmark framework for evaluating the image generation tasks when
long multimodal context is provided, including the ability to keep the
background, style, instances in the given context coherent. Compared to
existing benchmarks, our work fills critical gaps in multi-modal generation,
propelling the development of models that can adeptly generate and interpret
complex narratives in open-domain environments. Experiments conducted within
Cohere-Bench confirm the superiority of Openstory++ in nurturing high-quality
visual storytelling models, enhancing their ability to address open-domain
generation tasks. More details can be found at https://openstorypp.github.io/Summary
AI-Generated Summary