ChatPaper.aiChatPaper

Openstory++: Un Dataset e Benchmark su larga scala per lo Storytelling Visivo Open-domain con Consapevolezza delle Istanze

Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling

August 7, 2024
Autori: Zilyu Ye, Jinxiu Liu, Ruotian Peng, Jinjin Cao, Zhiyang Chen, Yiyang Zhang, Ziwei Xuan, Mingyuan Zhou, Xiaoqian Shen, Mohamed Elhoseiny, Qi Liu, Guo-Jun Qi
cs.AI

Abstract

I recenti modelli di generazione di immagini eccellono nella creazione di immagini di alta qualità a partire da brevi descrizioni. Tuttavia, non riescono a mantenere la coerenza di più istanze tra le immagini quando si confrontano con contesti lunghi. Questa incoerenza è in gran parte dovuta all'assenza, nei dataset di addestramento esistenti, di etichette dettagliate per le caratteristiche delle istanze. Per affrontare questi problemi, introduciamo Openstory++, un dataset su larga scala che combina annotazioni aggiuntive a livello di istanza con immagini e testo. Inoltre, sviluppiamo una metodologia di addestramento che enfatizza la generazione di immagini e testo centrata sulle entità, garantendo che i modelli imparino a intrecciare efficacemente informazioni visive e testuali. Nello specifico, Openstory++ semplifica il processo di estrazione di fotogrammi chiave da video di dominio aperto, impiegando modelli visione-linguaggio per generare descrizioni che vengono poi perfezionate da un modello linguistico di grandi dimensioni per garantire la continuità narrativa. Supera i precedenti dataset offrendo una risorsa di dominio aperto più ampia, che incorpora descrizioni automatiche, immagini ad alta risoluzione ottimizzate per il conteggio delle istanze e ampie sequenze di fotogrammi per la coerenza temporale. Inoltre, presentiamo Cohere-Bench, un framework di benchmark pionieristico per valutare i compiti di generazione di immagini quando viene fornito un contesto multimodale lungo, inclusa la capacità di mantenere coerenti lo sfondo, lo stile e le istanze nel contesto dato. Rispetto ai benchmark esistenti, il nostro lavoro colma lacune critiche nella generazione multimodale, promuovendo lo sviluppo di modelli in grado di generare e interpretare abilmente narrazioni complesse in ambienti di dominio aperto. Gli esperimenti condotti all'interno di Cohere-Bench confermano la superiorità di Openstory++ nel favorire modelli di narrazione visiva di alta qualità, migliorando la loro capacità di affrontare compiti di generazione in dominio aperto. Ulteriori dettagli sono disponibili all'indirizzo https://openstorypp.github.io/.
English
Recent image generation models excel at creating high-quality images from brief captions. However, they fail to maintain consistency of multiple instances across images when encountering lengthy contexts. This inconsistency is largely due to in existing training datasets the absence of granular instance feature labeling in existing training datasets. To tackle these issues, we introduce Openstory++, a large-scale dataset combining additional instance-level annotations with both images and text. Furthermore, we develop a training methodology that emphasizes entity-centric image-text generation, ensuring that the models learn to effectively interweave visual and textual information. Specifically, Openstory++ streamlines the process of keyframe extraction from open-domain videos, employing vision-language models to generate captions that are then polished by a large language model for narrative continuity. It surpasses previous datasets by offering a more expansive open-domain resource, which incorporates automated captioning, high-resolution imagery tailored for instance count, and extensive frame sequences for temporal consistency. Additionally, we present Cohere-Bench, a pioneering benchmark framework for evaluating the image generation tasks when long multimodal context is provided, including the ability to keep the background, style, instances in the given context coherent. Compared to existing benchmarks, our work fills critical gaps in multi-modal generation, propelling the development of models that can adeptly generate and interpret complex narratives in open-domain environments. Experiments conducted within Cohere-Bench confirm the superiority of Openstory++ in nurturing high-quality visual storytelling models, enhancing their ability to address open-domain generation tasks. More details can be found at https://openstorypp.github.io/
PDF132November 28, 2024