ChatPaper.aiChatPaper

Openstory++ : Un ensemble de données à grande échelle et un benchmark pour la narration visuelle ouverte basée sur les instances

Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling

August 7, 2024
Auteurs: Zilyu Ye, Jinxiu Liu, Ruotian Peng, Jinjin Cao, Zhiyang Chen, Yiyang Zhang, Ziwei Xuan, Mingyuan Zhou, Xiaoqian Shen, Mohamed Elhoseiny, Qi Liu, Guo-Jun Qi
cs.AI

Résumé

Les modèles récents de génération d'images excellent dans la création d'images de haute qualité à partir de brèves descriptions. Cependant, ils échouent à maintenir la cohérence de multiples instances à travers les images lorsqu'ils sont confrontés à des contextes étendus. Cette incohérence est largement due à l'absence, dans les ensembles de données d'entraînement existants, d'étiquetage granulaire des caractéristiques des instances. Pour résoudre ces problèmes, nous introduisons Openstory++, un ensemble de données à grande échelle combinant des annotations supplémentaires au niveau des instances avec des images et du texte. De plus, nous développons une méthodologie d'entraînement qui met l'accent sur la génération d'images-textes centrée sur les entités, garantissant que les modèles apprennent à tisser efficacement des informations visuelles et textuelles. Plus précisément, Openstory++ simplifie le processus d'extraction de keyframes à partir de vidéos en domaine ouvert, en utilisant des modèles vision-langage pour générer des descriptions qui sont ensuite polies par un grand modèle de langage pour assurer la continuité narrative. Il surpasse les ensembles de données précédents en offrant une ressource en domaine ouvert plus vaste, qui intègre un sous-titrage automatisé, des images haute résolution adaptées au décompte des instances, et des séquences de frames étendues pour la cohérence temporelle. Par ailleurs, nous présentons Cohere-Bench, un cadre de référence pionnier pour évaluer les tâches de génération d'images lorsque un contexte multimodal long est fourni, y compris la capacité à maintenir cohérents l'arrière-plan, le style et les instances dans le contexte donné. Comparé aux benchmarks existants, notre travail comble des lacunes critiques dans la génération multimodale, propulsant le développement de modèles capables de générer et d'interpréter habilement des récits complexes dans des environnements en domaine ouvert. Les expériences menées dans Cohere-Bench confirment la supériorité d'Openstory++ dans le développement de modèles de narration visuelle de haute qualité, améliorant leur capacité à traiter des tâches de génération en domaine ouvert. Plus de détails sont disponibles sur https://openstorypp.github.io/
English
Recent image generation models excel at creating high-quality images from brief captions. However, they fail to maintain consistency of multiple instances across images when encountering lengthy contexts. This inconsistency is largely due to in existing training datasets the absence of granular instance feature labeling in existing training datasets. To tackle these issues, we introduce Openstory++, a large-scale dataset combining additional instance-level annotations with both images and text. Furthermore, we develop a training methodology that emphasizes entity-centric image-text generation, ensuring that the models learn to effectively interweave visual and textual information. Specifically, Openstory++ streamlines the process of keyframe extraction from open-domain videos, employing vision-language models to generate captions that are then polished by a large language model for narrative continuity. It surpasses previous datasets by offering a more expansive open-domain resource, which incorporates automated captioning, high-resolution imagery tailored for instance count, and extensive frame sequences for temporal consistency. Additionally, we present Cohere-Bench, a pioneering benchmark framework for evaluating the image generation tasks when long multimodal context is provided, including the ability to keep the background, style, instances in the given context coherent. Compared to existing benchmarks, our work fills critical gaps in multi-modal generation, propelling the development of models that can adeptly generate and interpret complex narratives in open-domain environments. Experiments conducted within Cohere-Bench confirm the superiority of Openstory++ in nurturing high-quality visual storytelling models, enhancing their ability to address open-domain generation tasks. More details can be found at https://openstorypp.github.io/

Summary

AI-Generated Summary

PDF132November 28, 2024