ChatPaper.aiChatPaper

Openstory++: インスタンス認識型オープンドメイン視覚的ストーリーテリングのための大規模データセットとベンチマーク

Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling

August 7, 2024
著者: Zilyu Ye, Jinxiu Liu, Ruotian Peng, Jinjin Cao, Zhiyang Chen, Yiyang Zhang, Ziwei Xuan, Mingyuan Zhou, Xiaoqian Shen, Mohamed Elhoseiny, Qi Liu, Guo-Jun Qi
cs.AI

要旨

最近の画像生成モデルは、簡潔なキャプションから高品質な画像を作成するのに優れています。しかし、長い文脈に遭遇した場合、複数のインスタンス間の一貫性を維持することができません。この不整合は、既存のトレーニングデータセットに細かいインスタンス特徴のラベル付けが欠如していることが主な原因です。これらの問題に対処するため、我々はOpenstory++を導入しました。これは、追加のインスタンスレベルのアノテーションを画像とテキストの両方に組み合わせた大規模なデータセットです。さらに、エンティティ中心の画像テキスト生成を重視するトレーニング方法論を開発し、モデルが視覚情報とテキスト情報を効果的に織り交ぜることを学習することを保証します。具体的には、Openstory++はオープンドメインのビデオからキーフレームを抽出するプロセスを合理化し、ビジョン言語モデルを使用してキャプションを生成し、その後、大規模言語モデルによって物語の連続性を保つために洗練されます。これは、自動キャプション生成、インスタンス数に合わせた高解像度画像、時間的一貫性のための広範なフレームシーケンスを組み込んだ、より広範なオープンドメインリソースを提供することで、以前のデータセットを凌駕します。さらに、我々はCohere-Benchを提示します。これは、長いマルチモーダルコンテキストが提供された場合の画像生成タスクを評価するための先駆的なベンチマークフレームワークであり、背景、スタイル、指定されたコンテキスト内のインスタンスを一貫して保つ能力を含みます。既存のベンチマークと比較して、我々の研究はマルチモーダル生成における重要なギャップを埋め、オープンドメイン環境で複雑な物語を巧みに生成し解釈できるモデルの開発を推進します。Cohere-Bench内で実施された実験は、Openstory++が高品質なビジュアルストーリーテリングモデルを育成し、オープンドメイン生成タスクに対処する能力を向上させることの優位性を確認しています。詳細はhttps://openstorypp.github.io/をご覧ください。
English
Recent image generation models excel at creating high-quality images from brief captions. However, they fail to maintain consistency of multiple instances across images when encountering lengthy contexts. This inconsistency is largely due to in existing training datasets the absence of granular instance feature labeling in existing training datasets. To tackle these issues, we introduce Openstory++, a large-scale dataset combining additional instance-level annotations with both images and text. Furthermore, we develop a training methodology that emphasizes entity-centric image-text generation, ensuring that the models learn to effectively interweave visual and textual information. Specifically, Openstory++ streamlines the process of keyframe extraction from open-domain videos, employing vision-language models to generate captions that are then polished by a large language model for narrative continuity. It surpasses previous datasets by offering a more expansive open-domain resource, which incorporates automated captioning, high-resolution imagery tailored for instance count, and extensive frame sequences for temporal consistency. Additionally, we present Cohere-Bench, a pioneering benchmark framework for evaluating the image generation tasks when long multimodal context is provided, including the ability to keep the background, style, instances in the given context coherent. Compared to existing benchmarks, our work fills critical gaps in multi-modal generation, propelling the development of models that can adeptly generate and interpret complex narratives in open-domain environments. Experiments conducted within Cohere-Bench confirm the superiority of Openstory++ in nurturing high-quality visual storytelling models, enhancing their ability to address open-domain generation tasks. More details can be found at https://openstorypp.github.io/

Summary

AI-Generated Summary

PDF132November 28, 2024