ChatPaper.aiChatPaper

Openstory++: 대규모 데이터셋 및 인스턴스 인식을 위한 벤치마크를 위한 오픈도메인 시각적 스토리텔링

Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling

August 7, 2024
저자: Zilyu Ye, Jinxiu Liu, Ruotian Peng, Jinjin Cao, Zhiyang Chen, Yiyang Zhang, Ziwei Xuan, Mingyuan Zhou, Xiaoqian Shen, Mohamed Elhoseiny, Qi Liu, Guo-Jun Qi
cs.AI

초록

최근 이미지 생성 모델은 간단한 캡션으로부터 고품질 이미지를 생성하는 데 뛰어납니다. 그러나 긴 맥락을 다룰 때 여러 인스턴스 간 일관성을 유지하는 데 실패합니다. 이 불일치는 기존의 훈련 데이터셋에서 세부 인스턴스 특성 레이블링이 부족하기 때문입니다. 이러한 문제를 해결하기 위해 우리는 Openstory++를 소개합니다. 이는 이미지와 텍스트에 추가적인 인스턴스 수준 주석을 결합한 대규모 데이터셋입니다. 더 나아가, 우리는 엔티티 중심의 이미지-텍스트 생성을 강조하는 훈련 방법론을 개발했습니다. 이를 통해 모델이 시각적 및 텍스트 정보를 효과적으로 얽히도록 학습하도록 보장합니다. 구체적으로, Openstory++는 오픈 도메인 비디오에서 키프레임 추출 과정을 간소화하고, 시각-언어 모델을 활용하여 캡션을 생성한 후 이를 서술적 일관성을 위해 대규모 언어 모델에 의해 정제합니다. 이는 자동 캡션 생성, 인스턴스 수에 맞게 조정된 고해상도 이미지, 시간적 일관성을 위한 포괄적인 프레임 시퀀스를 통합한 보다 포괄적인 오픈 도메인 자원을 제공하여 이전 데이터셋을 능가합니다. 더불어, 우리는 긴 다중 모달 맥락이 제공될 때 이미지 생성 작업을 평가하기 위한 혁신적인 벤치마크 프레임워크인 Cohere-Bench를 제시합니다. 이는 배경, 스타일, 주어진 맥락의 인스턴스를 일관되게 유지하는 능력을 포함합니다. 기존의 벤치마크와 비교하여, 우리의 연구는 다중 모달 생성에서 중요한 간극을 메우며, 오픈 도메인 환경에서 복잡한 서술을 능숙하게 생성하고 해석할 수 있는 모델의 발전을 촉진합니다. Cohere-Bench 내에서 수행된 실험은 Openstory++의 우수성을 확인하며 고품질 시각적 서술 모델을 육성하고 오픈 도메인 생성 작업에 대응하는 능력을 향상시킵니다. 더 많은 세부 정보는 https://openstorypp.github.io/에서 확인할 수 있습니다.
English
Recent image generation models excel at creating high-quality images from brief captions. However, they fail to maintain consistency of multiple instances across images when encountering lengthy contexts. This inconsistency is largely due to in existing training datasets the absence of granular instance feature labeling in existing training datasets. To tackle these issues, we introduce Openstory++, a large-scale dataset combining additional instance-level annotations with both images and text. Furthermore, we develop a training methodology that emphasizes entity-centric image-text generation, ensuring that the models learn to effectively interweave visual and textual information. Specifically, Openstory++ streamlines the process of keyframe extraction from open-domain videos, employing vision-language models to generate captions that are then polished by a large language model for narrative continuity. It surpasses previous datasets by offering a more expansive open-domain resource, which incorporates automated captioning, high-resolution imagery tailored for instance count, and extensive frame sequences for temporal consistency. Additionally, we present Cohere-Bench, a pioneering benchmark framework for evaluating the image generation tasks when long multimodal context is provided, including the ability to keep the background, style, instances in the given context coherent. Compared to existing benchmarks, our work fills critical gaps in multi-modal generation, propelling the development of models that can adeptly generate and interpret complex narratives in open-domain environments. Experiments conducted within Cohere-Bench confirm the superiority of Openstory++ in nurturing high-quality visual storytelling models, enhancing their ability to address open-domain generation tasks. More details can be found at https://openstorypp.github.io/

Summary

AI-Generated Summary

PDF132November 28, 2024