InstanceCap: Улучшение генерации текста к видео с помощью осведомленных о примерах структурированных подписей.
InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption
December 12, 2024
Авторы: Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Zhenheng Yang, Chaoyou Fu, Xiang Li, Jian Yang, Ying Tai
cs.AI
Аннотация
Генерация видео по тексту быстро развивается в последние годы, достигая
замечательных результатов. Обычно обучение основано на данных, где видео и подписи сцен сопоставлены, что играет ключевую роль в улучшении производительности генерации. Однако текущие подписи к видео часто страдают от недостаточных деталей, галлюцинаций и неточного изображения движения, что влияет на достоверность и последовательность создаваемых видео. В данной работе мы предлагаем новую структурированную каркасную модель с учетом экземпляров, названную InstanceCap, чтобы впервые достичь описания видео на уровне экземпляра и с мелкой детализацией. Основываясь на этой схеме, мы разрабатываем кластер вспомогательных моделей для преобразования исходного видео в экземпляры для улучшения достоверности экземпляра. Экземпляры видео затем используются для уточнения плотных подсказок в структурированные фразы, достигая кратких, но точных описаний. Кроме того, для обучения создан набор данных InstanceVid на 22 тыс. экземпляров, и предложена улучшенная конвейерная система, адаптированная к структуре InstanceCap, для вывода результатов. Экспериментальные результаты показывают, что наша предложенная модель InstanceCap значительно превосходит предыдущие модели, обеспечивая высокую достоверность между подписями и видео, при этом уменьшая галлюцинации.
English
Text-to-video generation has evolved rapidly in recent years, delivering
remarkable results. Training typically relies on video-caption paired data,
which plays a crucial role in enhancing generation performance. However,
current video captions often suffer from insufficient details, hallucinations
and imprecise motion depiction, affecting the fidelity and consistency of
generated videos. In this work, we propose a novel instance-aware structured
caption framework, termed InstanceCap, to achieve instance-level and
fine-grained video caption for the first time. Based on this scheme, we design
an auxiliary models cluster to convert original video into instances to enhance
instance fidelity. Video instances are further used to refine dense prompts
into structured phrases, achieving concise yet precise descriptions.
Furthermore, a 22K InstanceVid dataset is curated for training, and an
enhancement pipeline that tailored to InstanceCap structure is proposed for
inference. Experimental results demonstrate that our proposed InstanceCap
significantly outperform previous models, ensuring high fidelity between
captions and videos while reducing hallucinations.Summary
AI-Generated Summary