Videoinstruktionen optimieren mit synthetischen Daten
Video Instruction Tuning With Synthetic Data
October 3, 2024
Autoren: Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li
cs.AI
Zusammenfassung
Die Entwicklung großer multimodaler Videomodelle (LMMs) wurde durch die Schwierigkeit, große Mengen hochwertiger Rohdaten aus dem Web zu kuratieren, behindert. Um diesem Problem zu begegnen, schlagen wir einen alternativen Ansatz vor, indem wir einen hochwertigen synthetischen Datensatz speziell für die Anleitungsbefolgung in Videos erstellen, nämlich LLaVA-Video-178K. Dieser Datensatz umfasst Schlüsselaufgaben wie detaillierte Beschriftungen, offene Frage-Antwort (QA) und Multiple-Choice-QA. Durch das Training auf diesem Datensatz in Kombination mit vorhandenen visuellen Anleitungseinstellungsdaten führen wir LLaVA-Video ein, ein neues Video-LMM. Unsere Experimente zeigen, dass LLaVA-Video eine starke Leistung bei verschiedenen Videobenchmarks erzielt und die Wirksamkeit unseres Datensatzes unterstreicht. Wir planen, den Datensatz, seine Generierungspipeline und die Modell-Checkpoints zu veröffentlichen.
English
The development of video large multimodal models (LMMs) has been hindered by
the difficulty of curating large amounts of high-quality raw data from the web.
To address this, we propose an alternative approach by creating a high-quality
synthetic dataset specifically for video instruction-following, namely
LLaVA-Video-178K. This dataset includes key tasks such as detailed captioning,
open-ended question-answering (QA), and multiple-choice QA. By training on this
dataset, in combination with existing visual instruction tuning data, we
introduce LLaVA-Video, a new video LMM. Our experiments demonstrate that
LLaVA-Video achieves strong performance across various video benchmarks,
highlighting the effectiveness of our dataset. We plan to release the dataset,
its generation pipeline, and the model checkpoints.Summary
AI-Generated Summary