Videoinstruktionen optimieren mit synthetischen Daten

papers.abstract

Die Entwicklung großer multimodaler Videomodelle (LMMs) wurde durch die Schwierigkeit, große Mengen hochwertiger Rohdaten aus dem Web zu kuratieren, behindert. Um diesem Problem zu begegnen, schlagen wir einen alternativen Ansatz vor, indem wir einen hochwertigen synthetischen Datensatz speziell für die Anleitungsbefolgung in Videos erstellen, nämlich LLaVA-Video-178K. Dieser Datensatz umfasst Schlüsselaufgaben wie detaillierte Beschriftungen, offene Frage-Antwort (QA) und Multiple-Choice-QA. Durch das Training auf diesem Datensatz in Kombination mit vorhandenen visuellen Anleitungseinstellungsdaten führen wir LLaVA-Video ein, ein neues Video-LMM. Unsere Experimente zeigen, dass LLaVA-Video eine starke Leistung bei verschiedenen Videobenchmarks erzielt und die Wirksamkeit unseres Datensatzes unterstreicht. Wir planen, den Datensatz, seine Generierungspipeline und die Modell-Checkpoints zu veröffentlichen.

English

The development of video large multimodal models (LMMs) has been hindered by the difficulty of curating large amounts of high-quality raw data from the web. To address this, we propose an alternative approach by creating a high-quality synthetic dataset specifically for video instruction-following, namely LLaVA-Video-178K. This dataset includes key tasks such as detailed captioning, open-ended question-answering (QA), and multiple-choice QA. By training on this dataset, in combination with existing visual instruction tuning data, we introduce LLaVA-Video, a new video LMM. Our experiments demonstrate that LLaVA-Video achieves strong performance across various video benchmarks, highlighting the effectiveness of our dataset. We plan to release the dataset, its generation pipeline, and the model checkpoints.

Videoinstruktionen optimieren mit synthetischen Daten

Video Instruction Tuning With Synthetic Data

papers.abstract

Support