ShareGPT4Video: Verbesserung der Videoverständnis und -erzeugung mit besseren UntertitelnShareGPT4Video: Improving Video Understanding and Generation with Better
Captions
Wir präsentieren die ShareGPT4Video-Serie, die darauf abzielt, das Videoverständnis großer Video-Sprachmodelle (LVLMs) und die Videogenerierung von Text-zu-Video-Modellen (T2VMs) durch dichte und präzise Untertitel zu erleichtern. Die Serie umfasst: 1) ShareGPT4Video, 40K GPT4V annotierte dichte Untertitel von Videos mit verschiedenen Längen und Quellen, entwickelt durch sorgfältig gestaltete Datenfilterung und Annotierungsstrategie. 2) ShareCaptioner-Video, ein effizientes und leistungsfähiges Untertitelungsmodell für beliebige Videos, mit 4,8 Millionen hochwertigen ästhetischen Videos, die von ihm annotiert wurden. 3) ShareGPT4Video-8B, ein einfaches, aber hervorragendes LVLM, das eine SOTA-Leistung auf drei fortschrittlichen Videobenchmarks erreicht hat. Um dies zu erreichen, abgesehen von den nicht skalierbaren kostspieligen menschlichen Annotatoren, stellen wir fest, dass die Verwendung von GPT4V zur Untertitelung von Videos mit einer naiven Multi-Frame- oder Frame-Konkatenations-Eingangsstrategie zu weniger detaillierten und manchmal zeitlich verwirrten Ergebnissen führt. Wir argumentieren, dass die Herausforderung bei der Gestaltung einer hochwertigen Video-Untertitelungsstrategie in drei Aspekten liegt: 1) Präzises Verständnis für zeitliche Änderungen zwischen den Frames. 2) Detaillierte Beschreibung des Inhalts innerhalb eines Frames. 3) Skalierbarkeit der Frame-Anzahl für Videos beliebiger Länge. Zu diesem Zweck haben wir eine differenzielle Video-Untertitelungsstrategie sorgfältig entwickelt, die stabil, skalierbar und effizient ist, um Untertitel für Videos mit beliebiger Auflösung, Seitenverhältnissen und Länge zu generieren. Basierend darauf haben wir ShareGPT4Video konstruiert, das 40K hochwertige Videos aus einer Vielzahl von Kategorien enthält, und die resultierenden Untertitel umfassen reichhaltiges Weltwissen, Objekteigenschaften, Kamerabewegungen und vor allem detaillierte und präzise zeitliche Beschreibungen von Ereignissen. Basierend auf ShareGPT4Video haben wir weiterhin ShareCaptioner-Video entwickelt, einen überlegenen Untertiteler, der in der Lage ist, effizient hochwertige Untertitel für beliebige Videos zu generieren...