ChatPaper.aiChatPaper

VidTok: Ein vielseitiger und Open-Source Video-Tokenisierer

VidTok: A Versatile and Open-Source Video Tokenizer

December 17, 2024
Autoren: Anni Tang, Tianyu He, Junliang Guo, Xinle Cheng, Li Song, Jiang Bian
cs.AI

Zusammenfassung

Die Codierung von Videoinhalten in kompakte latente Tokens ist zu einem grundlegenden Schritt in der Videoerzeugung und -verarbeitung geworden, angetrieben durch die Notwendigkeit, die inhärente Redundanz in Pixel-Ebene Darstellungen zu bewältigen. Folglich besteht eine wachsende Nachfrage nach leistungsstarken, Open-Source Video-Tokenizern, da die videobasierte Forschung an Bedeutung gewinnt. Wir stellen VidTok vor, einen vielseitigen Video-Tokenizer, der Spitzenleistungen sowohl bei kontinuierlichen als auch diskreten Tokenisierungen bietet. VidTok integriert mehrere Schlüsselinnovationen gegenüber bestehenden Ansätzen: 1) Modellarchitektur wie Faltungs- und Auf-/Abtastmodule; 2) zur Bewältigung der Trainingsinstabilität und des Codebuch-Kollapses, die häufig mit der konventionellen Vektorquantisierung (VQ) verbunden sind, integrieren wir die Finite Skalarquantisierung (FSQ) in die diskrete Videotokenisierung; 3) verbesserte Trainingsstrategien, einschließlich eines zweistufigen Schulungsprozesses und der Verwendung reduzierter Bildraten. Durch die Integration dieser Innovationen erzielt VidTok signifikante Verbesserungen gegenüber bestehenden Methoden und zeigt eine überlegene Leistung über mehrere Metriken, einschließlich PSNR, SSIM, LPIPS und FVD, unter standardisierten Bewertungseinstellungen.
English
Encoding video content into compact latent tokens has become a fundamental step in video generation and understanding, driven by the need to address the inherent redundancy in pixel-level representations. Consequently, there is a growing demand for high-performance, open-source video tokenizers as video-centric research gains prominence. We introduce VidTok, a versatile video tokenizer that delivers state-of-the-art performance in both continuous and discrete tokenizations. VidTok incorporates several key advancements over existing approaches: 1) model architecture such as convolutional layers and up/downsampling modules; 2) to address the training instability and codebook collapse commonly associated with conventional Vector Quantization (VQ), we integrate Finite Scalar Quantization (FSQ) into discrete video tokenization; 3) improved training strategies, including a two-stage training process and the use of reduced frame rates. By integrating these advancements, VidTok achieves substantial improvements over existing methods, demonstrating superior performance across multiple metrics, including PSNR, SSIM, LPIPS, and FVD, under standardized evaluation settings.

Summary

AI-Generated Summary

PDF82December 19, 2024