ChatPaper.aiChatPaper

SpeakerVid-5M: Ein umfangreicher, hochwertiger Datensatz für die audiovisuelle dyadische interaktive Menschgenerierung

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

July 14, 2025
papers.authors: Youliang Zhang, Zhaoyang Li, Duomin Wang, Jiahe Zhang, Deyu Zhou, Zixin Yin, Xili Dai, Gang Yu, Xiu Li
cs.AI

papers.abstract

Die rasante Entwicklung großskaliger Modelle hat bedeutende Durchbrüche im Bereich der digitalen Menschen vorangetrieben. Diese fortschrittlichen Methoden bieten hochauflösende Lösungen für das Antreiben und Rendern von Avataren, was die Forschung dazu veranlasst, sich auf die nächste große Herausforderung zu konzentrieren: den audiovisuellen dyadisch interaktiven virtuellen Menschen. Um die Forschung in diesem aufstrebenden Bereich zu unterstützen, stellen wir das SpeakerVid-5M-Dataset vor, das erste großskalige, hochwertige Dataset, das für die Generierung audiovisueller dyadisch interaktiver virtueller Menschen entwickelt wurde. Mit insgesamt über 8.743 Stunden enthält SpeakerVid-5M mehr als 5,2 Millionen Videoclips von menschlichen Porträts. Es deckt verschiedene Skalen und Interaktionstypen ab, darunter monadisches Sprechen, Zuhören und dyadische Gespräche. Entscheidend ist, dass das Dataset entlang zweier Schlüsseldimensionen strukturiert ist: Interaktionstyp und Datenqualität. Erstens wird es basierend auf dem Interaktionsszenario in vier Typen kategorisiert (Dialogzweig, Einzelzweig, Zuhörzweig und Mehrfachzweig). Zweitens wird es in ein großskaliges Pre-Training-Subset und ein kuratiertes, hochwertiges Subset für Supervised Fine-Tuning (SFT) unterteilt. Diese duale Struktur ermöglicht eine Vielzahl von 2D-Aufgaben für virtuelle Menschen. Zusätzlich bieten wir ein autoregressives (AR)-basiertes Video-Chat-Basismodell, das auf diesen Daten trainiert wurde, begleitet von einem speziellen Satz von Metriken und Testdaten, die als Benchmark VidChatBench für zukünftige Arbeiten dienen sollen. Sowohl das Dataset als auch der entsprechende Datenverarbeitungscode werden öffentlich zugänglich gemacht. Projektseite: https://dorniwang.github.io/SpeakerVid-5M/
English
The rapid development of large-scale models has catalyzed significant breakthroughs in the digital human domain. These advanced methodologies offer high-fidelity solutions for avatar driving and rendering, leading academia to focus on the next major challenge: audio-visual dyadic interactive virtual human. To facilitate research in this emerging area, we present SpeakerVid-5M dataset, the first large-scale, high-quality dataset designed for audio-visual dyadic interactive virtual human generation. Totaling over 8,743 hours, SpeakerVid-5M contains more than 5.2 million video clips of human portraits. It covers diverse scales and interaction types, including monadic talking, listening, and dyadic conversations. Crucially, the dataset is structured along two key dimensions: interaction type and data quality. First, it is categorized into four types (dialogue branch, single branch, listening branch and multi-turn branch) based on the interaction scenario. Second, it is stratified into a large-scale pre-training subset and a curated, high-quality subset for Supervised Fine-Tuning (SFT). This dual structure accommodates a wide array of 2D virtual human tasks. In addition, we provide an autoregressive (AR)-based video chat baseline trained on this data, accompanied by a dedicated set of metrics and test data to serve as a benchmark VidChatBench for future work. Both the dataset and the corresponding data processing code will be publicly released. Project page: https://dorniwang.github.io/SpeakerVid-5M/
PDF433July 15, 2025