ChatPaper.aiChatPaper

Social-MAE: Ein transformerbasierter multimodaler Autoencoder für Gesicht und Stimme

Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice

August 24, 2025
papers.authors: Hugo Bohy, Minh Tran, Kevin El Haddad, Thierry Dutoit, Mohammad Soleymani
cs.AI

papers.abstract

Menschliche Sozialverhalten sind von Natur aus multimodal, was die Entwicklung leistungsstarker audiovisueller Modelle zu ihrer Wahrnehmung erforderlich macht. In diesem Artikel präsentieren wir Social-MAE, unseren vortrainierten audiovisuellen Masked Autoencoder, basierend auf einer erweiterten Version des Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE), der auf audiovisuellen Sozialdaten vortrainiert wurde. Insbesondere modifizieren wir CAV-MAE, um eine größere Anzahl von Frames als Eingabe zu erhalten, und trainieren ihn in einem selbstüberwachten Verfahren auf einem großen Datensatz menschlicher sozialer Interaktionen (VoxCeleb2) vor. Wir demonstrieren die Effektivität dieses Modells, indem wir das Modell auf verschiedenen sozialen und affektiven Downstream-Aufgaben feinabstimmen und evaluieren, nämlich Emotionserkennung, Lachenserkennung und Schätzung der wahrgenommenen Persönlichkeit. Das Modell erzielt state-of-the-art Ergebnisse bei der multimodalen Emotionserkennung und Lachenserkennung sowie wettbewerbsfähige Ergebnisse bei der Schätzung der wahrgenommenen Persönlichkeit, was die Effektivität des domänenspezifischen selbstüberwachten Vortrainings unterstreicht. Code und Modellgewichte sind hier verfügbar: https://github.com/HuBohy/SocialMAE.
English
Human social behaviors are inherently multimodal necessitating the development of powerful audiovisual models for their perception. In this paper, we present Social-MAE, our pre-trained audiovisual Masked Autoencoder based on an extended version of Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE), which is pre-trained on audiovisual social data. Specifically, we modify CAV-MAE to receive a larger number of frames as input and pre-train it on a large dataset of human social interaction (VoxCeleb2) in a self-supervised manner. We demonstrate the effectiveness of this model by finetuning and evaluating the model on different social and affective downstream tasks, namely, emotion recognition, laughter detection and apparent personality estimation. The model achieves state-of-the-art results on multimodal emotion recognition and laughter recognition and competitive results for apparent personality estimation, demonstrating the effectiveness of in-domain self-supervised pre-training. Code and model weight are available here https://github.com/HuBohy/SocialMAE.
PDF12August 29, 2025