Social-MAE: Een Transformer-gebaseerde Multimodale Auto-encoder voor Gezicht en Stem
Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice
August 24, 2025
Auteurs: Hugo Bohy, Minh Tran, Kevin El Haddad, Thierry Dutoit, Mohammad Soleymani
cs.AI
Samenvatting
Menselijk sociaal gedrag is van nature multimodaal, wat de ontwikkeling van krachtige audiovisuele modellen voor de waarneming ervan noodzakelijk maakt. In dit artikel presenteren we Social-MAE, onze vooraf getrainde audiovisuele Masked Autoencoder, gebaseerd op een uitgebreide versie van de Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE), die vooraf is getraind op audiovisuele sociale data. Specifiek passen we CAV-MAE aan om een groter aantal frames als invoer te ontvangen en trainen we het vooraf op een grote dataset van menselijke sociale interactie (VoxCeleb2) op een zelfgesuperviseerde manier. We demonstreren de effectiviteit van dit model door het model te finetunen en te evalueren op verschillende sociale en affectieve downstream taken, namelijk emotieherkenning, lachdetectie en schijnbare persoonlijkheidsinschatting. Het model behaalt state-of-the-art resultaten op multimodale emotieherkenning en lachherkenning en competitieve resultaten voor schijnbare persoonlijkheidsinschatting, wat de effectiviteit van domeinspecifieke zelfgesuperviseerde voorafgaande training aantoont. Code en modelgewichten zijn beschikbaar op https://github.com/HuBohy/SocialMAE.
English
Human social behaviors are inherently multimodal necessitating the
development of powerful audiovisual models for their perception. In this paper,
we present Social-MAE, our pre-trained audiovisual Masked Autoencoder based on
an extended version of Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE),
which is pre-trained on audiovisual social data. Specifically, we modify
CAV-MAE to receive a larger number of frames as input and pre-train it on a
large dataset of human social interaction (VoxCeleb2) in a self-supervised
manner. We demonstrate the effectiveness of this model by finetuning and
evaluating the model on different social and affective downstream tasks,
namely, emotion recognition, laughter detection and apparent personality
estimation. The model achieves state-of-the-art results on multimodal emotion
recognition and laughter recognition and competitive results for apparent
personality estimation, demonstrating the effectiveness of in-domain
self-supervised pre-training. Code and model weight are available here
https://github.com/HuBohy/SocialMAE.