ChatPaper.aiChatPaper

Social-MAE : Un autoencodeur multimodal basé sur des transformateurs pour le visage et la voix

Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice

August 24, 2025
papers.authors: Hugo Bohy, Minh Tran, Kevin El Haddad, Thierry Dutoit, Mohammad Soleymani
cs.AI

papers.abstract

Les comportements sociaux humains sont intrinsèquement multimodaux, ce qui nécessite le développement de modèles audiovisuels puissants pour leur perception. Dans cet article, nous présentons Social-MAE, notre autoencodeur masqué audiovisuel pré-entraîné basé sur une version étendue du Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE), qui est pré-entraîné sur des données audiovisuelles sociales. Plus précisément, nous modifions CAV-MAE pour qu'il reçoive un plus grand nombre d'images en entrée et nous le pré-entraînons sur un vaste ensemble de données d'interactions sociales humaines (VoxCeleb2) de manière auto-supervisée. Nous démontrons l'efficacité de ce modèle en l'affinant et en l'évaluant sur différentes tâches sociales et affectives en aval, à savoir la reconnaissance des émotions, la détection des rires et l'estimation de la personnalité apparente. Le modèle obtient des résultats de pointe en reconnaissance multimodale des émotions et en reconnaissance des rires, ainsi que des résultats compétitifs pour l'estimation de la personnalité apparente, démontrant ainsi l'efficacité d'un pré-entraînement auto-supervisé dans le domaine. Le code et les poids du modèle sont disponibles ici : https://github.com/HuBohy/SocialMAE.
English
Human social behaviors are inherently multimodal necessitating the development of powerful audiovisual models for their perception. In this paper, we present Social-MAE, our pre-trained audiovisual Masked Autoencoder based on an extended version of Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE), which is pre-trained on audiovisual social data. Specifically, we modify CAV-MAE to receive a larger number of frames as input and pre-train it on a large dataset of human social interaction (VoxCeleb2) in a self-supervised manner. We demonstrate the effectiveness of this model by finetuning and evaluating the model on different social and affective downstream tasks, namely, emotion recognition, laughter detection and apparent personality estimation. The model achieves state-of-the-art results on multimodal emotion recognition and laughter recognition and competitive results for apparent personality estimation, demonstrating the effectiveness of in-domain self-supervised pre-training. Code and model weight are available here https://github.com/HuBohy/SocialMAE.
PDF12August 29, 2025