Social-MAE: Un Autoencoder Multimodal Basado en Transformers para Rostro y Voz
Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice
August 24, 2025
Autores: Hugo Bohy, Minh Tran, Kevin El Haddad, Thierry Dutoit, Mohammad Soleymani
cs.AI
Resumen
Los comportamientos sociales humanos son inherentemente multimodales, lo que requiere el desarrollo de modelos audiovisuales potentes para su percepción. En este artículo, presentamos Social-MAE, nuestro modelo preentrenado de Autoencoder Enmascarado Audiovisual basado en una versión extendida del Autoencoder Enmascarado Audiovisual Contrastivo (CAV-MAE), el cual se preentrena con datos audiovisuales sociales. Específicamente, modificamos CAV-MAE para que reciba un mayor número de fotogramas como entrada y lo preentrenamos en un gran conjunto de datos de interacción social humana (VoxCeleb2) de manera autosupervisada. Demostramos la efectividad de este modelo mediante el ajuste fino y la evaluación en diferentes tareas sociales y afectivas, concretamente, reconocimiento de emociones, detección de risas y estimación de personalidad aparente. El modelo alcanza resultados de vanguardia en reconocimiento multimodal de emociones y reconocimiento de risas, así como resultados competitivos en la estimación de personalidad aparente, lo que demuestra la efectividad del preentrenamiento autosupervisado en el dominio específico. El código y los pesos del modelo están disponibles aquí: https://github.com/HuBohy/SocialMAE.
English
Human social behaviors are inherently multimodal necessitating the
development of powerful audiovisual models for their perception. In this paper,
we present Social-MAE, our pre-trained audiovisual Masked Autoencoder based on
an extended version of Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE),
which is pre-trained on audiovisual social data. Specifically, we modify
CAV-MAE to receive a larger number of frames as input and pre-train it on a
large dataset of human social interaction (VoxCeleb2) in a self-supervised
manner. We demonstrate the effectiveness of this model by finetuning and
evaluating the model on different social and affective downstream tasks,
namely, emotion recognition, laughter detection and apparent personality
estimation. The model achieves state-of-the-art results on multimodal emotion
recognition and laughter recognition and competitive results for apparent
personality estimation, demonstrating the effectiveness of in-domain
self-supervised pre-training. Code and model weight are available here
https://github.com/HuBohy/SocialMAE.