ChatPaper.aiChatPaper

Social-MAE: Um Autoencoder Multimodal Baseado em Transformers para Rosto e Voz

Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice

August 24, 2025
Autores: Hugo Bohy, Minh Tran, Kevin El Haddad, Thierry Dutoit, Mohammad Soleymani
cs.AI

Resumo

Os comportamentos sociais humanos são inerentemente multimodais, o que exige o desenvolvimento de modelos audiovisuais poderosos para sua percepção. Neste artigo, apresentamos o Social-MAE, nosso Autoencoder Mascarado audiovisual pré-treinado, baseado em uma versão estendida do Autoencoder Mascarado Audiovisual Contrastivo (CAV-MAE), que é pré-treinado em dados audiovisuais sociais. Especificamente, modificamos o CAV-MAE para receber um número maior de quadros como entrada e o pré-treinamos em um grande conjunto de dados de interação social humana (VoxCeleb2) de maneira auto-supervisionada. Demonstramos a eficácia desse modelo ao ajustá-lo e avaliá-lo em diferentes tarefas sociais e afetivas subsequentes, nomeadamente, reconhecimento de emoções, detecção de risos e estimativa de personalidade aparente. O modelo alcança resultados de ponta em reconhecimento multimodal de emoções e reconhecimento de risos, além de resultados competitivos na estimativa de personalidade aparente, demonstrando a eficácia do pré-treinamento auto-supervisionado em domínio específico. O código e os pesos do modelo estão disponíveis aqui https://github.com/HuBohy/SocialMAE.
English
Human social behaviors are inherently multimodal necessitating the development of powerful audiovisual models for their perception. In this paper, we present Social-MAE, our pre-trained audiovisual Masked Autoencoder based on an extended version of Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE), which is pre-trained on audiovisual social data. Specifically, we modify CAV-MAE to receive a larger number of frames as input and pre-train it on a large dataset of human social interaction (VoxCeleb2) in a self-supervised manner. We demonstrate the effectiveness of this model by finetuning and evaluating the model on different social and affective downstream tasks, namely, emotion recognition, laughter detection and apparent personality estimation. The model achieves state-of-the-art results on multimodal emotion recognition and laughter recognition and competitive results for apparent personality estimation, demonstrating the effectiveness of in-domain self-supervised pre-training. Code and model weight are available here https://github.com/HuBohy/SocialMAE.
PDF12August 29, 2025