ChatPaper.aiChatPaper

Social-MAE: Un Autoencoder Multimodale Basato su Transformer per Volto e Voce

Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice

August 24, 2025
Autori: Hugo Bohy, Minh Tran, Kevin El Haddad, Thierry Dutoit, Mohammad Soleymani
cs.AI

Abstract

I comportamenti sociali umani sono intrinsecamente multimodali, rendendo necessario lo sviluppo di potenti modelli audiovisivi per la loro percezione. In questo articolo, presentiamo Social-MAE, il nostro modello pre-addestrato di tipo Masked Autoencoder audiovisivo basato su una versione estesa del Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE), che viene pre-addestrato su dati audiovisivi di natura sociale. Nello specifico, modifichiamo CAV-MAE per ricevere un numero maggiore di frame come input e lo pre-addestriamo su un ampio dataset di interazioni sociali umane (VoxCeleb2) in modo auto-supervisionato. Dimostriamo l'efficacia di questo modello attraverso il fine-tuning e la valutazione su diversi task sociali e affettivi, ovvero il riconoscimento delle emozioni, la rilevazione delle risate e la stima della personalità apparente. Il modello raggiunge risultati all'avanguardia nel riconoscimento multimodale delle emozioni e nella rilevazione delle risate, oltre a risultati competitivi nella stima della personalità apparente, dimostrando l'efficacia del pre-training auto-supervisionato in dominio. Il codice e i pesi del modello sono disponibili qui https://github.com/HuBohy/SocialMAE.
English
Human social behaviors are inherently multimodal necessitating the development of powerful audiovisual models for their perception. In this paper, we present Social-MAE, our pre-trained audiovisual Masked Autoencoder based on an extended version of Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE), which is pre-trained on audiovisual social data. Specifically, we modify CAV-MAE to receive a larger number of frames as input and pre-train it on a large dataset of human social interaction (VoxCeleb2) in a self-supervised manner. We demonstrate the effectiveness of this model by finetuning and evaluating the model on different social and affective downstream tasks, namely, emotion recognition, laughter detection and apparent personality estimation. The model achieves state-of-the-art results on multimodal emotion recognition and laughter recognition and competitive results for apparent personality estimation, demonstrating the effectiveness of in-domain self-supervised pre-training. Code and model weight are available here https://github.com/HuBohy/SocialMAE.
PDF12August 29, 2025