ChatPaper.aiChatPaper

Social-MAE: Трансформерный мультимодальный автокодировщик для анализа лица и голоса

Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice

August 24, 2025
Авторы: Hugo Bohy, Minh Tran, Kevin El Haddad, Thierry Dutoit, Mohammad Soleymani
cs.AI

Аннотация

Социальное поведение человека по своей природе является мультимодальным, что требует разработки мощных аудиовизуальных моделей для его восприятия. В данной статье мы представляем Social-MAE, нашу предварительно обученную аудиовизуальную модель Masked Autoencoder, основанную на расширенной версии Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE), которая предварительно обучается на аудиовизуальных социальных данных. В частности, мы модифицируем CAV-MAE для обработки большего количества кадров в качестве входных данных и предварительно обучаем её на большом наборе данных о социальном взаимодействии людей (VoxCeleb2) в самообучаемом режиме. Мы демонстрируем эффективность этой модели путем дообучения и оценки на различных социальных и аффективных задачах, а именно: распознавание эмоций, обнаружение смеха и оценка видимой личности. Модель достигает современных результатов в мультимодальном распознавании эмоций и распознавании смеха, а также конкурентоспособных результатов в оценке видимой личности, что подтверждает эффективность предварительного обучения в предметной области с использованием самообучения. Код и веса модели доступны по ссылке: https://github.com/HuBohy/SocialMAE.
English
Human social behaviors are inherently multimodal necessitating the development of powerful audiovisual models for their perception. In this paper, we present Social-MAE, our pre-trained audiovisual Masked Autoencoder based on an extended version of Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE), which is pre-trained on audiovisual social data. Specifically, we modify CAV-MAE to receive a larger number of frames as input and pre-train it on a large dataset of human social interaction (VoxCeleb2) in a self-supervised manner. We demonstrate the effectiveness of this model by finetuning and evaluating the model on different social and affective downstream tasks, namely, emotion recognition, laughter detection and apparent personality estimation. The model achieves state-of-the-art results on multimodal emotion recognition and laughter recognition and competitive results for apparent personality estimation, demonstrating the effectiveness of in-domain self-supervised pre-training. Code and model weight are available here https://github.com/HuBohy/SocialMAE.
PDF12August 29, 2025