EgoAVU : Compréhension audio-visuelle égocentrique

Résumé

La compréhension des vidéos égocentriques joue un rôle essentiel pour l'intelligence incarnée. Les modèles linguistiques multimodaux de grande taille (MLLMs) récents peuvent accepter des entrées visuelles et auditives. Cependant, en raison de la difficulté d'obtenir des annotations textuelles avec des informations conjointes cohérentes entre modalités, la capacité des MLLMs à comprendre conjointement les deux modalités dans les vidéos égocentriques reste peu explorée. Pour résoudre ce problème, nous présentons EgoAVU, un moteur de données évolutif générant automatiquement des narrations, questions et réponses audio-visuelles égocentriques. EgoAVU enrichit les narrations humaines avec un contexte multimodal et génère des narrations audio-visuelles par modélisation de corrélations cross-modales. Un filtrage vidéo par tokens et une curation modulaire basée sur des graphes garantissent à la fois la diversité et la qualité des données. En tirant parti d'EgoAVU, nous construisons EgoAVU-Instruct, un jeu de données d'entraînement à grande échelle de 3 millions d'échantillons, et EgoAVU-Bench, un ensemble d'évaluation vérifié manuellement couvrant diverses tâches. EgoAVU-Bench révèle clairement les limitations des MLLMs existants : ils présentent un biais important vers les signaux visuels, négligeant souvent les indices audio ou échouant à faire correspondre l'audio avec sa source visuelle. Le fine-tuning des MLLMs sur EgoAVU-Instruct résout efficacement ce problème, permettant une amélioration des performances allant jusqu'à 113% sur EgoAVU-Bench. Ces bénéfices se transfèrent également à d'autres benchmarks comme EgoTempo et EgoIllusion, atteignant jusqu'à 28% de gain de performance relatif. Le code sera mis à disposition de la communauté.

English

Understanding egocentric videos plays a vital role for embodied intelligence. Recent multi-modal large language models (MLLMs) can accept both visual and audio inputs. However, due to the challenge of obtaining text labels with coherent joint-modality information, whether MLLMs can jointly understand both modalities in egocentric videos remains under-explored. To address this problem, we introduce EgoAVU, a scalable data engine to automatically generate egocentric audio-visual narrations, questions, and answers. EgoAVU enriches human narrations with multimodal context and generates audio-visual narrations through cross-modal correlation modeling. Token-based video filtering and modular, graph-based curation ensure both data diversity and quality. Leveraging EgoAVU, we construct EgoAVU-Instruct, a large-scale training dataset of 3M samples, and EgoAVU-Bench, a manually verified evaluation split covering diverse tasks. EgoAVU-Bench clearly reveals the limitations of existing MLLMs: they bias heavily toward visual signals, often neglecting audio cues or failing to correspond audio with the visual source. Finetuning MLLMs on EgoAVU-Instruct effectively addresses this issue, enabling up to 113% performance improvement on EgoAVU-Bench. Such benefits also transfer to other benchmarks such as EgoTempo and EgoIllusion, achieving up to 28% relative performance gain. Code will be released to the community.

EgoAVU : Compréhension audio-visuelle égocentrique

EgoAVU: Egocentric Audio-Visual Understanding

Résumé

Support