EgoAVU: Comprensión Audio-Visual Egocéntrica

Resumen

La comprensión de videos egocéntricos juega un papel vital para la inteligencia corporeizada. Los modelos lingüísticos grandes multimodales (MLLMs) recientes pueden aceptar entradas tanto visuales como auditivas. Sin embargo, debido al desafío de obtener etiquetas de texto con información conjunta coherente entre modalidades, si los MLLMs pueden comprender conjuntamente ambas modalidades en videos egocéntricos sigue siendo un área poco explorada. Para abordar este problema, presentamos EgoAVU, un motor de datos escalable para generar automáticamente narraciones, preguntas y respuestas audio-visuales egocéntricas. EgoAVU enriquece las narraciones humanas con contexto multimodal y genera narraciones audio-visuales mediante el modelado de correlaciones cruzadas entre modalidades. La filtración de videos basada en *tokens* y una curación modular basada en grafos garantizan tanto la diversidad como la calidad de los datos. Aprovechando EgoAVU, construimos EgoAVU-Instruct, un conjunto de datos de entrenamiento a gran escala de 3M de muestras, y EgoAVU-Bench, una división de evaluación verificada manualmente que cubre diversas tareas. EgoAVU-Bench revela claramente las limitaciones de los MLLMs existentes: presentan un sesgo importante hacia las señales visuales, a menudo descuidando las pistas auditivas o fallando en correlacionar el audio con la fuente visual. El ajuste fino de los MLLMs en EgoAVU-Instruct aborda eficazmente este problema, permitiendo una mejora de rendimiento de hasta el 113% en EgoAVU-Bench. Dichos beneficios también se transfieren a otros puntos de referencia como EgoTempo y EgoIllusion, logrando una ganancia de rendimiento relativa de hasta el 28%. El código será liberado para la comunidad.

English

Understanding egocentric videos plays a vital role for embodied intelligence. Recent multi-modal large language models (MLLMs) can accept both visual and audio inputs. However, due to the challenge of obtaining text labels with coherent joint-modality information, whether MLLMs can jointly understand both modalities in egocentric videos remains under-explored. To address this problem, we introduce EgoAVU, a scalable data engine to automatically generate egocentric audio-visual narrations, questions, and answers. EgoAVU enriches human narrations with multimodal context and generates audio-visual narrations through cross-modal correlation modeling. Token-based video filtering and modular, graph-based curation ensure both data diversity and quality. Leveraging EgoAVU, we construct EgoAVU-Instruct, a large-scale training dataset of 3M samples, and EgoAVU-Bench, a manually verified evaluation split covering diverse tasks. EgoAVU-Bench clearly reveals the limitations of existing MLLMs: they bias heavily toward visual signals, often neglecting audio cues or failing to correspond audio with the visual source. Finetuning MLLMs on EgoAVU-Instruct effectively addresses this issue, enabling up to 113% performance improvement on EgoAVU-Bench. Such benefits also transfer to other benchmarks such as EgoTempo and EgoIllusion, achieving up to 28% relative performance gain. Code will be released to the community.