ChatPaper.aiChatPaper

EgoNight: Hacia la Comprensión de la Visión Egocéntrica Nocturna con un Benchmark Desafiante

EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark

October 7, 2025
Autores: Deheng Zhang, Yuqian Fu, Runyi Yang, Yang Miao, Tianwen Qian, Xu Zheng, Guolei Sun, Ajad Chhatkuli, Xuanjing Huang, Yu-Gang Jiang, Luc Van Gool, Danda Pani Paudel
cs.AI

Resumen

La mayoría de los puntos de referencia existentes para la comprensión de la visión egocéntrica se centran principalmente en escenarios diurnos, pasando por alto las condiciones de baja iluminación que son inevitables en aplicaciones del mundo real. Para investigar esta brecha, presentamos EgoNight, el primer punto de referencia integral para la visión egocéntrica nocturna, con la respuesta a preguntas visuales (VQA, por sus siglas en inglés) como tarea central. Una característica clave de EgoNight es la introducción de videos alineados día-noche, que mejoran la calidad de las anotaciones nocturnas utilizando los datos diurnos y revelan brechas claras de rendimiento entre las condiciones de iluminación. Para lograrlo, recopilamos tanto videos sintéticos renderizados con Blender como grabaciones del mundo real, asegurando que las escenas y acciones estén visual y temporalmente alineadas. Aprovechando estos videos emparejados, construimos EgoNight-VQA, respaldado por un motor novedoso de etiquetado automático nocturno aumentado con datos diurnos y refinado mediante una extensa verificación humana. Cada par de preguntas y respuestas es revisado dos veces por anotadores para garantizar su fiabilidad. En total, EgoNight-VQA contiene 3658 pares de preguntas y respuestas en 90 videos, abarcando 12 tipos diversos de preguntas, con más de 300 horas de trabajo humano. Las evaluaciones de los modelos de lenguaje multimodal de última generación (MLLMs, por sus siglas en inglés) revelan caídas sustanciales en el rendimiento al transferirse del día a la noche, destacando los desafíos del razonamiento en condiciones de baja iluminación. Más allá de VQA, EgoNight también introduce dos tareas auxiliares: la recuperación de correspondencias día-noche y la estimación de profundidad egocéntrica en la noche, que exploran aún más los límites de los modelos existentes. Creemos que EgoNight-VQA proporciona una base sólida para avanzar en la investigación de la visión egocéntrica impulsada por aplicaciones y para desarrollar modelos que generalicen entre dominios de iluminación. Todos los datos y el código estarán disponibles tras su aceptación.
English
Most existing benchmarks for egocentric vision understanding focus primarily on daytime scenarios, overlooking the low-light conditions that are inevitable in real-world applications. To investigate this gap, we present EgoNight, the first comprehensive benchmark for nighttime egocentric vision, with visual question answering (VQA) as the core task. A key feature of EgoNight is the introduction of day-night aligned videos, which enhance night annotation quality using the daytime data and reveal clear performance gaps between lighting conditions. To achieve this, we collect both synthetic videos rendered by Blender and real-world recordings, ensuring that scenes and actions are visually and temporally aligned. Leveraging these paired videos, we construct EgoNight-VQA, supported by a novel day-augmented night auto-labeling engine and refinement through extensive human verification. Each QA pair is double-checked by annotators for reliability. In total, EgoNight-VQA contains 3658 QA pairs across 90 videos, spanning 12 diverse QA types, with more than 300 hours of human work. Evaluations of state-of-the-art multimodal large language models (MLLMs) reveal substantial performance drops when transferring from day to night, underscoring the challenges of reasoning under low-light conditions. Beyond VQA, EgoNight also introduces two auxiliary tasks, day-night correspondence retrieval and egocentric depth estimation at night, that further explore the boundaries of existing models. We believe EgoNight-VQA provides a strong foundation for advancing application-driven egocentric vision research and for developing models that generalize across illumination domains. All the data and code will be made available upon acceptance.
PDF32October 8, 2025