EgoNight: К пониманию эгоцентрического зрения в ночное время с помощью сложного эталонного набора данных
EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark
October 7, 2025
Авторы: Deheng Zhang, Yuqian Fu, Runyi Yang, Yang Miao, Tianwen Qian, Xu Zheng, Guolei Sun, Ajad Chhatkuli, Xuanjing Huang, Yu-Gang Jiang, Luc Van Gool, Danda Pani Paudel
cs.AI
Аннотация
Большинство существующих бенчмарков для понимания эгоцентрического зрения сосредоточены в основном на дневных сценариях, упуская из виду условия низкой освещенности, которые неизбежны в реальных приложениях. Чтобы исследовать этот пробел, мы представляем EgoNight — первый всеобъемлющий бенчмарк для ночного эгоцентрического зрения, где основной задачей является визуальное ответы на вопросы (VQA). Ключевой особенностью EgoNight является введение видео, синхронизированных по дням и ночам, что повышает качество аннотаций для ночных данных с использованием дневных данных и выявляет явные различия в производительности между условиями освещения. Для достижения этого мы собираем как синтетические видео, созданные с помощью Blender, так и записи из реального мира, обеспечивая визуальную и временную синхронизацию сцен и действий. Используя эти парные видео, мы создаем EgoNight-VQA, поддерживаемый новым механизмом автоматической аннотации ночных данных с использованием дневных данных и уточнением через обширную проверку людьми. Каждая пара вопрос-ответ проверяется аннотаторами для обеспечения надежности. В общей сложности EgoNight-VQA содержит 3658 пар вопросов и ответов по 90 видео, охватывающих 12 различных типов вопросов, с более чем 300 часами человеческой работы. Оценки современных мультимодальных больших языковых моделей (MLLMs) показывают значительное снижение производительности при переходе от дневных к ночным условиям, подчеркивая сложности рассуждений в условиях низкой освещенности. Помимо VQA, EgoNight также вводит две вспомогательные задачи: поиск соответствий между днем и ночью и оценку глубины в эгоцентрическом зрении ночью, что дополнительно исследует границы существующих моделей. Мы считаем, что EgoNight-VQA предоставляет прочную основу для продвижения прикладных исследований в области эгоцентрического зрения и для разработки моделей, которые обобщают данные в различных условиях освещения. Все данные и код будут доступны после принятия.
English
Most existing benchmarks for egocentric vision understanding focus primarily
on daytime scenarios, overlooking the low-light conditions that are inevitable
in real-world applications. To investigate this gap, we present EgoNight, the
first comprehensive benchmark for nighttime egocentric vision, with visual
question answering (VQA) as the core task. A key feature of EgoNight is the
introduction of day-night aligned videos, which enhance night annotation
quality using the daytime data and reveal clear performance gaps between
lighting conditions. To achieve this, we collect both synthetic videos rendered
by Blender and real-world recordings, ensuring that scenes and actions are
visually and temporally aligned. Leveraging these paired videos, we construct
EgoNight-VQA, supported by a novel day-augmented night auto-labeling engine and
refinement through extensive human verification. Each QA pair is double-checked
by annotators for reliability. In total, EgoNight-VQA contains 3658 QA pairs
across 90 videos, spanning 12 diverse QA types, with more than 300 hours of
human work. Evaluations of state-of-the-art multimodal large language models
(MLLMs) reveal substantial performance drops when transferring from day to
night, underscoring the challenges of reasoning under low-light conditions.
Beyond VQA, EgoNight also introduces two auxiliary tasks, day-night
correspondence retrieval and egocentric depth estimation at night, that further
explore the boundaries of existing models. We believe EgoNight-VQA provides a
strong foundation for advancing application-driven egocentric vision research
and for developing models that generalize across illumination domains. All the
data and code will be made available upon acceptance.