EgoNight: Rumo à Compreensão da Visão Egocêntrica Noturna com um Benchmark Desafiador
EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark
October 7, 2025
Autores: Deheng Zhang, Yuqian Fu, Runyi Yang, Yang Miao, Tianwen Qian, Xu Zheng, Guolei Sun, Ajad Chhatkuli, Xuanjing Huang, Yu-Gang Jiang, Luc Van Gool, Danda Pani Paudel
cs.AI
Resumo
A maioria dos benchmarks existentes para compreensão de visão egocêntrica concentra-se principalmente em cenários diurnos, negligenciando as condições de baixa luminosidade que são inevitáveis em aplicações do mundo real. Para investigar essa lacuna, apresentamos o EgoNight, o primeiro benchmark abrangente para visão egocêntrica noturna, com a tarefa central de resposta a perguntas visuais (VQA). Uma característica fundamental do EgoNight é a introdução de vídeos alinhados dia-noite, que melhoram a qualidade das anotações noturnas utilizando os dados diurnos e revelam claras lacunas de desempenho entre as condições de iluminação. Para alcançar isso, coletamos tanto vídeos sintéticos renderizados pelo Blender quanto gravações do mundo real, garantindo que as cenas e ações estejam visual e temporalmente alinhadas. Aproveitando esses vídeos emparelhados, construímos o EgoNight-VQA, apoiado por um novo mecanismo de rotulagem automática noturna aumentada por dados diurnos e refinado por meio de extensa verificação humana. Cada par de perguntas e respostas é verificado duas vezes por anotadores para garantir confiabilidade. No total, o EgoNight-VQA contém 3658 pares de perguntas e respostas em 90 vídeos, abrangendo 12 tipos diversos de perguntas, com mais de 300 horas de trabalho humano. Avaliações de modelos de linguagem multimodal de última geração (MLLMs) revelam quedas substanciais de desempenho ao transferir do dia para a noite, destacando os desafios de raciocínio em condições de baixa luminosidade. Além do VQA, o EgoNight também introduz duas tarefas auxiliares, recuperação de correspondência dia-noite e estimativa de profundidade egocêntrica à noite, que exploram ainda mais os limites dos modelos existentes. Acreditamos que o EgoNight-VQA fornece uma base sólida para avançar a pesquisa em visão egocêntrica orientada por aplicações e para desenvolver modelos que generalizem entre domínios de iluminação. Todos os dados e códigos serão disponibilizados após a aceitação.
English
Most existing benchmarks for egocentric vision understanding focus primarily
on daytime scenarios, overlooking the low-light conditions that are inevitable
in real-world applications. To investigate this gap, we present EgoNight, the
first comprehensive benchmark for nighttime egocentric vision, with visual
question answering (VQA) as the core task. A key feature of EgoNight is the
introduction of day-night aligned videos, which enhance night annotation
quality using the daytime data and reveal clear performance gaps between
lighting conditions. To achieve this, we collect both synthetic videos rendered
by Blender and real-world recordings, ensuring that scenes and actions are
visually and temporally aligned. Leveraging these paired videos, we construct
EgoNight-VQA, supported by a novel day-augmented night auto-labeling engine and
refinement through extensive human verification. Each QA pair is double-checked
by annotators for reliability. In total, EgoNight-VQA contains 3658 QA pairs
across 90 videos, spanning 12 diverse QA types, with more than 300 hours of
human work. Evaluations of state-of-the-art multimodal large language models
(MLLMs) reveal substantial performance drops when transferring from day to
night, underscoring the challenges of reasoning under low-light conditions.
Beyond VQA, EgoNight also introduces two auxiliary tasks, day-night
correspondence retrieval and egocentric depth estimation at night, that further
explore the boundaries of existing models. We believe EgoNight-VQA provides a
strong foundation for advancing application-driven egocentric vision research
and for developing models that generalize across illumination domains. All the
data and code will be made available upon acceptance.