ChatPaper.aiChatPaper

EgoNight: Naar egocentrisch visueel begrip 's nachts met een uitdagende benchmark

EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark

October 7, 2025
Auteurs: Deheng Zhang, Yuqian Fu, Runyi Yang, Yang Miao, Tianwen Qian, Xu Zheng, Guolei Sun, Ajad Chhatkuli, Xuanjing Huang, Yu-Gang Jiang, Luc Van Gool, Danda Pani Paudel
cs.AI

Samenvatting

De meeste bestaande benchmarks voor egocentrisch visueel begrip richten zich voornamelijk op dagscenario's, waarbij de omstandigheden met weinig licht die onvermijdelijk zijn in real-world toepassingen over het hoofd worden gezien. Om deze kloof te onderzoeken, presenteren we EgoNight, de eerste uitgebreide benchmark voor egocentrisch zicht 's nachts, met visuele vraag-antwoordtaken (VQA) als kernactiviteit. Een belangrijk kenmerk van EgoNight is de introductie van dag-nacht uitgelijnde video's, die de kwaliteit van nachtannotaties verbeteren door gebruik te maken van dagdata en duidelijke prestatieverschillen tussen lichtomstandigheden blootleggen. Om dit te bereiken, verzamelen we zowel synthetische video's gegenereerd door Blender als real-world opnames, waarbij we ervoor zorgen dat scènes en acties visueel en temporeel zijn uitgelijnd. Gebruikmakend van deze gepaarde video's, construeren we EgoNight-VQA, ondersteund door een nieuwe dag-augmented nacht auto-labeling engine en verfijnd door uitgebreide menselijke verificatie. Elk vraag-antwoordpaar wordt dubbel gecontroleerd door annotators voor betrouwbaarheid. In totaal bevat EgoNight-VQA 3658 vraag-antwoordparen verspreid over 90 video's, die 12 diverse vraagtypes beslaan, met meer dan 300 uur menselijk werk. Evaluaties van state-of-the-art multimodale grote taalmodellen (MLLMs) onthullen aanzienlijke prestatieverminderingen bij de overgang van dag naar nacht, wat de uitdagingen van redeneren onder omstandigheden met weinig licht benadrukt. Naast VQA introduceert EgoNight ook twee aanvullende taken, dag-nacht correspondentie retrieval en egocentrische diepteschatting 's nachts, die de grenzen van bestaande modellen verder verkennen. Wij geloven dat EgoNight-VQA een sterke basis biedt voor het bevorderen van toepassingsgericht egocentrisch visueel onderzoek en voor het ontwikkelen van modellen die generaliseren over verlichtingsdomeinen. Alle data en code zullen beschikbaar worden gesteld na acceptatie.
English
Most existing benchmarks for egocentric vision understanding focus primarily on daytime scenarios, overlooking the low-light conditions that are inevitable in real-world applications. To investigate this gap, we present EgoNight, the first comprehensive benchmark for nighttime egocentric vision, with visual question answering (VQA) as the core task. A key feature of EgoNight is the introduction of day-night aligned videos, which enhance night annotation quality using the daytime data and reveal clear performance gaps between lighting conditions. To achieve this, we collect both synthetic videos rendered by Blender and real-world recordings, ensuring that scenes and actions are visually and temporally aligned. Leveraging these paired videos, we construct EgoNight-VQA, supported by a novel day-augmented night auto-labeling engine and refinement through extensive human verification. Each QA pair is double-checked by annotators for reliability. In total, EgoNight-VQA contains 3658 QA pairs across 90 videos, spanning 12 diverse QA types, with more than 300 hours of human work. Evaluations of state-of-the-art multimodal large language models (MLLMs) reveal substantial performance drops when transferring from day to night, underscoring the challenges of reasoning under low-light conditions. Beyond VQA, EgoNight also introduces two auxiliary tasks, day-night correspondence retrieval and egocentric depth estimation at night, that further explore the boundaries of existing models. We believe EgoNight-VQA provides a strong foundation for advancing application-driven egocentric vision research and for developing models that generalize across illumination domains. All the data and code will be made available upon acceptance.
PDF32October 8, 2025