ChatPaper.aiChatPaper

EgoNight: Auf dem Weg zum egozentrischen Sehverständnis bei Nacht mit einem herausfordernden Benchmark

EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark

October 7, 2025
papers.authors: Deheng Zhang, Yuqian Fu, Runyi Yang, Yang Miao, Tianwen Qian, Xu Zheng, Guolei Sun, Ajad Chhatkuli, Xuanjing Huang, Yu-Gang Jiang, Luc Van Gool, Danda Pani Paudel
cs.AI

papers.abstract

Die meisten bestehenden Benchmarks für das Verständnis der egozentrischen Bildverarbeitung konzentrieren sich hauptsächlich auf Tagesszenarien und übersehen dabei die schwachen Lichtverhältnisse, die in realen Anwendungen unvermeidlich sind. Um diese Lücke zu untersuchen, präsentieren wir EgoNight, den ersten umfassenden Benchmark für die egozentrische Bildverarbeitung bei Nacht, mit der visuellen Frage-Antwort-Aufgabe (VQA) als Kernaufgabe. Ein zentrales Merkmal von EgoNight ist die Einführung von Tag-Nacht-ausgerichteten Videos, die die Qualität der Nachtannotationen mithilfe der Tagesdaten verbessern und deutliche Leistungslücken zwischen den Lichtverhältnissen aufzeigen. Um dies zu erreichen, sammeln wir sowohl synthetische Videos, die mit Blender gerendert wurden, als auch reale Aufnahmen, wobei sichergestellt wird, dass die Szenen und Handlungen visuell und zeitlich ausgerichtet sind. Durch die Nutzung dieser gepaarten Videos konstruieren wir EgoNight-VQA, unterstützt durch eine neuartige, tag-unterstützte Nacht-Auto-Labeling-Engine und verfeinert durch umfangreiche menschliche Überprüfung. Jedes Frage-Antwort-Paar wird von Annotatoren doppelt überprüft, um die Zuverlässigkeit zu gewährleisten. Insgesamt enthält EgoNight-VQA 3658 Frage-Antwort-Paare über 90 Videos hinweg, die 12 verschiedene Frage-Antwort-Typen abdecken, mit mehr als 300 Stunden menschlicher Arbeit. Bewertungen von state-of-the-art multimodalen großen Sprachmodellen (MLLMs) zeigen erhebliche Leistungseinbußen beim Übergang von Tag zu Nacht, was die Herausforderungen des Schlussfolgerns unter schwachen Lichtverhältnissen unterstreicht. Über VQA hinaus führt EgoNight auch zwei zusätzliche Aufgaben ein, die Tag-Nacht-Korrespondenzsuche und die egozentrische Tiefenschätzung bei Nacht, die die Grenzen bestehender Modelle weiter ausloten. Wir glauben, dass EgoNight-VQA eine solide Grundlage für die Weiterentwicklung der anwendungsgetriebenen egozentrischen Bildverarbeitungsforschung und für die Entwicklung von Modellen bietet, die sich über Beleuchtungsdomänen hinweg verallgemeinern lassen. Alle Daten und Codes werden nach der Annahme zur Verfügung gestellt.
English
Most existing benchmarks for egocentric vision understanding focus primarily on daytime scenarios, overlooking the low-light conditions that are inevitable in real-world applications. To investigate this gap, we present EgoNight, the first comprehensive benchmark for nighttime egocentric vision, with visual question answering (VQA) as the core task. A key feature of EgoNight is the introduction of day-night aligned videos, which enhance night annotation quality using the daytime data and reveal clear performance gaps between lighting conditions. To achieve this, we collect both synthetic videos rendered by Blender and real-world recordings, ensuring that scenes and actions are visually and temporally aligned. Leveraging these paired videos, we construct EgoNight-VQA, supported by a novel day-augmented night auto-labeling engine and refinement through extensive human verification. Each QA pair is double-checked by annotators for reliability. In total, EgoNight-VQA contains 3658 QA pairs across 90 videos, spanning 12 diverse QA types, with more than 300 hours of human work. Evaluations of state-of-the-art multimodal large language models (MLLMs) reveal substantial performance drops when transferring from day to night, underscoring the challenges of reasoning under low-light conditions. Beyond VQA, EgoNight also introduces two auxiliary tasks, day-night correspondence retrieval and egocentric depth estimation at night, that further explore the boundaries of existing models. We believe EgoNight-VQA provides a strong foundation for advancing application-driven egocentric vision research and for developing models that generalize across illumination domains. All the data and code will be made available upon acceptance.
PDF32October 8, 2025