ChatPaper.aiChatPaper

EgoNight : Vers une compréhension de la vision égocentrique de nuit avec un benchmark exigeant

EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark

October 7, 2025
papers.authors: Deheng Zhang, Yuqian Fu, Runyi Yang, Yang Miao, Tianwen Qian, Xu Zheng, Guolei Sun, Ajad Chhatkuli, Xuanjing Huang, Yu-Gang Jiang, Luc Van Gool, Danda Pani Paudel
cs.AI

papers.abstract

La plupart des benchmarks existants pour la compréhension de la vision égocentrique se concentrent principalement sur des scénarios diurnes, négligeant les conditions de faible luminosité qui sont inévitables dans les applications réelles. Pour explorer cette lacune, nous présentons EgoNight, le premier benchmark complet pour la vision égocentrique nocturne, avec la réponse à des questions visuelles (VQA) comme tâche centrale. Une caractéristique clé d'EgoNight est l'introduction de vidéos alignées jour-nuit, qui améliorent la qualité des annotations nocturnes en utilisant les données diurnes et révèlent des écarts de performance clairs entre les conditions d'éclairage. Pour y parvenir, nous collectons à la fois des vidéos synthétiques rendues par Blender et des enregistrements du monde réel, en veillant à ce que les scènes et les actions soient visuellement et temporellement alignées. En exploitant ces vidéos appariées, nous construisons EgoNight-VQA, soutenu par un moteur d'auto-étiquetage nocturne augmenté par les données diurnes et affiné par une vérification humaine approfondie. Chaque paire question-réponse est vérifiée en double par des annotateurs pour garantir sa fiabilité. Au total, EgoNight-VQA contient 3658 paires question-réponse réparties sur 90 vidéos, couvrant 12 types de questions variés, avec plus de 300 heures de travail humain. Les évaluations des modèles de langage multimodaux de pointe (MLLMs) révèlent des baisses de performance substantielles lors du passage du jour à la nuit, soulignant les défis du raisonnement dans des conditions de faible luminosité. Au-delà de la VQA, EgoNight introduit également deux tâches auxiliaires, la recherche de correspondance jour-nuit et l'estimation de la profondeur égocentrique la nuit, qui explorent davantage les limites des modèles existants. Nous croyons qu'EgoNight-VQA fournit une base solide pour faire progresser la recherche en vision égocentrique axée sur les applications et pour développer des modèles qui généralisent à travers les domaines d'éclairage. Toutes les données et le code seront rendus disponibles après acceptation.
English
Most existing benchmarks for egocentric vision understanding focus primarily on daytime scenarios, overlooking the low-light conditions that are inevitable in real-world applications. To investigate this gap, we present EgoNight, the first comprehensive benchmark for nighttime egocentric vision, with visual question answering (VQA) as the core task. A key feature of EgoNight is the introduction of day-night aligned videos, which enhance night annotation quality using the daytime data and reveal clear performance gaps between lighting conditions. To achieve this, we collect both synthetic videos rendered by Blender and real-world recordings, ensuring that scenes and actions are visually and temporally aligned. Leveraging these paired videos, we construct EgoNight-VQA, supported by a novel day-augmented night auto-labeling engine and refinement through extensive human verification. Each QA pair is double-checked by annotators for reliability. In total, EgoNight-VQA contains 3658 QA pairs across 90 videos, spanning 12 diverse QA types, with more than 300 hours of human work. Evaluations of state-of-the-art multimodal large language models (MLLMs) reveal substantial performance drops when transferring from day to night, underscoring the challenges of reasoning under low-light conditions. Beyond VQA, EgoNight also introduces two auxiliary tasks, day-night correspondence retrieval and egocentric depth estimation at night, that further explore the boundaries of existing models. We believe EgoNight-VQA provides a strong foundation for advancing application-driven egocentric vision research and for developing models that generalize across illumination domains. All the data and code will be made available upon acceptance.
PDF32October 8, 2025