ChatPaper.aiChatPaper

EgoNight: Verso la comprensione della visione egocentrica notturna con un benchmark impegnativo

EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark

October 7, 2025
Autori: Deheng Zhang, Yuqian Fu, Runyi Yang, Yang Miao, Tianwen Qian, Xu Zheng, Guolei Sun, Ajad Chhatkuli, Xuanjing Huang, Yu-Gang Jiang, Luc Van Gool, Danda Pani Paudel
cs.AI

Abstract

La maggior parte dei benchmark esistenti per la comprensione della visione egocentrica si concentra principalmente su scenari diurni, trascurando le condizioni di scarsa illuminazione che sono inevitabili nelle applicazioni del mondo reale. Per indagare su questa lacuna, presentiamo EgoNight, il primo benchmark completo per la visione egocentrica notturna, con il compito principale di risposta a domande visive (VQA). Una caratteristica chiave di EgoNight è l'introduzione di video allineati giorno-notte, che migliorano la qualità delle annotazioni notturne utilizzando i dati diurni e rivelano chiare differenze di prestazioni tra le condizioni di illuminazione. Per raggiungere questo obiettivo, raccogliamo sia video sintetici generati con Blender che registrazioni del mondo reale, garantendo che scene e azioni siano allineate visivamente e temporalmente. Sfruttando questi video accoppiati, costruiamo EgoNight-VQA, supportato da un nuovo motore di auto-etichettatura notturna potenziato dai dati diurni e raffinato attraverso un'ampia verifica umana. Ogni coppia di domande e risposte viene controllata due volte dagli annotatori per garantire l'affidabilità. In totale, EgoNight-VQA contiene 3658 coppie di domande e risposte su 90 video, che coprono 12 diversi tipi di domande, con più di 300 ore di lavoro umano. Le valutazioni dei modelli linguistici multimodali all'avanguardia (MLLM) rivelano cali significativi delle prestazioni quando si passa dal giorno alla notte, evidenziando le sfide del ragionamento in condizioni di scarsa illuminazione. Oltre alla VQA, EgoNight introduce anche due compiti ausiliari, il recupero della corrispondenza giorno-notte e la stima della profondità egocentrica di notte, che esplorano ulteriormente i limiti dei modelli esistenti. Crediamo che EgoNight-VQA fornisca una solida base per avanzare la ricerca sulla visione egocentrica guidata dalle applicazioni e per sviluppare modelli che generalizzano attraverso i domini di illuminazione. Tutti i dati e il codice saranno resi disponibili al momento dell'accettazione.
English
Most existing benchmarks for egocentric vision understanding focus primarily on daytime scenarios, overlooking the low-light conditions that are inevitable in real-world applications. To investigate this gap, we present EgoNight, the first comprehensive benchmark for nighttime egocentric vision, with visual question answering (VQA) as the core task. A key feature of EgoNight is the introduction of day-night aligned videos, which enhance night annotation quality using the daytime data and reveal clear performance gaps between lighting conditions. To achieve this, we collect both synthetic videos rendered by Blender and real-world recordings, ensuring that scenes and actions are visually and temporally aligned. Leveraging these paired videos, we construct EgoNight-VQA, supported by a novel day-augmented night auto-labeling engine and refinement through extensive human verification. Each QA pair is double-checked by annotators for reliability. In total, EgoNight-VQA contains 3658 QA pairs across 90 videos, spanning 12 diverse QA types, with more than 300 hours of human work. Evaluations of state-of-the-art multimodal large language models (MLLMs) reveal substantial performance drops when transferring from day to night, underscoring the challenges of reasoning under low-light conditions. Beyond VQA, EgoNight also introduces two auxiliary tasks, day-night correspondence retrieval and egocentric depth estimation at night, that further explore the boundaries of existing models. We believe EgoNight-VQA provides a strong foundation for advancing application-driven egocentric vision research and for developing models that generalize across illumination domains. All the data and code will be made available upon acceptance.
PDF32October 8, 2025