VideoZeroBench: Explorando los Límites de los MLLMs de Video con Verificación de Evidencia Espacio-Temporal
VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification
April 2, 2026
Autores: Jiahao Meng, Tan Yue, Qi Xu, Haochen Wang, Zhongwei Ren, Weisong Liu, Yuhao Wang, Renrui Zhang, Yunhai Tong, Haodong Duan
cs.AI
Resumen
Los modelos lingüísticos multimodales recientes para video logran resultados impresionantes en diversos benchmarks. Sin embargo, las evaluaciones actuales adolecen de dos limitaciones críticas: (1) las puntuaciones infladas pueden enmascarar deficiencias en la comprensión visual detallada y el razonamiento, y (2) la corrección de las respuestas a menudo se mide sin verificar si los modelos identifican la evidencia espacio-temporal precisa que respalda sus predicciones. Para abordar esto, presentamos VideoZeroBench, un benchmark jerárquico diseñado para preguntas y respuestas (QA) en videos largos y desafiantes que verifica rigurosamente la evidencia espacio-temporal. Comprende 500 preguntas anotadas manualmente en 13 dominios, emparejadas con intervalos temporales y cuadros delimitadores espaciales como evidencia. Para desacoplar la generación de respuestas, la localización temporal y la localización espacial, introducimos un protocolo de evaluación de cinco niveles que progresivamente endurece los requisitos de evidencia. Los experimentos muestran que incluso Gemini-3-Pro responde correctamente a menos del 17% de las preguntas bajo el escenario estándar de QA de extremo a extremo (Nivel-3). Cuando se imponen restricciones de localización, el rendimiento cae abruptamente: ningún modelo supera el 1% de precisión cuando se requiere tanto una respuesta correcta como una localización espacio-temporal precisa (Nivel-5), y la mayoría no logra ninguna predicción correcta y localizada. Estos resultados exponen una brecha significativa entre la corrección superficial de la respuesta y el razonamiento genuino basado en evidencia, revelando que la comprensión de video localizada sigue siendo un cuello de botella para QA en videos largos. Analizamos además el rendimiento en intervalos de evidencia mínimos, habilidades atómicas y paradigmas de inferencia, proporcionando insights para futuras investigaciones en razonamiento de video localizado. El benchmark y el código se pondrán a disposición del público.
English
Recent video multimodal large language models achieve impressive results across various benchmarks. However, current evaluations suffer from two critical limitations: (1) inflated scores can mask deficiencies in fine-grained visual understanding and reasoning, and (2) answer correctness is often measured without verifying whether models identify the precise spatio-temporal evidence supporting their predictions. To address this, we present VideoZeroBench, a hierarchical benchmark designed for challenging long-video question answering that rigorously verifies spatio-temporal evidence. It comprises 500 manually annotated questions across 13 domains, paired with temporal intervals and spatial bounding boxes as evidence. To disentangle answering generation, temporal grounding, and spatial grounding, we introduce a five-level evaluation protocol that progressively tightens evidence requirements. Experiments show that even Gemini-3-Pro correctly answers fewer than 17% of questions under the standard end-to-end QA setting (Level-3). When grounding constraints are imposed, performance drops sharply: No model exceeds 1% accuracy when both correct answering and accurate spatio-temporal localization are required (Level-5), with most failing to achieve any correct grounded predictions. These results expose a significant gap between surface-level answer correctness and genuine evidence-based reasoning, revealing that grounded video understanding remains a bottleneck for long-video QA. We further analyze performance across minimal evidence spans, atomic abilities, and inference paradigms, providing insights for future research in grounded video reasoning. The benchmark and code will be made publicly available.