Artículos de investigación en IA seleccionados diariamente con traducciones
Los avances recientes en modelos generativos de video, como Veo-3, han demostrado sorprendentes capacidades de razonamiento en modo zero-shot, generando una creciente necesidad de evaluación sistemática y confiable. Presentamos V-ReasonBench, un punto de referencia diseñado para evaluar el razonamiento en video a través de cuatro dimensiones clave: resolución estructurada de problemas, cognición espacial, inferencia basada en patrones y dinámica física. Este punto de referencia se construye a partir de secuencias de imágenes tanto sintéticas como del mundo real y ofrece un conjunto diverso de tareas verificables con respuestas que son reproducibles, escalables y no ambiguas. Las evaluaciones de seis modelos de video de última generación revelan diferencias claras en cada dimensión, con una variación significativa en el razonamiento estructurado, espacial, basado en patrones y físico. Además, comparamos modelos de video con modelos de imagen robustos, analizamos comportamientos comunes de alucinación y estudiamos cómo la duración del video afecta el razonamiento en cadena de fotogramas. En general, V-ReasonBench ofrece un marco unificado y reproducible para medir el razonamiento en video y tiene como objetivo apoyar el desarrollo de modelos con habilidades de razonamiento más confiables y alineadas con el ser humano.