Replanteando la inteligencia visual: perspectivas desde el preentrenamiento con vídeos
Rethinking Visual Intelligence: Insights from Video Pretraining
October 28, 2025
Autores: Pablo Acuaviva, Aram Davtyan, Mariam Hassan, Sebastian Stapf, Ahmad Rahimi, Alexandre Alahi, Paolo Favaro
cs.AI
Resumen
Los modelos de lenguaje extenso (LLM) han demostrado que el preentrenamiento a gran escala permite a los sistemas adaptarse rápidamente a nuevos problemas con poca supervisión en el dominio lingüístico. Sin embargo, este éxito no se ha trasladado con la misma eficacia al dominio visual, donde los modelos, incluidos los LLM, continúan teniendo dificultades con la comprensión compositiva, la eficiencia de muestreo y la resolución de problemas de propósito general. Investigamos los Modelos de Difusión de Video (VDM) como una dirección prometedora para cerrar esta brecha. El preentrenamiento en datos espacio-temporales dota a estos modelos de fuertes sesgos inductivos para la estructura y la dinámica, lo que hipotetizamos puede respaldar una amplia adaptabilidad a tareas. Para probar esto, diseñamos una evaluación controlada en la que tanto un LLM preentrenado como un VDM preentrenado se equipan con adaptadores ligeros y se presentan con tareas en sus modalidades naturales. En diversos puntos de referencia, como ARC-AGI, ConceptARC, juegos visuales, planificación de rutas y autómatas celulares, los VDM demuestran una mayor eficiencia de datos que sus contrapartes lingüísticas. En conjunto, nuestros resultados indican que el preentrenamiento en video ofrece sesgos inductivos que favorecen el progreso hacia modelos fundamentales visuales.
English
Large language models (LLMs) have demonstrated that large-scale pretraining
enables systems to adapt rapidly to new problems with little supervision in the
language domain. This success, however, has not translated as effectively to
the visual domain, where models, including LLMs, continue to struggle with
compositional understanding, sample efficiency, and general-purpose
problem-solving. We investigate Video Diffusion Models (VDMs) as a promising
direction for bridging this gap. Pretraining on spatiotemporal data endows
these models with strong inductive biases for structure and dynamics, which we
hypothesize can support broad task adaptability. To test this, we design a
controlled evaluation in which both a pretrained LLM and a pretrained VDM are
equipped with lightweight adapters and presented with tasks in their natural
modalities. Across benchmarks including ARC-AGI, ConceptARC, visual games,
route planning, and cellular automata, VDMs demonstrate higher data efficiency
than their language counterparts. Taken together, our results indicate that
video pretraining offers inductive biases that support progress toward visual
foundation models.