Replanteando la inteligencia visual: perspectivas desde el preentrenamiento con vídeos

Resumen

Los modelos de lenguaje extenso (LLM) han demostrado que el preentrenamiento a gran escala permite a los sistemas adaptarse rápidamente a nuevos problemas con poca supervisión en el dominio lingüístico. Sin embargo, este éxito no se ha trasladado con la misma eficacia al dominio visual, donde los modelos, incluidos los LLM, continúan teniendo dificultades con la comprensión compositiva, la eficiencia de muestreo y la resolución de problemas de propósito general. Investigamos los Modelos de Difusión de Video (VDM) como una dirección prometedora para cerrar esta brecha. El preentrenamiento en datos espacio-temporales dota a estos modelos de fuertes sesgos inductivos para la estructura y la dinámica, lo que hipotetizamos puede respaldar una amplia adaptabilidad a tareas. Para probar esto, diseñamos una evaluación controlada en la que tanto un LLM preentrenado como un VDM preentrenado se equipan con adaptadores ligeros y se presentan con tareas en sus modalidades naturales. En diversos puntos de referencia, como ARC-AGI, ConceptARC, juegos visuales, planificación de rutas y autómatas celulares, los VDM demuestran una mayor eficiencia de datos que sus contrapartes lingüísticas. En conjunto, nuestros resultados indican que el preentrenamiento en video ofrece sesgos inductivos que favorecen el progreso hacia modelos fundamentales visuales.

English

Large language models (LLMs) have demonstrated that large-scale pretraining enables systems to adapt rapidly to new problems with little supervision in the language domain. This success, however, has not translated as effectively to the visual domain, where models, including LLMs, continue to struggle with compositional understanding, sample efficiency, and general-purpose problem-solving. We investigate Video Diffusion Models (VDMs) as a promising direction for bridging this gap. Pretraining on spatiotemporal data endows these models with strong inductive biases for structure and dynamics, which we hypothesize can support broad task adaptability. To test this, we design a controlled evaluation in which both a pretrained LLM and a pretrained VDM are equipped with lightweight adapters and presented with tasks in their natural modalities. Across benchmarks including ARC-AGI, ConceptARC, visual games, route planning, and cellular automata, VDMs demonstrate higher data efficiency than their language counterparts. Taken together, our results indicate that video pretraining offers inductive biases that support progress toward visual foundation models.

Replanteando la inteligencia visual: perspectivas desde el preentrenamiento con vídeos

Rethinking Visual Intelligence: Insights from Video Pretraining

Resumen

Support