ChatPaper.aiChatPaper

Videomodellen zijn zero-shot learners en reasoners.

Video models are zero-shot learners and reasoners

September 24, 2025
Auteurs: Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, Shixiang Shane Gu, Nick Matarese, Kevin Swersky, Been Kim, Priyank Jaini, Robert Geirhos
cs.AI

Samenvatting

De opmerkelijke zero-shot-mogelijkheden van Large Language Models (LLM's) hebben natuurlijke taalverwerking getransformeerd van taakspecifieke modellen naar verenigde, generalistische foundation-modellen. Deze transformatie is ontstaan uit eenvoudige principes: grote, generatieve modellen getraind op web-schaal data. Opvallend genoeg gelden dezelfde principes voor de huidige generatieve videomodellen. Kunnen videomodellen zich ontwikkelen in de richting van algemeen bruikbaar visueel begrip, net zoals LLM's algemeen bruikbaar taalbegrip ontwikkelden? We tonen aan dat Veo 3 een breed scala aan taken kan oplossen waar het niet expliciet voor is getraind: objecten segmenteren, randen detecteren, afbeeldingen bewerken, fysieke eigenschappen begrijpen, objectaffordances herkennen, gereedschapsgebruik simuleren, en meer. Deze vermogens om de visuele wereld waar te nemen, te modelleren en te manipuleren maken vroege vormen van visueel redeneren mogelijk, zoals het oplossen van doolhoven en symmetrieën. De emergentie van zero-shot-mogelijkheden bij Veo suggereert dat videomodellen op weg zijn om verenigde, generalistische vision foundation-modellen te worden.
English
The remarkable zero-shot capabilities of Large Language Models (LLMs) have propelled natural language processing from task-specific models to unified, generalist foundation models. This transformation emerged from simple primitives: large, generative models trained on web-scale data. Curiously, the same primitives apply to today's generative video models. Could video models be on a trajectory towards general-purpose vision understanding, much like LLMs developed general-purpose language understanding? We demonstrate that Veo 3 can solve a broad variety of tasks it wasn't explicitly trained for: segmenting objects, detecting edges, editing images, understanding physical properties, recognizing object affordances, simulating tool use, and more. These abilities to perceive, model, and manipulate the visual world enable early forms of visual reasoning like maze and symmetry solving. Veo's emergent zero-shot capabilities indicate that video models are on a path to becoming unified, generalist vision foundation models.
PDF954September 25, 2025