I modelli video sono apprendenti e ragionatori zero-shot.
Video models are zero-shot learners and reasoners
September 24, 2025
Autori: Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, Shixiang Shane Gu, Nick Matarese, Kevin Swersky, Been Kim, Priyank Jaini, Robert Geirhos
cs.AI
Abstract
Le straordinarie capacità zero-shot dei Large Language Models (LLM) hanno spinto l'elaborazione del linguaggio naturale da modelli specifici per singoli compiti a modelli di base unificati e generalisti. Questa trasformazione è emersa da semplici principi: modelli generativi di grandi dimensioni addestrati su dati su scala web. Curiosamente, gli stessi principi si applicano ai moderni modelli generativi per video. È possibile che i modelli video siano su una traiettoria verso una comprensione visiva generica, simile a come i LLM hanno sviluppato una comprensione linguistica generica? Dimostriamo che Veo 3 è in grado di risolvere un'ampia varietà di compiti per cui non è stato esplicitamente addestrato: segmentazione di oggetti, rilevamento di bordi, modifica di immagini, comprensione di proprietà fisiche, riconoscimento delle affordance degli oggetti, simulazione dell'uso di strumenti e altro ancora. Queste capacità di percepire, modellare e manipolare il mondo visivo abilitano forme iniziali di ragionamento visivo, come la risoluzione di labirinti e la comprensione della simmetria. Le capacità zero-shot emergenti di Veo indicano che i modelli video sono sulla strada per diventare modelli di base unificati e generalisti per la visione.
English
The remarkable zero-shot capabilities of Large Language Models (LLMs) have
propelled natural language processing from task-specific models to unified,
generalist foundation models. This transformation emerged from simple
primitives: large, generative models trained on web-scale data. Curiously, the
same primitives apply to today's generative video models. Could video models be
on a trajectory towards general-purpose vision understanding, much like LLMs
developed general-purpose language understanding? We demonstrate that Veo 3 can
solve a broad variety of tasks it wasn't explicitly trained for: segmenting
objects, detecting edges, editing images, understanding physical properties,
recognizing object affordances, simulating tool use, and more. These abilities
to perceive, model, and manipulate the visual world enable early forms of
visual reasoning like maze and symmetry solving. Veo's emergent zero-shot
capabilities indicate that video models are on a path to becoming unified,
generalist vision foundation models.