Videomodelle sind Zero-Shot-Lerner und -Schlussfolgerer.
Video models are zero-shot learners and reasoners
September 24, 2025
papers.authors: Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, Shixiang Shane Gu, Nick Matarese, Kevin Swersky, Been Kim, Priyank Jaini, Robert Geirhos
cs.AI
papers.abstract
Die bemerkenswerten Zero-Shot-Fähigkeiten von Large Language Models (LLMs) haben die natürliche Sprachverarbeitung von aufgaben-spezifischen Modellen zu einheitlichen, generalistischen Foundation-Modellen vorangetrieben. Diese Transformation entstand aus einfachen Grundprinzipien: großen, generativen Modellen, die mit Web-skaligen Daten trainiert wurden. Interessanterweise gelten dieselben Prinzipien auch für die heutigen generativen Video-Modelle. Könnten Video-Modelle auf einem Weg hin zu einem allgemeinen Verständnis der visuellen Welt sein, ähnlich wie LLMs ein allgemeines Sprachverständnis entwickelt haben? Wir zeigen, dass Veo 3 eine Vielzahl von Aufgaben lösen kann, für die es nicht explizit trainiert wurde: Objekte segmentieren, Kanten erkennen, Bilder bearbeiten, physikalische Eigenschaften verstehen, Objekt-Affordanzen erkennen, Werkzeuggebrauch simulieren und mehr. Diese Fähigkeiten, die visuelle Welt wahrzunehmen, zu modellieren und zu manipulieren, ermöglichen frühe Formen des visuellen Denkens, wie das Lösen von Labyrinthen und Symmetrieaufgaben. Die emergenten Zero-Shot-Fähigkeiten von Veo deuten darauf hin, dass Video-Modelle auf dem Weg sind, einheitliche, generalistische Vision-Foundation-Modelle zu werden.
English
The remarkable zero-shot capabilities of Large Language Models (LLMs) have
propelled natural language processing from task-specific models to unified,
generalist foundation models. This transformation emerged from simple
primitives: large, generative models trained on web-scale data. Curiously, the
same primitives apply to today's generative video models. Could video models be
on a trajectory towards general-purpose vision understanding, much like LLMs
developed general-purpose language understanding? We demonstrate that Veo 3 can
solve a broad variety of tasks it wasn't explicitly trained for: segmenting
objects, detecting edges, editing images, understanding physical properties,
recognizing object affordances, simulating tool use, and more. These abilities
to perceive, model, and manipulate the visual world enable early forms of
visual reasoning like maze and symmetry solving. Veo's emergent zero-shot
capabilities indicate that video models are on a path to becoming unified,
generalist vision foundation models.