Modelos de vídeo são aprendizes e raciocinadores de zero-shot.
Video models are zero-shot learners and reasoners
September 24, 2025
Autores: Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, Shixiang Shane Gu, Nick Matarese, Kevin Swersky, Been Kim, Priyank Jaini, Robert Geirhos
cs.AI
Resumo
As impressionantes capacidades zero-shot dos Modelos de Linguagem de Grande Escala (LLMs) impulsionaram o processamento de linguagem natural de modelos específicos para tarefas a modelos de base unificados e generalistas. Essa transformação surgiu de primitivas simples: modelos generativos de grande escala treinados com dados em escala da web. Curiosamente, as mesmas primitivas se aplicam aos atuais modelos generativos de vídeo. Será que os modelos de vídeo estão em uma trajetória rumo à compreensão visual de propósito geral, assim como os LLMs desenvolveram a compreensão linguística de propósito geral? Demonstramos que o Veo 3 pode resolver uma ampla variedade de tarefas para as quais não foi explicitamente treinado: segmentação de objetos, detecção de bordas, edição de imagens, compreensão de propriedades físicas, reconhecimento de affordances de objetos, simulação de uso de ferramentas e muito mais. Essas habilidades de perceber, modelar e manipular o mundo visual permitem formas iniciais de raciocínio visual, como a resolução de labirintos e simetrias. As capacidades emergentes zero-shot do Veo indicam que os modelos de vídeo estão no caminho para se tornarem modelos de base visual unificados e generalistas.
English
The remarkable zero-shot capabilities of Large Language Models (LLMs) have
propelled natural language processing from task-specific models to unified,
generalist foundation models. This transformation emerged from simple
primitives: large, generative models trained on web-scale data. Curiously, the
same primitives apply to today's generative video models. Could video models be
on a trajectory towards general-purpose vision understanding, much like LLMs
developed general-purpose language understanding? We demonstrate that Veo 3 can
solve a broad variety of tasks it wasn't explicitly trained for: segmenting
objects, detecting edges, editing images, understanding physical properties,
recognizing object affordances, simulating tool use, and more. These abilities
to perceive, model, and manipulate the visual world enable early forms of
visual reasoning like maze and symmetry solving. Veo's emergent zero-shot
capabilities indicate that video models are on a path to becoming unified,
generalist vision foundation models.