ChatPaper.aiChatPaper

Modelos de vídeo são aprendizes e raciocinadores de zero-shot.

Video models are zero-shot learners and reasoners

September 24, 2025
Autores: Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, Shixiang Shane Gu, Nick Matarese, Kevin Swersky, Been Kim, Priyank Jaini, Robert Geirhos
cs.AI

Resumo

As impressionantes capacidades zero-shot dos Modelos de Linguagem de Grande Escala (LLMs) impulsionaram o processamento de linguagem natural de modelos específicos para tarefas a modelos de base unificados e generalistas. Essa transformação surgiu de primitivas simples: modelos generativos de grande escala treinados com dados em escala da web. Curiosamente, as mesmas primitivas se aplicam aos atuais modelos generativos de vídeo. Será que os modelos de vídeo estão em uma trajetória rumo à compreensão visual de propósito geral, assim como os LLMs desenvolveram a compreensão linguística de propósito geral? Demonstramos que o Veo 3 pode resolver uma ampla variedade de tarefas para as quais não foi explicitamente treinado: segmentação de objetos, detecção de bordas, edição de imagens, compreensão de propriedades físicas, reconhecimento de affordances de objetos, simulação de uso de ferramentas e muito mais. Essas habilidades de perceber, modelar e manipular o mundo visual permitem formas iniciais de raciocínio visual, como a resolução de labirintos e simetrias. As capacidades emergentes zero-shot do Veo indicam que os modelos de vídeo estão no caminho para se tornarem modelos de base visual unificados e generalistas.
English
The remarkable zero-shot capabilities of Large Language Models (LLMs) have propelled natural language processing from task-specific models to unified, generalist foundation models. This transformation emerged from simple primitives: large, generative models trained on web-scale data. Curiously, the same primitives apply to today's generative video models. Could video models be on a trajectory towards general-purpose vision understanding, much like LLMs developed general-purpose language understanding? We demonstrate that Veo 3 can solve a broad variety of tasks it wasn't explicitly trained for: segmenting objects, detecting edges, editing images, understanding physical properties, recognizing object affordances, simulating tool use, and more. These abilities to perceive, model, and manipulate the visual world enable early forms of visual reasoning like maze and symmetry solving. Veo's emergent zero-shot capabilities indicate that video models are on a path to becoming unified, generalist vision foundation models.
PDF954September 25, 2025