ChatPaper.aiChatPaper

비디오 모델은 제로샷 학습자이자 추론자입니다.

Video models are zero-shot learners and reasoners

September 24, 2025
저자: Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, Shixiang Shane Gu, Nick Matarese, Kevin Swersky, Been Kim, Priyank Jaini, Robert Geirhos
cs.AI

초록

대규모 언어 모델(LLMs)의 놀라운 제로샷 능력은 자연어 처리 분야를 작업별 특화 모델에서 통합된 범용 기반 모델로 전환시켰습니다. 이러한 변화는 웹 규모의 데이터로 훈련된 대형 생성 모델이라는 단순한 기본 요소에서 비롯되었습니다. 흥미롭게도, 이러한 기본 요소는 오늘날의 생성형 비디오 모델에도 동일하게 적용됩니다. 비디오 모델이 LLMs가 범용 언어 이해 능력을 개발한 것처럼 범용 시각 이해 능력을 향한 궤도에 오를 수 있을까요? 우리는 Veo 3가 명시적으로 훈련받지 않은 다양한 작업을 해결할 수 있음을 보여줍니다: 객체 분할, 경계 감지, 이미지 편집, 물리적 속성 이해, 객체의 기능 인식, 도구 사용 시뮬레이션 등. 이러한 시각 세계를 인지, 모델링, 조작하는 능력은 미로 해결 및 대칭 해결과 같은 초기 형태의 시각적 추론을 가능하게 합니다. Veo의 제로샷 능력의 출현은 비디오 모델이 통합된 범용 시각 기반 모델로 나아가는 길에 있음을 시사합니다.
English
The remarkable zero-shot capabilities of Large Language Models (LLMs) have propelled natural language processing from task-specific models to unified, generalist foundation models. This transformation emerged from simple primitives: large, generative models trained on web-scale data. Curiously, the same primitives apply to today's generative video models. Could video models be on a trajectory towards general-purpose vision understanding, much like LLMs developed general-purpose language understanding? We demonstrate that Veo 3 can solve a broad variety of tasks it wasn't explicitly trained for: segmenting objects, detecting edges, editing images, understanding physical properties, recognizing object affordances, simulating tool use, and more. These abilities to perceive, model, and manipulate the visual world enable early forms of visual reasoning like maze and symmetry solving. Veo's emergent zero-shot capabilities indicate that video models are on a path to becoming unified, generalist vision foundation models.
PDF864September 25, 2025