VideoPoet: Ein großes Sprachmodell für die Null-Shot-Videogenerierung

papers.abstract

Wir präsentieren VideoPoet, ein Sprachmodell, das in der Lage ist, hochwertige Videos mit passendem Audio aus einer Vielzahl von Konditionierungssignalen zu synthetisieren. VideoPoet verwendet eine reine Decoder-Transformer-Architektur, die multimodale Eingaben verarbeitet – einschließlich Bilder, Videos, Text und Audio. Das Trainingsprotokoll folgt dem von Large Language Models (LLMs) und besteht aus zwei Phasen: Pretraining und aufgaben spezifische Anpassung. Während des Pretrainings integriert VideoPoet eine Mischung multimodaler generativer Ziele innerhalb eines autoregressiven Transformer-Frameworks. Das vortrainierte LLM dient als Grundlage, die für eine Reihe von Videoerzeugungsaufgaben angepasst werden kann. Wir präsentieren empirische Ergebnisse, die die state-of-the-art Fähigkeiten des Modells in der Zero-Shot-Videoerzeugung demonstrieren, wobei insbesondere die Fähigkeit von VideoPoet hervorgehoben wird, hochauflösende Bewegungen zu erzeugen. Projektseite: http://sites.research.google/videopoet/

English

We present VideoPoet, a language model capable of synthesizing high-quality video, with matching audio, from a large variety of conditioning signals. VideoPoet employs a decoder-only transformer architecture that processes multimodal inputs -- including images, videos, text, and audio. The training protocol follows that of Large Language Models (LLMs), consisting of two stages: pretraining and task-specific adaptation. During pretraining, VideoPoet incorporates a mixture of multimodal generative objectives within an autoregressive Transformer framework. The pretrained LLM serves as a foundation that can be adapted for a range of video generation tasks. We present empirical results demonstrating the model's state-of-the-art capabilities in zero-shot video generation, specifically highlighting VideoPoet's ability to generate high-fidelity motions. Project page: http://sites.research.google/videopoet/

VideoPoet: Ein großes Sprachmodell für die Null-Shot-Videogenerierung

VideoPoet: A Large Language Model for Zero-Shot Video Generation

papers.abstract

Support