ビデオ占有モデル
Video Occupancy Models
June 25, 2024
著者: Manan Tomar, Philippe Hansen-Estruch, Philip Bachman, Alex Lamb, John Langford, Matthew E. Taylor, Sergey Levine
cs.AI
要旨
下流制御タスクを支援するために設計された新しいビデオ予測モデルのファミリーを紹介します。これらのモデルをVideo Occupancyモデル(VOCs)と呼びます。VOCsはコンパクトな潜在空間で動作するため、個々のピクセルに関する予測を行う必要がありません。従来の潜在空間世界モデルとは異なり、VOCsは将来の状態の割引分布を単一ステップで直接予測するため、多段階のロールアウトを必要としません。これらの特性が、下流制御に使用するビデオの予測モデルを構築する際に有益であることを示します。コードはhttps://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}で公開されています。
English
We introduce a new family of video prediction models designed to support
downstream control tasks. We call these models Video Occupancy models (VOCs).
VOCs operate in a compact latent space, thus avoiding the need to make
predictions about individual pixels. Unlike prior latent-space world models,
VOCs directly predict the discounted distribution of future states in a single
step, thus avoiding the need for multistep roll-outs. We show that both
properties are beneficial when building predictive models of video for use in
downstream control. Code is available at
https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}.Summary
AI-Generated Summary