비디오 점유 모델
Video Occupancy Models
June 25, 2024
저자: Manan Tomar, Philippe Hansen-Estruch, Philip Bachman, Alex Lamb, John Langford, Matthew E. Taylor, Sergey Levine
cs.AI
초록
다운스트림 제어 작업을 지원하기 위해 설계된 새로운 비디오 예측 모델 패밀리를 소개합니다. 이 모델들을 비디오 점유 모델(Video Occupancy Models, VOCs)이라고 명명합니다. VOCs는 컴팩트한 잠재 공간에서 작동하여 개별 픽셀에 대한 예측을 할 필요가 없습니다. 기존의 잠재 공간 세계 모델과 달리, VOCs는 단일 단계에서 미래 상태의 할인 분포를 직접 예측함으로써 다단계 롤아웃의 필요성을 없앱니다. 이러한 두 가지 특성이 다운스트림 제어에 사용할 비디오 예측 모델을 구축할 때 유리함을 보여줍니다. 코드는 https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}에서 확인할 수 있습니다.
English
We introduce a new family of video prediction models designed to support
downstream control tasks. We call these models Video Occupancy models (VOCs).
VOCs operate in a compact latent space, thus avoiding the need to make
predictions about individual pixels. Unlike prior latent-space world models,
VOCs directly predict the discounted distribution of future states in a single
step, thus avoiding the need for multistep roll-outs. We show that both
properties are beneficial when building predictive models of video for use in
downstream control. Code is available at
https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}.Summary
AI-Generated Summary