ChatPaper.aiChatPaper

4D-RGPT: Verso una comprensione 4D a livello di regione tramite distillazione percettiva

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

December 18, 2025
Autori: Chiao-An Yang, Ryo Hachiuma, Sifei Liu, Subhashree Radhakrishnan, Raymond A. Yeh, Yu-Chiang Frank Wang, Min-Hung Chen
cs.AI

Abstract

Nonostante i progressi nei Modelli Linguistici Multimodali (MLLM), la loro capacità di ragionare su strutture 3D e dinamiche temporali rimane limitata, vincolata da una debole percezione 4D e una comprensione temporale inadeguata. Anche i benchmark esistenti per il Question Answering su video 3D e 4D (VQA) enfatizzano scene statiche e mancano di prompt a livello di regione. Affrontiamo questi problemi introducendo: (a) 4D-RGPT, un MLLM specializzato progettato per catturare rappresentazioni 4D da input video con percezione temporale potenziata; (b) Perceptual 4D Distillation (P4D), un framework di training che trasferisce rappresentazioni 4D da un modello esperto congelato in 4D-RGPT per una percezione 4D completa; e (c) R4D-Bench, un benchmark per scene dinamiche con consapevolezza della profondità e prompt a livello di regione, costruito tramite una pipeline ibrida automatizzata e convalidata da umani. Il nostro 4D-RGPT ottiene miglioramenti significativi sia sui benchmark 4D VQA esistenti che sul benchmark R4D-Bench proposto.
English
Despite advances in Multimodal LLMs (MLLMs), their ability to reason over 3D structures and temporal dynamics remains limited, constrained by weak 4D perception and temporal understanding. Existing 3D and 4D Video Question Answering (VQA) benchmarks also emphasize static scenes and lack region-level prompting. We tackle these issues by introducing: (a) 4D-RGPT, a specialized MLLM designed to capture 4D representations from video inputs with enhanced temporal perception; (b) Perceptual 4D Distillation (P4D), a training framework that transfers 4D representations from a frozen expert model into 4D-RGPT for comprehensive 4D perception; and (c) R4D-Bench, a benchmark for depth-aware dynamic scenes with region-level prompting, built via a hybrid automated and human-verified pipeline. Our 4D-RGPT achieves notable improvements on both existing 4D VQA benchmarks and the proposed R4D-Bench benchmark.
PDF281December 23, 2025