ChatPaper.aiChatPaper

4D-RGPT: Op weg naar regionaal 4D-begrip via perceptuele distillatie

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

December 18, 2025
Auteurs: Chiao-An Yang, Ryo Hachiuma, Sifei Liu, Subhashree Radhakrishnan, Raymond A. Yeh, Yu-Chiang Frank Wang, Min-Hung Chen
cs.AI

Samenvatting

Ondanks vooruitgang in Multimodale LLM's (MLLM's) blijft hun vermogen om te redeneren over 3D-structuren en temporele dynamiek beperkt, gehinderd door zwak 4D-perceptie en temporeel begrip. Bestaande 3D- en 4D Video Question Answering (VQA)-benchmarks leggen eveneens de nadruk op statische scènes en missen region-level prompting. Wij pakken deze problemen aan door te introduceren: (a) 4D-RGPT, een gespecialiseerde MLLM ontworpen om 4D-representaties uit video-input te vangen met verbeterde temporele perceptie; (b) Perceptual 4D Distillation (P4D), een trainingsraamwerk dat 4D-representaties van een bevroren expertmodel overbrengt naar 4D-RGPT voor uitgebreide 4D-perceptie; en (c) R4D-Bench, een benchmark voor dieptebewuste dynamische scènes met region-level prompting, opgebouwd via een hybride geautomatiseerde en door mensen geverifieerde pijplijn. Onze 4D-RGPT behaalt aanzienlijke verbeteringen op zowel bestaande 4D VQA-benchmarks als de voorgestelde R4D-Bench benchmark.
English
Despite advances in Multimodal LLMs (MLLMs), their ability to reason over 3D structures and temporal dynamics remains limited, constrained by weak 4D perception and temporal understanding. Existing 3D and 4D Video Question Answering (VQA) benchmarks also emphasize static scenes and lack region-level prompting. We tackle these issues by introducing: (a) 4D-RGPT, a specialized MLLM designed to capture 4D representations from video inputs with enhanced temporal perception; (b) Perceptual 4D Distillation (P4D), a training framework that transfers 4D representations from a frozen expert model into 4D-RGPT for comprehensive 4D perception; and (c) R4D-Bench, a benchmark for depth-aware dynamic scenes with region-level prompting, built via a hybrid automated and human-verified pipeline. Our 4D-RGPT achieves notable improvements on both existing 4D VQA benchmarks and the proposed R4D-Bench benchmark.
PDF281December 23, 2025