ChatPaper.aiChatPaper

4D-RGPT: Auf dem Weg zum regionalen 4D-Verständnis durch perzeptive Destillation

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

December 18, 2025
papers.authors: Chiao-An Yang, Ryo Hachiuma, Sifei Liu, Subhashree Radhakrishnan, Raymond A. Yeh, Yu-Chiang Frank Wang, Min-Hung Chen
cs.AI

papers.abstract

Trotz Fortschritten bei multimodalen LLMs (MLLMs) bleibt ihre Fähigkeit, über 3D-Strukturen und zeitliche Dynamiken zu schlussfolgern, eingeschränkt – bedingt durch schwache 4D-Wahrnehmung und temporales Verständnis. Bestehende 3D- und 4D-Video Question Answering (VQA) Benchmarks konzentrieren sich zudem auf statische Szenen und weisen keine Regions-basierten Prompts auf. Wir adressieren diese Probleme durch die Einführung von: (a) 4D-RGPT, einem spezialisierten MLLM zur Erfassung von 4D-Repräsentationen aus Videoeingaben mit verbesserter temporaler Wahrnehmung; (b) Perceptual 4D Distillation (P4D), einem Trainingsframework, das 4D-Repräsentationen eines eingefrorenen Expertennetzes in 4D-RGPT überträgt, um eine umfassende 4D-Wahrnehmung zu ermöglichen; und (c) R4D-Bench, einem Benchmark für tiefenbewusste dynamische Szenen mit Regions-basierten Prompts, der durch eine hybride, automatisierte und human-validierte Pipeline erstellt wurde. Unser 4D-RGPT erzielt signifikante Verbesserungen sowohl auf bestehenden 4D-VQA-Benchmarks als auch auf dem vorgeschlagenen R4D-Bench-Benchmark.
English
Despite advances in Multimodal LLMs (MLLMs), their ability to reason over 3D structures and temporal dynamics remains limited, constrained by weak 4D perception and temporal understanding. Existing 3D and 4D Video Question Answering (VQA) benchmarks also emphasize static scenes and lack region-level prompting. We tackle these issues by introducing: (a) 4D-RGPT, a specialized MLLM designed to capture 4D representations from video inputs with enhanced temporal perception; (b) Perceptual 4D Distillation (P4D), a training framework that transfers 4D representations from a frozen expert model into 4D-RGPT for comprehensive 4D perception; and (c) R4D-Bench, a benchmark for depth-aware dynamic scenes with region-level prompting, built via a hybrid automated and human-verified pipeline. Our 4D-RGPT achieves notable improvements on both existing 4D VQA benchmarks and the proposed R4D-Bench benchmark.
PDF281December 23, 2025