ChatPaper.aiChatPaper

4D-RGPT: 지각적 증류를 통한 영역 수준 4D 이해 방향

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

December 18, 2025
저자: Chiao-An Yang, Ryo Hachiuma, Sifei Liu, Subhashree Radhakrishnan, Raymond A. Yeh, Yu-Chiang Frank Wang, Min-Hung Chen
cs.AI

초록

멀티모달 대규모 언어 모델(MLLM)의 발전에도 불구하고, 3D 구조와 시간적 역학에 대한 추론 능력은 약한 4D 인식 및 시간적 이해로 인해 제한됩니다. 기존 3D 및 4D 비디오 질의응답(VQA) 벤치마크 또한 정적 장면에 중점을 두고 지역 수준 프롬프팅이 부족합니다. 우리는 이러한 문제를 해결하기 위해 다음을 소개합니다: (a) 향상된 시간적 인식으로 비디오 입력에서 4D 표현을 포착하도록 설계된 전용 MLLM인 4D-RGPT; (b) 고정된 전문가 모델의 4D 표현을 4D-RGPT로 전이하여 포괄적인 4D 인식을 달성하는 훈련 프레임워크인 P4D(Perceptual 4D Distillation); (c) 하이브리드 자동화 및 인간 검증 파이프라인을 통해 구축된, 지역 수준 프롬프팅이 포함된 깊이 인식 동적 장면용 벤치마크인 R4D-Bench. 우리의 4D-RGPT는 기존 4D VQA 벤치마크와 제안된 R4D-Bench 벤치마크 모두에서 뚜렷한 성능 향상을 달성했습니다.
English
Despite advances in Multimodal LLMs (MLLMs), their ability to reason over 3D structures and temporal dynamics remains limited, constrained by weak 4D perception and temporal understanding. Existing 3D and 4D Video Question Answering (VQA) benchmarks also emphasize static scenes and lack region-level prompting. We tackle these issues by introducing: (a) 4D-RGPT, a specialized MLLM designed to capture 4D representations from video inputs with enhanced temporal perception; (b) Perceptual 4D Distillation (P4D), a training framework that transfers 4D representations from a frozen expert model into 4D-RGPT for comprehensive 4D perception; and (c) R4D-Bench, a benchmark for depth-aware dynamic scenes with region-level prompting, built via a hybrid automated and human-verified pipeline. Our 4D-RGPT achieves notable improvements on both existing 4D VQA benchmarks and the proposed R4D-Bench benchmark.
PDF281December 23, 2025