ChatPaper.aiChatPaper

4D-RGPT : Vers une compréhension 4D au niveau régional par distillation perceptuelle

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

December 18, 2025
papers.authors: Chiao-An Yang, Ryo Hachiuma, Sifei Liu, Subhashree Radhakrishnan, Raymond A. Yeh, Yu-Chiang Frank Wang, Min-Hung Chen
cs.AI

papers.abstract

Malgré les progrès des modèles de langage multimodaux (MLLM), leur capacité à raisonner sur les structures 3D et la dynamique temporelle reste limitée, entravée par une perception 4D et une compréhension temporelle faibles. Les benchmarks existants pour la question-réponse sur vidéo 3D et 4D (VQA) privilégient également les scènes statiques et manquent d'invites au niveau régional. Nous abordons ces problèmes en introduisant : (a) 4D-RGPT, un MLLM spécialisé conçu pour capturer des représentations 4D à partir de vidéos avec une perception temporelle améliorée ; (b) la Distillation Perceptive 4D (P4D), un cadre d'entraînement qui transfère les représentations 4D d'un modèle expert figé vers 4D-RGPT pour une perception 4D complète ; et (c) R4D-Bench, un benchmark pour les scènes dynamiques avec conscience de la profondeur et des invites régionales, construit via un pipeline hybride automatisé et validé par des humains. Notre modèle 4D-RGPT obtient des améliorations notables à la fois sur les benchmarks 4D VQA existants et sur le benchmark R4D-Bench proposé.
English
Despite advances in Multimodal LLMs (MLLMs), their ability to reason over 3D structures and temporal dynamics remains limited, constrained by weak 4D perception and temporal understanding. Existing 3D and 4D Video Question Answering (VQA) benchmarks also emphasize static scenes and lack region-level prompting. We tackle these issues by introducing: (a) 4D-RGPT, a specialized MLLM designed to capture 4D representations from video inputs with enhanced temporal perception; (b) Perceptual 4D Distillation (P4D), a training framework that transfers 4D representations from a frozen expert model into 4D-RGPT for comprehensive 4D perception; and (c) R4D-Bench, a benchmark for depth-aware dynamic scenes with region-level prompting, built via a hybrid automated and human-verified pipeline. Our 4D-RGPT achieves notable improvements on both existing 4D VQA benchmarks and the proposed R4D-Bench benchmark.
PDF281December 23, 2025