4D-RGPT: Hacia la Comprensión 4D a Nivel Regional mediante Destilación Perceptual
4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation
December 18, 2025
Autores: Chiao-An Yang, Ryo Hachiuma, Sifei Liu, Subhashree Radhakrishnan, Raymond A. Yeh, Yu-Chiang Frank Wang, Min-Hung Chen
cs.AI
Resumen
A pesar de los avances en los Modelos de Lenguaje Multimodales (MLLM), su capacidad para razonar sobre estructuras 3D y dinámicas temporales sigue siendo limitada, restringida por una percepción 4D débil y una comprensión temporal insuficiente. Los puntos de referencia existentes para Respuesta a Preguntas sobre Video 3D y 4D (VQA) también enfatizan escenas estáticas y carecen de indicaciones a nivel regional. Abordamos estos problemas mediante la introducción de: (a) 4D-RGPT, un MLLM especializado diseñado para capturar representaciones 4D a partir de entradas de video con una percepción temporal mejorada; (b) Perceptual 4D Distillation (P4D), un marco de entrenamiento que transfiere representaciones 4D desde un modelo experto congelado a 4D-RGPT para una percepción 4D integral; y (c) R4D-Bench, un punto de referencia para escenas dinámicas con conciencia de profundidad que incluye indicaciones a nivel regional, construido mediante un proceso híbrido automatizado y verificado por humanos. Nuestro modelo 4D-RGPT logra mejoras notables tanto en los puntos de referencia existentes de VQA 4D como en el nuevo punto de referencia R4D-Bench.
English
Despite advances in Multimodal LLMs (MLLMs), their ability to reason over 3D structures and temporal dynamics remains limited, constrained by weak 4D perception and temporal understanding. Existing 3D and 4D Video Question Answering (VQA) benchmarks also emphasize static scenes and lack region-level prompting. We tackle these issues by introducing: (a) 4D-RGPT, a specialized MLLM designed to capture 4D representations from video inputs with enhanced temporal perception; (b) Perceptual 4D Distillation (P4D), a training framework that transfers 4D representations from a frozen expert model into 4D-RGPT for comprehensive 4D perception; and (c) R4D-Bench, a benchmark for depth-aware dynamic scenes with region-level prompting, built via a hybrid automated and human-verified pipeline. Our 4D-RGPT achieves notable improvements on both existing 4D VQA benchmarks and the proposed R4D-Bench benchmark.