4D-RGPT: К региональному 4D-пониманию через перцептивное дистиллирование
4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation
December 18, 2025
Авторы: Chiao-An Yang, Ryo Hachiuma, Sifei Liu, Subhashree Radhakrishnan, Raymond A. Yeh, Yu-Chiang Frank Wang, Min-Hung Chen
cs.AI
Аннотация
Несмотря на прогресс в мультимодальных больших языковых моделях (МБЯМ), их способность к анализу трёхмерных структур и временной динамики остаётся ограниченной из-за слабого 4D-восприятия и недостаточного понимания временных зависимостей. Существующие бенчмарки для 3D и 4D видео-вопросно-ответных систем также фокусируются на статичных сценах и не поддерживают региональные промпты. Для решения этих проблем мы представляем: (а) 4D-RGPT — специализированную МБЯМ, разработанную для извлечения 4D-репрезентаций из видео с улучшенным временным восприятием; (b) Perceptual 4D Distillation (P4D) — framework обучения, передающий 4D-репрезентации от замороженной экспертной модели в 4D-RGPT для комплексного 4D-восприятия; и (с) R4D-Bench — бенчмарк для динамических сцен с учётом глубины и региональными промптами, созданный с помощью гибридного автоматизированного и человеко-верифицированного пайплайна. Наша модель 4D-RGPT демонстрирует значительное улучшение как на существующих 4D VQA бенчмарках, так и на предложенном R4D-Bench.
English
Despite advances in Multimodal LLMs (MLLMs), their ability to reason over 3D structures and temporal dynamics remains limited, constrained by weak 4D perception and temporal understanding. Existing 3D and 4D Video Question Answering (VQA) benchmarks also emphasize static scenes and lack region-level prompting. We tackle these issues by introducing: (a) 4D-RGPT, a specialized MLLM designed to capture 4D representations from video inputs with enhanced temporal perception; (b) Perceptual 4D Distillation (P4D), a training framework that transfers 4D representations from a frozen expert model into 4D-RGPT for comprehensive 4D perception; and (c) R4D-Bench, a benchmark for depth-aware dynamic scenes with region-level prompting, built via a hybrid automated and human-verified pipeline. Our 4D-RGPT achieves notable improvements on both existing 4D VQA benchmarks and the proposed R4D-Bench benchmark.