4D-RGPT: Rumo à Compreensão 4D em Nível Regional via Destilação Perceptual

Resumo

Apesar dos avanços nos MLLMs (Modelos de Linguagem Multimodais), a sua capacidade de raciocinar sobre estruturas 3D e dinâmicas temporais permanece limitada, restringida por uma fraca perceção 4D e compreensão temporal. Os *benchmarks* existentes de Questionamento e Resposta em Vídeo (VQA) 3D e 4D também enfatizam cenas estáticas e carecem de *prompting* a nível regional. Nós abordamos estas questões através da introdução de: (a) 4D-RGPT, um MLLM especializado concebido para captar representações 4D a partir de entradas de vídeo com perceção temporal melhorada; (b) Perceptual 4D Distillation (P4D), um *framework* de treino que transfere representações 4D de um modelo especialista congelado para o 4D-RGPT, permitindo uma perceção 4D abrangente; e (c) R4D-Bench, um *benchmark* para cenas dinâmicas com consciência da profundidade e com *prompting* a nível regional, construído através de um *pipeline* híbrido automatizado e verificado por humanos. O nosso modelo 4D-RGPT alcança melhorias notáveis tanto nos *benchmarks* existentes de VQA 4D como no *benchmark* R4D-Bench proposto.

English

Despite advances in Multimodal LLMs (MLLMs), their ability to reason over 3D structures and temporal dynamics remains limited, constrained by weak 4D perception and temporal understanding. Existing 3D and 4D Video Question Answering (VQA) benchmarks also emphasize static scenes and lack region-level prompting. We tackle these issues by introducing: (a) 4D-RGPT, a specialized MLLM designed to capture 4D representations from video inputs with enhanced temporal perception; (b) Perceptual 4D Distillation (P4D), a training framework that transfers 4D representations from a frozen expert model into 4D-RGPT for comprehensive 4D perception; and (c) R4D-Bench, a benchmark for depth-aware dynamic scenes with region-level prompting, built via a hybrid automated and human-verified pipeline. Our 4D-RGPT achieves notable improvements on both existing 4D VQA benchmarks and the proposed R4D-Bench benchmark.