Lift4D: Гармонизация оценки 3D по одному изображению для 4D-реконструкции в реальных условиях

Аннотация

Реконструкция динамических нежестких объектов по монокулярному видео требует интеграции визуальных признаков из прямых наблюдений с эмпирическими априорными данными о геометрии и внешнем виде. Существующие подходы либо обучаются напрямую предсказывать 4D-представления по визуальным данным, либо инициализируют 3D-представление, которое впоследствии деформируется и уточняется на основе видеосвидетельств. Однако первые ограничены нехваткой 4D-обучающих данных, тогда как вторые используют априорные данные только для начальной реконструкции, а в дальнейшем полагаются исключительно на видеонаблюдение; ни один из подходов не справляется со сложными сценариями в реальных условиях, характеризующимися сильными деформациями и окклюзиями. Мы представляем Lift4D — фреймворк оптимизации во время тестирования, устраняющий оба ограничения. Во-первых, мы адаптируем существующую модель 3D-реконструкции по одному виду для получения темпорально согласованных предсказаний на каждый кадр с помощью каузального латентного обусловливания, что обеспечивает когерентную инициализацию представления деформируемого 3D-гауссова сплатинга. Затем мы «вылепливаем» это представление для соответствия входному видео посредством оптимизации с учетом окклюзий, которая достоверно восстанавливает видимые детали поверхности, одновременно дополняя ненаблюдаемые области с помощью априорного распределения диффузии, обусловленного видом. Мы демонстрируем, что Lift4D значительно превосходит предыдущие методы 4D-реконструкции, особенно на сложных последовательностях в реальных условиях с сильными окклюзиями и нежесткими движениями.

English

Reconstructing dynamic non-rigid objects from monocular video requires integrating visual cues from direct observations with data-driven priors over geometry and appearance. Prior approaches either learn to directly predict 4D representations from visual input or initialize a 3D representation that is subsequently deformed and refined based on video evidence. However, the former are constrained by the scarcity of 4D training data, while the latter leverage priors only for the initial reconstruction and rely solely on video supervision thereafter; neither handles complex in-the-wild scenarios with large deformations and occlusions well. We present Lift4D, a test-time optimization framework that addresses both limitations. First, we adapt an existing single-view 3D reconstruction model to yield temporally consistent per-frame predictions via causal latent conditioning, providing a coherent initialization for a deformable 3D Gaussian Splatting representation. We then ``sculpt'' this representation to match the input video through an occlusion-aware optimization that faithfully recovers visible surface details while completing unobserved regions using a view-conditioned diffusion prior. We demonstrate that Lift4D clearly improves over prior 4D reconstruction methods, particularly on challenging in-the-wild sequences with severe occlusions and non-rigid motion.