ChatPaper.aiChatPaper

4RC: 4D-Rekonstruktion durch bedingte Abfrage jederzeit und überall

4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere

February 10, 2026
papers.authors: Yihang Luo, Shangchen Zhou, Yushi Lan, Xingang Pan, Chen Change Loy
cs.AI

papers.abstract

Wir stellen 4RC vor, ein einheitliches Feed-Forward-Framework für die 4D-Rekonstruktion aus monokularen Videos. Im Gegensatz zu bestehenden Ansätzen, die Bewegung typischerweise von der Geometrie entkoppeln oder nur begrenzte 4D-Attribute wie spärliche Trajektorien oder Szenenfluss zwischen zwei Ansichten erzeugen, lernt 4RC eine holistische 4D-Repräsentation, die dichte Szenengeometrie und Bewegungsdynamik gemeinsam erfasst. Kernstück von 4RC ist ein neuartiges Paradigma des "Einmal-Encodierens, Abfragen-überall-und-jederzeit": Ein Transformer-Backbone encodiert das gesamte Video in einen kompakten raumzeitlichen latenten Raum, aus dem ein bedingter Decoder effizient 3D-Geometrie und Bewegung für jeden beliebigen Abfragezeitpunkt abfragen kann. Um das Lernen zu erleichtern, repräsentieren wir 4D-Attribute pro Ansicht in einer minimal faktorisierten Form, indem wir sie in Basisgeometrie und zeitabhängige Relativbewegung zerlegen. Umfangreiche Experimente zeigen, dass 4RC bisherige und gleichzeitige Methoden bei einer Vielzahl von 4D-Rekonstruktionsaufgaben übertrifft.
English
We present 4RC, a unified feed-forward framework for 4D reconstruction from monocular videos. Unlike existing approaches that typically decouple motion from geometry or produce limited 4D attributes such as sparse trajectories or two-view scene flow, 4RC learns a holistic 4D representation that jointly captures dense scene geometry and motion dynamics. At its core, 4RC introduces a novel encode-once, query-anywhere and anytime paradigm: a transformer backbone encodes the entire video into a compact spatio-temporal latent space, from which a conditional decoder can efficiently query 3D geometry and motion for any query frame at any target timestamp. To facilitate learning, we represent per-view 4D attributes in a minimally factorized form by decomposing them into base geometry and time-dependent relative motion. Extensive experiments demonstrate that 4RC outperforms prior and concurrent methods across a wide range of 4D reconstruction tasks.
PDF12February 24, 2026