弾性的テスト時訓練による高速空間メモリ
Fast Spatial Memory with Elastic Test-Time Training
April 8, 2026
著者: Ziqiao Ma, Xueyang Yu, Haoyu Zhen, Yuncong Yang, Joyce Chai, Chuang Gan
cs.AI
要旨
大規模チャンクテスト時学習(LaCT)は長文脈3D再構成において優れた性能を示すが、完全に可塑的な推論時更新は破滅的忘れや過学習に対して脆弱である。この結果、LaCTは通常、入力シーケンス全体をカバーする単一の大規模チャンクで実装され、任意に長いシーケンスを単一パスで処理するというより広範な目標を達成できていない。本研究では、弾性的重み固着に着想を得た弾性的テスト時学習を提案する。これは、維持されたアンカー状態周辺にフィッシャー重み付き弾性的事前分布を設けることで、LaCTの高速重み更新を安定化する。アンカーは過去の高速重みの指数移動平均として進化し、安定性と可塑性のバランスを取る。この更新されたアーキテクチャに基づき、高速空間メモリ(FSM)を導入する。これは長時間観測シーケンスから時空間表現を学習し、新規視点・時間組み合わせをレンダリングする、効率的でスケーラブルな4D再構成モデルである。FSMは大規模に精選された3D/4Dデータで事前学習され、複雑な空間環境の動的性質と意味論を捕捉する。大規模な実験により、FSMが長シーケンスにわたる高速適応をサポートし、より小さなチャンクで高品質な3D/4D再構成を実現し、カメラ補間ショートカットを軽減することが示された。全体として、我々はLaCTを限定的な単一チャンク設定から超えた、堅牢なマルチチャンク適応へ発展させることで、真に長いシーケンスへの一般化に必要な一歩を踏み出すとともに、活性化メモリのボトルネックを大幅に緩和することを目指す。
English
Large Chunk Test-Time Training (LaCT) has shown strong performance on long-context 3D reconstruction, but its fully plastic inference-time updates remain vulnerable to catastrophic forgetting and overfitting. As a result, LaCT is typically instantiated with a single large chunk spanning the full input sequence, falling short of the broader goal of handling arbitrarily long sequences in a single pass. We propose Elastic Test-Time Training inspired by elastic weight consolidation, that stabilizes LaCT fast-weight updates with a Fisher-weighted elastic prior around a maintained anchor state. The anchor evolves as an exponential moving average of past fast weights to balance stability and plasticity. Based on this updated architecture, we introduce Fast Spatial Memory (FSM), an efficient and scalable model for 4D reconstruction that learns spatiotemporal representations from long observation sequences and renders novel view-time combinations. We pre-trained FSM on large-scale curated 3D/4D data to capture the dynamics and semantics of complex spatial environments. Extensive experiments show that FSM supports fast adaptation over long sequences and delivers high-quality 3D/4D reconstruction with smaller chunks and mitigating the camera-interpolation shortcut. Overall, we hope to advance LaCT beyond the bounded single-chunk setting toward robust multi-chunk adaptation, a necessary step for generalization to genuinely longer sequences, while substantially alleviating the activation-memory bottleneck.