PointInfinity: Auflösungsunabhängige Punkt-Diffusionsmodelle
PointInfinity: Resolution-Invariant Point Diffusion Models
April 4, 2024
Autoren: Zixuan Huang, Justin Johnson, Shoubhik Debnath, James M. Rehg, Chao-Yuan Wu
cs.AI
Zusammenfassung
Wir präsentieren PointInfinity, eine effiziente Familie von Diffusionsmodellen für Punktwolken. Unsere Kernidee besteht darin, eine auf Transformer basierende Architektur mit einer festen, auflösungsunabhängigen latenten Repräsentation zu verwenden. Dies ermöglicht ein effizientes Training mit Punktwolken niedriger Auflösung, während hochauflösende Punktwolken während der Inferenz generiert werden können. Darüber hinaus zeigen wir, dass die Skalierung der Auflösung zur Testzeit über die Trainingsauflösung hinaus die Qualität der generierten Punktwolken und Oberflächen verbessert. Wir analysieren dieses Phänomen und stellen eine Verbindung zu klassenfreier Führung her, die in Diffusionsmodellen häufig verwendet wird, und zeigen, dass beide es ermöglichen, Qualität und Variabilität während der Inferenz gegeneinander abzuwägen. Experimente anhand von CO3D zeigen, dass PointInfinity effizient hochauflösende Punktwolken (bis zu 131k Punkte, 31-mal mehr als Point-E) mit modernster Qualität generieren kann.
English
We present PointInfinity, an efficient family of point cloud diffusion
models. Our core idea is to use a transformer-based architecture with a
fixed-size, resolution-invariant latent representation. This enables efficient
training with low-resolution point clouds, while allowing high-resolution point
clouds to be generated during inference. More importantly, we show that scaling
the test-time resolution beyond the training resolution improves the fidelity
of generated point clouds and surfaces. We analyze this phenomenon and draw a
link to classifier-free guidance commonly used in diffusion models,
demonstrating that both allow trading off fidelity and variability during
inference. Experiments on CO3D show that PointInfinity can efficiently generate
high-resolution point clouds (up to 131k points, 31 times more than Point-E)
with state-of-the-art quality.Summary
AI-Generated Summary