TIP-Editor: Ein präziser 3D-Editor, der sowohl Text- als auch Bildvorgaben folgt
TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts
January 26, 2024
Autoren: Jingyu Zhuang, Di Kang, Yan-Pei Cao, Guanbin Li, Liang Lin, Ying Shan
cs.AI
Zusammenfassung
Textgesteuerte 3D-Szenenbearbeitung hat aufgrund ihrer Bequemlichkeit und Benutzerfreundlichkeit erhebliche Aufmerksamkeit erlangt. Allerdings mangelt es bestehenden Methoden noch an präziser Kontrolle über das spezifizierte Aussehen und die Position des Bearbeitungsergebnisses, was auf die inhärenten Grenzen der Textbeschreibung zurückzuführen ist. Zu diesem Zweck schlagen wir ein 3D-Szenenbearbeitungsframework, TIPEditor, vor, das sowohl Text- als auch Bildprompts sowie einen 3D-Begrenzungsrahmen zur Spezifizierung des Bearbeitungsbereichs akzeptiert. Mit dem Bildprompt können Benutzer bequem das detaillierte Aussehen/den Stil des Zielinhalts ergänzend zur Textbeschreibung festlegen, was eine präzise Kontrolle des Aussehens ermöglicht. Insbesondere verwendet TIP-Editor eine schrittweise 2D-Personalisierungsstrategie, um die Darstellung der bestehenden Szene und des Referenzbildes besser zu erlernen, wobei ein Lokalisierungsverlust vorgeschlagen wird, um die korrekte Platzierung des Objekts gemäß dem Begrenzungsrahmen zu fördern. Zusätzlich nutzt TIPEditor explizites und flexibles 3D-Gaussian-Splatting als 3D-Darstellung, um lokale Bearbeitungen zu erleichtern, während der Hintergrund unverändert bleibt. Umfangreiche Experimente haben gezeigt, dass TIP-Editor präzise Bearbeitungen gemäß den Text- und Bildprompts im spezifizierten Begrenzungsrahmenbereich durchführt und die Baselines in Bezug auf Bearbeitungsqualität und Übereinstimmung mit den Prompts sowohl qualitativ als auch quantitativ konsequent übertrifft.
English
Text-driven 3D scene editing has gained significant attention owing to its
convenience and user-friendliness. However, existing methods still lack
accurate control of the specified appearance and location of the editing result
due to the inherent limitations of the text description. To this end, we
propose a 3D scene editing framework, TIPEditor, that accepts both text and
image prompts and a 3D bounding box to specify the editing region. With the
image prompt, users can conveniently specify the detailed appearance/style of
the target content in complement to the text description, enabling accurate
control of the appearance. Specifically, TIP-Editor employs a stepwise 2D
personalization strategy to better learn the representation of the existing
scene and the reference image, in which a localization loss is proposed to
encourage correct object placement as specified by the bounding box.
Additionally, TIPEditor utilizes explicit and flexible 3D Gaussian splatting as
the 3D representation to facilitate local editing while keeping the background
unchanged. Extensive experiments have demonstrated that TIP-Editor conducts
accurate editing following the text and image prompts in the specified bounding
box region, consistently outperforming the baselines in editing quality, and
the alignment to the prompts, qualitatively and quantitatively.