ChatPaper.aiChatPaper

TIP-Editor: Ein präziser 3D-Editor, der sowohl Text- als auch Bildvorgaben folgt

TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts

January 26, 2024
Autoren: Jingyu Zhuang, Di Kang, Yan-Pei Cao, Guanbin Li, Liang Lin, Ying Shan
cs.AI

Zusammenfassung

Textgesteuerte 3D-Szenenbearbeitung hat aufgrund ihrer Bequemlichkeit und Benutzerfreundlichkeit erhebliche Aufmerksamkeit erlangt. Allerdings mangelt es bestehenden Methoden noch an präziser Kontrolle über das spezifizierte Aussehen und die Position des Bearbeitungsergebnisses, was auf die inhärenten Grenzen der Textbeschreibung zurückzuführen ist. Zu diesem Zweck schlagen wir ein 3D-Szenenbearbeitungsframework, TIPEditor, vor, das sowohl Text- als auch Bildprompts sowie einen 3D-Begrenzungsrahmen zur Spezifizierung des Bearbeitungsbereichs akzeptiert. Mit dem Bildprompt können Benutzer bequem das detaillierte Aussehen/den Stil des Zielinhalts ergänzend zur Textbeschreibung festlegen, was eine präzise Kontrolle des Aussehens ermöglicht. Insbesondere verwendet TIP-Editor eine schrittweise 2D-Personalisierungsstrategie, um die Darstellung der bestehenden Szene und des Referenzbildes besser zu erlernen, wobei ein Lokalisierungsverlust vorgeschlagen wird, um die korrekte Platzierung des Objekts gemäß dem Begrenzungsrahmen zu fördern. Zusätzlich nutzt TIPEditor explizites und flexibles 3D-Gaussian-Splatting als 3D-Darstellung, um lokale Bearbeitungen zu erleichtern, während der Hintergrund unverändert bleibt. Umfangreiche Experimente haben gezeigt, dass TIP-Editor präzise Bearbeitungen gemäß den Text- und Bildprompts im spezifizierten Begrenzungsrahmenbereich durchführt und die Baselines in Bezug auf Bearbeitungsqualität und Übereinstimmung mit den Prompts sowohl qualitativ als auch quantitativ konsequent übertrifft.
English
Text-driven 3D scene editing has gained significant attention owing to its convenience and user-friendliness. However, existing methods still lack accurate control of the specified appearance and location of the editing result due to the inherent limitations of the text description. To this end, we propose a 3D scene editing framework, TIPEditor, that accepts both text and image prompts and a 3D bounding box to specify the editing region. With the image prompt, users can conveniently specify the detailed appearance/style of the target content in complement to the text description, enabling accurate control of the appearance. Specifically, TIP-Editor employs a stepwise 2D personalization strategy to better learn the representation of the existing scene and the reference image, in which a localization loss is proposed to encourage correct object placement as specified by the bounding box. Additionally, TIPEditor utilizes explicit and flexible 3D Gaussian splatting as the 3D representation to facilitate local editing while keeping the background unchanged. Extensive experiments have demonstrated that TIP-Editor conducts accurate editing following the text and image prompts in the specified bounding box region, consistently outperforming the baselines in editing quality, and the alignment to the prompts, qualitatively and quantitatively.
PDF91December 15, 2024