ChatPaper.aiChatPaper

TeCH: Textgesteuerte Rekonstruktion lebensechter bekleideter Menschen

TeCH: Text-guided Reconstruction of Lifelike Clothed Humans

August 16, 2023
Autoren: Yangyi Huang, Hongwei Yi, Yuliang Xiu, Tingting Liao, Jiaxiang Tang, Deng Cai, Justus Thies
cs.AI

Zusammenfassung

Trotz jüngster Fortschritte in der Forschung zur Rekonstruktion bekleideter Menschen aus einem einzelnen Bild bleibt die präzise Wiederherstellung der „unsichtbaren Bereiche“ mit hochdetaillierten Merkmalen eine ungelöste Herausforderung, die bisher wenig Beachtung gefunden hat. Bestehende Methoden erzeugen oft übermäßig glatte Rückseitenflächen mit unscharfen Texturen. Doch wie kann man effektiv alle visuellen Attribute einer Person aus einem einzigen Bild erfassen, die ausreichen, um unsichtbare Bereiche (z. B. die Rückansicht) zu rekonstruieren? Angeregt durch die Leistungsfähigkeit von Foundation-Modellen rekonstruiert TeCH den 3D-Menschen durch die Nutzung von 1) beschreibenden Textprompts (z. B. Kleidung, Farben, Frisuren), die automatisch über ein Kleidungssegmentierungsmodell und Visual Question Answering (VQA) generiert werden, und 2) einem personalisierten, feinabgestimmten Text-zu-Bild-Diffusionsmodell (T2I), das das „unbeschreibliche“ Aussehen erlernt. Um hochauflösende 3D-bekleidete Menschen kostengünstig darzustellen, schlagen wir eine hybride 3D-Darstellung basierend auf DMTet vor, die aus einem expliziten Körperformgitter und einem impliziten Distanzfeld besteht. Geleitet durch die beschreibenden Prompts und das personalisierte T2I-Diffusionsmodell werden die Geometrie und Textur der 3D-Menschen durch Multi-View-Score-Distillation-Sampling (SDS) und Rekonstruktionsverluste basierend auf der ursprünglichen Beobachtung optimiert. TeCH erzeugt hochfidele 3D-bekleidete Menschen mit konsistenter und feiner Textur sowie detaillierter Ganzkörpergeometrie. Quantitative und qualitative Experimente zeigen, dass TeCH die state-of-the-art-Methoden in Bezug auf Rekonstruktionsgenauigkeit und Renderqualität übertrifft. Der Code wird zu Forschungszwecken öffentlich verfügbar sein unter https://huangyangyi.github.io/tech.
English
Despite recent research advancements in reconstructing clothed humans from a single image, accurately restoring the "unseen regions" with high-level details remains an unsolved challenge that lacks attention. Existing methods often generate overly smooth back-side surfaces with a blurry texture. But how to effectively capture all visual attributes of an individual from a single image, which are sufficient to reconstruct unseen areas (e.g., the back view)? Motivated by the power of foundation models, TeCH reconstructs the 3D human by leveraging 1) descriptive text prompts (e.g., garments, colors, hairstyles) which are automatically generated via a garment parsing model and Visual Question Answering (VQA), 2) a personalized fine-tuned Text-to-Image diffusion model (T2I) which learns the "indescribable" appearance. To represent high-resolution 3D clothed humans at an affordable cost, we propose a hybrid 3D representation based on DMTet, which consists of an explicit body shape grid and an implicit distance field. Guided by the descriptive prompts + personalized T2I diffusion model, the geometry and texture of the 3D humans are optimized through multi-view Score Distillation Sampling (SDS) and reconstruction losses based on the original observation. TeCH produces high-fidelity 3D clothed humans with consistent & delicate texture, and detailed full-body geometry. Quantitative and qualitative experiments demonstrate that TeCH outperforms the state-of-the-art methods in terms of reconstruction accuracy and rendering quality. The code will be publicly available for research purposes at https://huangyangyi.github.io/tech
PDF343December 15, 2024