TeCH: Ricostruzione guidata da testo di umani vestiti realistici

Abstract

Nonostante i recenti progressi nella ricerca sulla ricostruzione di esseri umani vestiti a partire da una singola immagine, il ripristino accurato delle "regioni non visibili" con dettagli di alto livello rimane una sfida irrisolta che riceve poca attenzione. I metodi esistenti spesso generano superfici posteriori eccessivamente levigate con texture sfocate. Ma come catturare efficacemente tutti gli attributi visivi di un individuo da una singola immagine, sufficienti a ricostruire le aree non visibili (ad esempio, la vista posteriore)? Ispirati dalla potenza dei modelli di base, TeCH ricostruisce l'umano 3D sfruttando 1) prompt testuali descrittivi (ad esempio, abbigliamento, colori, acconciature) generati automaticamente tramite un modello di analisi dell'abbigliamento e Visual Question Answering (VQA), 2) un modello di diffusione Text-to-Image (T2I) personalizzato e fine-tuned che apprende l'aspetto "indescrivibile". Per rappresentare esseri umani vestiti in 3D ad alta risoluzione a un costo accessibile, proponiamo una rappresentazione 3D ibrida basata su DMTet, che consiste in una griglia esplicita della forma del corpo e un campo di distanza implicito. Guidati dai prompt descrittivi e dal modello di diffusione T2I personalizzato, la geometria e la texture degli umani 3D vengono ottimizzate attraverso il campionamento di distillazione del punteggio multi-vista (SDS) e le perdite di ricostruzione basate sull'osservazione originale. TeCH produce esseri umani vestiti in 3D ad alta fedeltà con texture coerenti e raffinate, e una geometria corporea dettagliata. Esperimenti quantitativi e qualitativi dimostrano che TeCH supera i metodi all'avanguardia in termini di accuratezza di ricostruzione e qualità di rendering. Il codice sarà pubblicamente disponibile per scopi di ricerca all'indirizzo https://huangyangyi.github.io/tech.

English

Despite recent research advancements in reconstructing clothed humans from a single image, accurately restoring the "unseen regions" with high-level details remains an unsolved challenge that lacks attention. Existing methods often generate overly smooth back-side surfaces with a blurry texture. But how to effectively capture all visual attributes of an individual from a single image, which are sufficient to reconstruct unseen areas (e.g., the back view)? Motivated by the power of foundation models, TeCH reconstructs the 3D human by leveraging 1) descriptive text prompts (e.g., garments, colors, hairstyles) which are automatically generated via a garment parsing model and Visual Question Answering (VQA), 2) a personalized fine-tuned Text-to-Image diffusion model (T2I) which learns the "indescribable" appearance. To represent high-resolution 3D clothed humans at an affordable cost, we propose a hybrid 3D representation based on DMTet, which consists of an explicit body shape grid and an implicit distance field. Guided by the descriptive prompts + personalized T2I diffusion model, the geometry and texture of the 3D humans are optimized through multi-view Score Distillation Sampling (SDS) and reconstruction losses based on the original observation. TeCH produces high-fidelity 3D clothed humans with consistent & delicate texture, and detailed full-body geometry. Quantitative and qualitative experiments demonstrate that TeCH outperforms the state-of-the-art methods in terms of reconstruction accuracy and rendering quality. The code will be publicly available for research purposes at https://huangyangyi.github.io/tech

TeCH: Ricostruzione guidata da testo di umani vestiti realistici

TeCH: Text-guided Reconstruction of Lifelike Clothed Humans

Abstract

Support