TeCH: Текстово-управляемая реконструкция реалистичных одетых людей
TeCH: Text-guided Reconstruction of Lifelike Clothed Humans
August 16, 2023
Авторы: Yangyi Huang, Hongwei Yi, Yuliang Xiu, Tingting Liao, Jiaxiang Tang, Deng Cai, Justus Thies
cs.AI
Аннотация
Несмотря на недавние достижения в области реконструкции одетых людей по одному изображению, точное восстановление "невидимых областей" с высоким уровнем детализации остается нерешенной задачей, которая не получает должного внимания. Существующие методы часто создают излишне сглаженные поверхности с размытой текстурой на обратной стороне. Но как эффективно захватить все визуальные атрибуты человека по одному изображению, которые достаточны для реконструкции невидимых областей (например, вид сзади)? Вдохновленные мощью базовых моделей, TeCH реконструирует 3D-человека, используя 1) описательные текстовые подсказки (например, одежда, цвета, прически), которые автоматически генерируются с помощью модели анализа одежды и визуального вопросно-ответного механизма (VQA), 2) персонализированную тонко настроенную модель диффузии "Текст-в-Изображение" (T2I), которая изучает "неописуемый" внешний вид. Для представления высококачественных 3D-одетых людей с приемлемыми затратами мы предлагаем гибридное 3D-представление на основе DMTet, состоящее из явной сетки формы тела и неявного поля расстояний. Руководствуясь описательными подсказками и персонализированной моделью диффузии T2I, геометрия и текстура 3D-человека оптимизируются с помощью многовидового Score Distillation Sampling (SDS) и потерь реконструкции, основанных на исходном наблюдении. TeCH создает высококачественные 3D-одетые модели с согласованной и детализированной текстурой, а также подробной геометрией всего тела. Количественные и качественные эксперименты демонстрируют, что TeCH превосходит современные методы по точности реконструкции и качеству рендеринга. Код будет доступен для исследовательских целей по адресу https://huangyangyi.github.io/tech.
English
Despite recent research advancements in reconstructing clothed humans from a
single image, accurately restoring the "unseen regions" with high-level details
remains an unsolved challenge that lacks attention. Existing methods often
generate overly smooth back-side surfaces with a blurry texture. But how to
effectively capture all visual attributes of an individual from a single image,
which are sufficient to reconstruct unseen areas (e.g., the back view)?
Motivated by the power of foundation models, TeCH reconstructs the 3D human by
leveraging 1) descriptive text prompts (e.g., garments, colors, hairstyles)
which are automatically generated via a garment parsing model and Visual
Question Answering (VQA), 2) a personalized fine-tuned Text-to-Image diffusion
model (T2I) which learns the "indescribable" appearance. To represent
high-resolution 3D clothed humans at an affordable cost, we propose a hybrid 3D
representation based on DMTet, which consists of an explicit body shape grid
and an implicit distance field. Guided by the descriptive prompts +
personalized T2I diffusion model, the geometry and texture of the 3D humans are
optimized through multi-view Score Distillation Sampling (SDS) and
reconstruction losses based on the original observation. TeCH produces
high-fidelity 3D clothed humans with consistent & delicate texture, and
detailed full-body geometry. Quantitative and qualitative experiments
demonstrate that TeCH outperforms the state-of-the-art methods in terms of
reconstruction accuracy and rendering quality. The code will be publicly
available for research purposes at https://huangyangyi.github.io/tech