TeCH: Текстово-управляемая реконструкция реалистичных одетых людей

Аннотация

Несмотря на недавние достижения в области реконструкции одетых людей по одному изображению, точное восстановление "невидимых областей" с высоким уровнем детализации остается нерешенной задачей, которая не получает должного внимания. Существующие методы часто создают излишне сглаженные поверхности с размытой текстурой на обратной стороне. Но как эффективно захватить все визуальные атрибуты человека по одному изображению, которые достаточны для реконструкции невидимых областей (например, вид сзади)? Вдохновленные мощью базовых моделей, TeCH реконструирует 3D-человека, используя 1) описательные текстовые подсказки (например, одежда, цвета, прически), которые автоматически генерируются с помощью модели анализа одежды и визуального вопросно-ответного механизма (VQA), 2) персонализированную тонко настроенную модель диффузии "Текст-в-Изображение" (T2I), которая изучает "неописуемый" внешний вид. Для представления высококачественных 3D-одетых людей с приемлемыми затратами мы предлагаем гибридное 3D-представление на основе DMTet, состоящее из явной сетки формы тела и неявного поля расстояний. Руководствуясь описательными подсказками и персонализированной моделью диффузии T2I, геометрия и текстура 3D-человека оптимизируются с помощью многовидового Score Distillation Sampling (SDS) и потерь реконструкции, основанных на исходном наблюдении. TeCH создает высококачественные 3D-одетые модели с согласованной и детализированной текстурой, а также подробной геометрией всего тела. Количественные и качественные эксперименты демонстрируют, что TeCH превосходит современные методы по точности реконструкции и качеству рендеринга. Код будет доступен для исследовательских целей по адресу https://huangyangyi.github.io/tech.

English

Despite recent research advancements in reconstructing clothed humans from a single image, accurately restoring the "unseen regions" with high-level details remains an unsolved challenge that lacks attention. Existing methods often generate overly smooth back-side surfaces with a blurry texture. But how to effectively capture all visual attributes of an individual from a single image, which are sufficient to reconstruct unseen areas (e.g., the back view)? Motivated by the power of foundation models, TeCH reconstructs the 3D human by leveraging 1) descriptive text prompts (e.g., garments, colors, hairstyles) which are automatically generated via a garment parsing model and Visual Question Answering (VQA), 2) a personalized fine-tuned Text-to-Image diffusion model (T2I) which learns the "indescribable" appearance. To represent high-resolution 3D clothed humans at an affordable cost, we propose a hybrid 3D representation based on DMTet, which consists of an explicit body shape grid and an implicit distance field. Guided by the descriptive prompts + personalized T2I diffusion model, the geometry and texture of the 3D humans are optimized through multi-view Score Distillation Sampling (SDS) and reconstruction losses based on the original observation. TeCH produces high-fidelity 3D clothed humans with consistent & delicate texture, and detailed full-body geometry. Quantitative and qualitative experiments demonstrate that TeCH outperforms the state-of-the-art methods in terms of reconstruction accuracy and rendering quality. The code will be publicly available for research purposes at https://huangyangyi.github.io/tech

TeCH: Текстово-управляемая реконструкция реалистичных одетых людей

TeCH: Text-guided Reconstruction of Lifelike Clothed Humans

Аннотация

Support