ChatPaper.aiChatPaper

DreamID: Intercambio de rostros basado en difusión de alta fidelidad y rápida mediante aprendizaje grupal de tripletas de identidad

DreamID: High-Fidelity and Fast diffusion-based Face Swapping via Triplet ID Group Learning

April 20, 2025
Autores: Fulong Ye, Miao Hua, Pengze Zhang, Xinghui Li, Qichao Sun, Songtao Zhao, Qian He, Xinglong Wu
cs.AI

Resumen

En este artículo presentamos DreamID, un modelo de intercambio facial basado en difusión que logra altos niveles de similitud de identidad, preservación de atributos, fidelidad de imagen y velocidad de inferencia rápida. A diferencia del proceso típico de entrenamiento para intercambio facial, que a menudo depende de supervisión implícita y lucha por alcanzar resultados satisfactorios, DreamID establece una supervisión explícita para el intercambio facial mediante la construcción de datos de Grupos de Identidad Triplet, mejorando significativamente la similitud de identidad y la preservación de atributos. La naturaleza iterativa de los modelos de difusión plantea desafíos para utilizar funciones de pérdida eficientes en el espacio de imagen, ya que realizar un muestreo de múltiples pasos que consume tiempo para obtener la imagen generada durante el entrenamiento es poco práctico. Para abordar este problema, aprovechamos el modelo de difusión acelerada SD Turbo, reduciendo los pasos de inferencia a una sola iteración, lo que permite un entrenamiento eficiente de extremo a extremo a nivel de píxeles con supervisión explícita de Grupos de Identidad Triplet. Además, proponemos una arquitectura mejorada basada en difusión que comprende SwapNet, FaceNet y ID Adapter. Esta arquitectura robusta desbloquea completamente el poder de la supervisión explícita de Grupos de Identidad Triplet. Finalmente, para extender aún más nuestro método, modificamos explícitamente los datos de Grupos de Identidad Triplet durante el entrenamiento para ajustar y preservar atributos específicos, como gafas y forma del rostro. Experimentos extensos demuestran que DreamID supera a los métodos más avanzados en términos de similitud de identidad, preservación de pose y expresión, y fidelidad de imagen. En general, DreamID logra resultados de intercambio facial de alta calidad a una resolución de 512*512 en solo 0.6 segundos y se desempeña excepcionalmente bien en escenarios desafiantes como iluminación compleja, ángulos grandes y oclusiones.
English
In this paper, we introduce DreamID, a diffusion-based face swapping model that achieves high levels of ID similarity, attribute preservation, image fidelity, and fast inference speed. Unlike the typical face swapping training process, which often relies on implicit supervision and struggles to achieve satisfactory results. DreamID establishes explicit supervision for face swapping by constructing Triplet ID Group data, significantly enhancing identity similarity and attribute preservation. The iterative nature of diffusion models poses challenges for utilizing efficient image-space loss functions, as performing time-consuming multi-step sampling to obtain the generated image during training is impractical. To address this issue, we leverage the accelerated diffusion model SD Turbo, reducing the inference steps to a single iteration, enabling efficient pixel-level end-to-end training with explicit Triplet ID Group supervision. Additionally, we propose an improved diffusion-based model architecture comprising SwapNet, FaceNet, and ID Adapter. This robust architecture fully unlocks the power of the Triplet ID Group explicit supervision. Finally, to further extend our method, we explicitly modify the Triplet ID Group data during training to fine-tune and preserve specific attributes, such as glasses and face shape. Extensive experiments demonstrate that DreamID outperforms state-of-the-art methods in terms of identity similarity, pose and expression preservation, and image fidelity. Overall, DreamID achieves high-quality face swapping results at 512*512 resolution in just 0.6 seconds and performs exceptionally well in challenging scenarios such as complex lighting, large angles, and occlusions.

Summary

AI-Generated Summary

PDF488April 24, 2025