PixelSmile: Hacia una Edición Detallada de Expresiones Faciales
PixelSmile: Toward Fine-Grained Facial Expression Editing
March 26, 2026
Autores: Jiabin Hua, Hengyuan Xu, Aojie Li, Wei Cheng, Gang Yu, Xingjun Ma, Yu-Gang Jiang
cs.AI
Resumen
La edición de expresiones faciales de grano fino ha estado limitada históricamente por el solapamiento semántico intrínseco. Para abordar este problema, construimos el conjunto de datos FFE (Flex Facial Expression) con anotaciones afectivas continuas y establecemos FFE-Bench para evaluar la confusión estructural, la precisión de la edición, la controlabilidad lineal y la compensación entre la edición de expresiones y la preservación de la identidad. Proponemos PixelSmile, un framework de difusión que desentrelaza la semántica de las expresiones mediante un entrenamiento conjunto completamente simétrico. PixelSmile combina la supervisión de intensidad con el aprendizaje contrastivo para producir expresiones más intensas y distinguibles, logrando un control lineal de expresiones preciso y estable mediante la interpolación latente textual. Experimentos exhaustivos demuestran que PixelSmile alcanza un desentrelazado superior y una preservación de identidad robusta, confirmando su eficacia para la edición de expresiones continua, controlable y de grano fino, mientras que admite de forma natural la mezcla suave de expresiones.
English
Fine-grained facial expression editing has long been limited by intrinsic semantic overlap. To address this, we construct the Flex Facial Expression (FFE) dataset with continuous affective annotations and establish FFE-Bench to evaluate structural confusion, editing accuracy, linear controllability, and the trade-off between expression editing and identity preservation. We propose PixelSmile, a diffusion framework that disentangles expression semantics via fully symmetric joint training. PixelSmile combines intensity supervision with contrastive learning to produce stronger and more distinguishable expressions, achieving precise and stable linear expression control through textual latent interpolation. Extensive experiments demonstrate that PixelSmile achieves superior disentanglement and robust identity preservation, confirming its effectiveness for continuous, controllable, and fine-grained expression editing, while naturally supporting smooth expression blending.