StyleID: 스타일화에 구애받지 않는 얼굴 인식을 위한 인지 기반 데이터셋 및 평가 기준
StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition
April 23, 2026
저자: Kwan Yun, Changmin Lee, Ayeong Jeong, Youngseo Kim, Seungmi Lee, Junyong Noh
cs.AI
초록
창의적 얼굴 스타일화는 캐릭터, 스케치, 그림 등 다양한 시각적 양식으로 초상화를 표현하면서도 식별 가능한 정체성을 유지하는 것을 목표로 합니다. 그러나 현재의 정체성 인코더는 일반적으로 자연스러운 사진으로 훈련 및 보정되기 때문에 스타일화 상황에서 심각한 취약성을 보입니다. 이러한 인코더들은 질감이나 색상 팔레트의 변화를 정체성 변화로 오인하거나 기하학적 과장을 감지하지 못하는 경우가 많습니다. 이는 다양한 스타일과 강도에 걸쳐 정체성 일관성을 평가하고 감독할 수 있는 스타일-불가지론적 프레임워크의 부재를 드러냅니다. 이러한 격차를 해결하기 위해 우리는 스타일화된 얼굴의 정체성을 위한 인간 인식 인식 데이터셋 및 평가 프레임워크인 StyleID를 소개합니다. StyleID는 두 가지 데이터셋으로 구성됩니다: (i) 확산 기반 및 흐름 매칭 기반 스타일화에 대해 여러 스타일 강도에서 인간의 동일-다름 판단을 포착한 벤치마크인 StyleBench-H, 그리고 (ii) 통제된 2-선택 강제 선택 실험을 통해 얻은 심리측정적 인식 강도 곡선에서 도출된 감독용 데이터셋인 StyleBench-S입니다. StyleBench-S를 활용하여, 우리는 기존 의미론적 인코더들을 미세 조정하여 스타일과 강도에 걸친 유사성 순서를 인간의 인식과 일치하도록 조정합니다. 실험 결과, 우리가 보정한 모델들은 인간 판단과 훨씬 더 높은 상관관계를 보이며, 도메인 외 예술가 드로잉 초상화에 대해 향상된 강건성을 달성함을 확인했습니다. 우리의 모든 데이터셋, 코드 및 사전 훈련된 모델은 https://kwanyun.github.io/StyleID_page/에서 공개되어 있습니다.
English
Creative face stylization aims to render portraits in diverse visual idioms such as cartoons, sketches, and paintings while retaining recognizable identity. However, current identity encoders, which are typically trained and calibrated on natural photographs, exhibit severe brittleness under stylization. They often mistake changes in texture or color palette for identity drift or fail to detect geometric exaggerations. This reveals the lack of a style-agnostic framework to evaluate and supervise identity consistency across varying styles and strengths. To address this gap, we introduce StyleID, a human perception-aware dataset and evaluation framework for facial identity under stylization. StyleID comprises two datasets: (i) StyleBench-H, a benchmark that captures human same-different verification judgments across diffusion- and flow-matching-based stylization at multiple style strengths, and (ii) StyleBench-S, a supervision set derived from psychometric recognition-strength curves obtained through controlled two-alternative forced-choice (2AFC) experiments. Leveraging StyleBench-S, we fine-tune existing semantic encoders to align their similarity orderings with human perception across styles and strengths. Experiments demonstrate that our calibrated models yield significantly higher correlation with human judgments and enhanced robustness for out-of-domain, artist drawn portraits. All of our datasets, code, and pretrained models are publicly available at https://kwanyun.github.io/StyleID_page/