ChatPaper.aiChatPaper

StyleID:スタイライゼーションに依存しない顔認証のための知覚認識データセットと評価指標

StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition

April 23, 2026
著者: Kwan Yun, Changmin Lee, Ayeong Jeong, Youngseo Kim, Seungmi Lee, Junyong Noh
cs.AI

要旨

創造的な顔のスタイライゼーションは、肖像画を漫画やスケッチ、絵画など多様な視覚的様式で表現しながらも、認識可能なアイデンティティを保持することを目的としています。しかし、通常は自然写真で学習・較正された現在のアイデンティティエンコーダーは、スタイライゼーション下で深刻な脆弱性を示します。これらは、質感やカラーパレットの変化をアイデンティティの変動と誤認したり、幾何学的な誇張を検出できなかったりすることが頻繁にあります。これは、様々な様式や強度にわたるアイデンティティ一貫性を評価・監督するための様式に依存しない枠組みの欠如を露呈しています。 この課題を解決するため、我々はスタイライゼーション下での顔アイデンティティに関する人間の知覚を考慮したデータセットと評価枠組みであるStyleIDを提案します。StyleIDは2つのデータセットで構成されます:(i) 拡散モデルとフローマッチングに基づくスタイライゼーションにおいて、複数の様式強度にわたる人間の同一性判断を捕捉したベンチマークStyleBench-H、(ii) 制御された二択強制選択(2AFC)実験から得られた心理測定的認識強度曲線に基づく監督データセットStyleBench-Sです。 StyleBench-Sを活用して、既存の意味論的エンコーダーを微調整し、様式や強度を超えた類似性順序を人間の知覚と整合させます。実験により、較正されたモデルが人間の判断との有意に高い相関を示し、ドメイン外の画家による肖像画に対する頑健性が向上することが実証されました。全てのデータセット、コード、事前学習済みモデルはhttps://kwanyun.github.io/StyleID_page/で公開されています。
English
Creative face stylization aims to render portraits in diverse visual idioms such as cartoons, sketches, and paintings while retaining recognizable identity. However, current identity encoders, which are typically trained and calibrated on natural photographs, exhibit severe brittleness under stylization. They often mistake changes in texture or color palette for identity drift or fail to detect geometric exaggerations. This reveals the lack of a style-agnostic framework to evaluate and supervise identity consistency across varying styles and strengths. To address this gap, we introduce StyleID, a human perception-aware dataset and evaluation framework for facial identity under stylization. StyleID comprises two datasets: (i) StyleBench-H, a benchmark that captures human same-different verification judgments across diffusion- and flow-matching-based stylization at multiple style strengths, and (ii) StyleBench-S, a supervision set derived from psychometric recognition-strength curves obtained through controlled two-alternative forced-choice (2AFC) experiments. Leveraging StyleBench-S, we fine-tune existing semantic encoders to align their similarity orderings with human perception across styles and strengths. Experiments demonstrate that our calibrated models yield significantly higher correlation with human judgments and enhanced robustness for out-of-domain, artist drawn portraits. All of our datasets, code, and pretrained models are publicly available at https://kwanyun.github.io/StyleID_page/
PDF182April 25, 2026