ChatPaper.aiChatPaper

バイナリ選好を超えて:属性の分離による拡散モデルの細粒度基準への適合

Beyond Binary Preference: Aligning Diffusion Models to Fine-grained Criteria by Decoupling Attributes

January 7, 2026
著者: Chenye Meng, Zejian Li, Zhongni Liu, Yize Li, Changle Xie, Kaixin Jia, Ling Yang, Huanghuang Deng, Shiying Ding, Shengyuan Zhang, Jiayi Li, Lingyun Sun
cs.AI

要旨

拡散モデルの学習後アライメントは、スカラー報酬や二値選好といった単純化された信号に依存している。これは、階層的かつ細粒度である複雑な人間の専門知識との整合性を制限している。この問題に対処するため、我々はまず、ドメイン専門家と協力して階層的で細粒度な評価基準を構築し、画像品質を木構造で組織化された複数の肯定的属性と否定的属性に分解する。これを基盤として、二段階のアライメントフレームワークを提案する。第一段階では、教師ありファインチューニングを通じて補助拡散モデルにドメイン知識を注入する。第二段階では、DPOを拡張した複雑選好最適化(CPO)を導入し、対象の拡散モデルを非二値的・階層的な基準に適合させる。具体的には、補助拡散モデルを用いて、肯定的属性の確率を最大化すると同時に否定的属性の確率を最小化するようにアライメント問題を再定式化する。本手法を絵画生成領域で具体化し、構築した基準に基づいて細粒度属性で注釈付けされた絵画データセットを用いてCPO学習を実施する。大規模な実験により、CPOが生成品質と専門知識との整合性を大幅に向上させ、細粒度基準アライメントの新たな道を開くことを実証する。
English
Post-training alignment of diffusion models relies on simplified signals, such as scalar rewards or binary preferences. This limits alignment with complex human expertise, which is hierarchical and fine-grained. To address this, we first construct a hierarchical, fine-grained evaluation criteria with domain experts, which decomposes image quality into multiple positive and negative attributes organized in a tree structure. Building on this, we propose a two-stage alignment framework. First, we inject domain knowledge to an auxiliary diffusion model via Supervised Fine-Tuning. Second, we introduce Complex Preference Optimization (CPO) that extends DPO to align the target diffusion to our non-binary, hierarchical criteria. Specifically, we reformulate the alignment problem to simultaneously maximize the probability of positive attributes while minimizing the probability of negative attributes with the auxiliary diffusion. We instantiate our approach in the domain of painting generation and conduct CPO training with an annotated dataset of painting with fine-grained attributes based on our criteria. Extensive experiments demonstrate that CPO significantly enhances generation quality and alignment with expertise, opening new avenues for fine-grained criteria alignment.
PDF10January 10, 2026