이진 선호도를 넘어서: 속성 분리를 통한 디퓨전 모델의 세분화된 기준 정렬
Beyond Binary Preference: Aligning Diffusion Models to Fine-grained Criteria by Decoupling Attributes
January 7, 2026
저자: Chenye Meng, Zejian Li, Zhongni Liu, Yize Li, Changle Xie, Kaixin Jia, Ling Yang, Huanghuang Deng, Shiying Ding, Shengyuan Zhang, Jiayi Li, Lingyun Sun
cs.AI
초록
확산 모델의 학습 후 정렬은 스칼라 보상이나 이진 선호도와 같은 단순화된 신호에 의존합니다. 이는 계층적이고 세분화된 복잡한 인간 전문성을 정렬하는 데 한계가 있습니다. 이를 해결하기 위해 우리는 먼저 도메인 전문가와 함께 계층적이고 세분화된 평가 기준을 구축하여 이미지 품질을 트리 구조로 조직된 다수의 긍정적 및 부정적 속성으로 분해합니다. 이를 바탕으로 두 단계 정렬 프레임워크를 제안합니다. 첫째, 지도 미세 조정을 통해 보조 확산 모델에 도메인 지식을 주입합니다. 둘째, DPO를 확장하여 비이진 계층적 기준에 대상 확산 모델을 정렬하는 복합 선호 최적화(CPO)를 도입합니다. 구체적으로, 우리는 보조 확산 모델을 사용하여 긍정적 속성의 확률은 동시에 최대화하고 부정적 속성의 확률은 최소화하도록 정렬 문제를 재정의합니다. 우리는 회화 생성 도메인에서 이 접근법을 구현하고, 우리의 기준에 기반한 세분화된 속성이 주석 처리된 회화 데이터셋으로 CPO 학습을 수행합니다. 포괄적인 실험을 통해 CPO가 생성 품질과 전문성 정렬을 크게 향상시키며, 세분화된 기준 정렬을 위한 새로운 길을 열어줌을 입증합니다.
English
Post-training alignment of diffusion models relies on simplified signals, such as scalar rewards or binary preferences. This limits alignment with complex human expertise, which is hierarchical and fine-grained. To address this, we first construct a hierarchical, fine-grained evaluation criteria with domain experts, which decomposes image quality into multiple positive and negative attributes organized in a tree structure. Building on this, we propose a two-stage alignment framework. First, we inject domain knowledge to an auxiliary diffusion model via Supervised Fine-Tuning. Second, we introduce Complex Preference Optimization (CPO) that extends DPO to align the target diffusion to our non-binary, hierarchical criteria. Specifically, we reformulate the alignment problem to simultaneously maximize the probability of positive attributes while minimizing the probability of negative attributes with the auxiliary diffusion. We instantiate our approach in the domain of painting generation and conduct CPO training with an annotated dataset of painting with fine-grained attributes based on our criteria. Extensive experiments demonstrate that CPO significantly enhances generation quality and alignment with expertise, opening new avenues for fine-grained criteria alignment.