제목: 완벽한 AI 정렬의 복잡성 — RLHF 삼중 딜레마의 정형화
Position: The Complexity of Perfect AI Alignment -- Formalizing the RLHF Trilemma
November 23, 2025
저자: Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary
cs.AI
초록
인간 피드백 강화학습(RLHF)은 대규모 언어 모델 정렬에 널리 사용되지만, 실무자들은 지속적인 딜레마에 직면합니다: 안전성 향상은 공정성을 저하시키는 경우가 많고, 다양한 인구 집단으로의 확장은 계산적으로 다루기 어려워지며, 시스템 강건성을 높이는 것은 다수 편향을 증폭시키는 경향이 있습니다. 우리는 이러한 긴장 관계를 '정렬 삼중 딜레마'로 공식화합니다: 어떤 RLHF 시스템도 (i) 다양한 인간 가치에 걸친 엡실론-대표성, (ii) 샘플 및 계산 복잡도에서의 다항식적 다루기 쉬움, (iii) 적대적 교란 및 분포 변화에 대한 델타-강건성을 동시에 달성할 수 없습니다. 통계적 학습 이론과 강건 최적화를 통합한 복잡도 이론적 분석을 통해, 우리는 글로벌 규모 인구 집단에 대해 대표성(ε ≤ 0.01)과 강건성(δ ≤ 0.001)을 모두 달성하는 것이 컨텍스트 차원에서 초다항식인 Ω(2^{d_context}) 연산을 필요로 함을 증명합니다. 현재 RLHF 구현은 이 삼중 딜레마를 대표성을 희생하여 해결함을 보입니다: 동질적인 주석자 집단에서 단 10^3–10^4개의 샘플만 수집하는 반면, 진정한 글로벌 대표성에는 10^7–10^8개의 샘플이 필요합니다. 우리의 프레임워크는 선호도 붕괴, 아첨, 체계적 편향 증폭 등 문서화된 RLHF 병리 현상에 대한 통합적 설명을 제공합니다. 우리는 정렬 요구사항의 전략적 완화를 통해 이러한 근본적인 트레이드오프를 탐색하는 구체적인 방향으로 결론을 맺습니다.
English
Reinforcement Learning from Human Feedback (RLHF) is widely used for aligning large language models, yet practitioners face a persistent puzzle: improving safety often reduces fairness, scaling to diverse populations becomes computationally intractable, and making systems robust often amplifies majority biases. We formalize this tension as the Alignment Trilemma: no RLHF system can simultaneously achieve (i) epsilon-representativeness across diverse human values, (ii) polynomial tractability in sample and compute complexity, and (iii) delta-robustness against adversarial perturbations and distribution shift. Through a complexity-theoretic analysis integrating statistical learning theory and robust optimization, we prove that achieving both representativeness (epsilon <= 0.01) and robustness (delta <= 0.001) for global-scale populations requires Omega(2^{d_context}) operations, which is super-polynomial in the context dimensionality. We show that current RLHF implementations resolve this trilemma by sacrificing representativeness: they collect only 10^3--10^4 samples from homogeneous annotator pools while 10^7--10^8 samples are needed for true global representation. Our framework provides a unified explanation for documented RLHF pathologies including preference collapse, sycophancy, and systematic bias amplification. We conclude with concrete directions for navigating these fundamental trade-offs through strategic relaxations of alignment requirements.