ChatPaper.aiChatPaper

タイトル:完全なAIアロインメントの複雑さ――RLHFトリレンマの形式化

Position: The Complexity of Perfect AI Alignment -- Formalizing the RLHF Trilemma

November 23, 2025
著者: Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary
cs.AI

要旨

人間フィードバックによる強化学習(RLHF)は大規模言語モデルのアライメント手法として広く用いられているが、実践者には解決困難な課題が残されている。安全性の向上が公平性の低下を招き、多様な集団へのスケーリングが計算量的に困難となり、システムの頑健性を高めると多数派バイアスが増幅されるというジレンマである。本研究はこの緊張関係を**アライメントの三項対立(Alignment Trilemma)**として定式化する。すなわち、いかなるRLHFシステムも、(i)多様な人間の価値観に対するε-代表性、(ii)サンプル数と計算量に関する多項式時間での処理可能性、(iii)敵対的摂動や分布シフトに対するδ-頑健性、の三条件を同時に達成することは不可能である。統計的学習理論とロバスト最適化を統合した計算量理論的分析により、地球規模の人口を対象に代表性(ε ≤ 0.01)と頑健性(δ ≤ 0.001)を両立させるには、文脈次元に対して超多項式時間となるΩ(2^{d_context})回の演算が必要であることを証明する。現行のRLHF実装は代表性を犠牲にこの対立を解決していることを示す。均質な注釈者プールから10^3~10^4件のサンプルを収集する現行手法に対し、真の地球規模代表性には10^7~10^8件のサンプルが必要である。本フレームワークは、選好崩壊(preference collapse)、ご機嫌取り(sycophancy)、系統的バイアス増幅といったRLHFの病理現象を統一的に説明する。最後に、アライメント要件の戦略的緩和を通じてこれらの根本的トレードオフを調整する具体的な方向性を提示する。
English
Reinforcement Learning from Human Feedback (RLHF) is widely used for aligning large language models, yet practitioners face a persistent puzzle: improving safety often reduces fairness, scaling to diverse populations becomes computationally intractable, and making systems robust often amplifies majority biases. We formalize this tension as the Alignment Trilemma: no RLHF system can simultaneously achieve (i) epsilon-representativeness across diverse human values, (ii) polynomial tractability in sample and compute complexity, and (iii) delta-robustness against adversarial perturbations and distribution shift. Through a complexity-theoretic analysis integrating statistical learning theory and robust optimization, we prove that achieving both representativeness (epsilon <= 0.01) and robustness (delta <= 0.001) for global-scale populations requires Omega(2^{d_context}) operations, which is super-polynomial in the context dimensionality. We show that current RLHF implementations resolve this trilemma by sacrificing representativeness: they collect only 10^3--10^4 samples from homogeneous annotator pools while 10^7--10^8 samples are needed for true global representation. Our framework provides a unified explanation for documented RLHF pathologies including preference collapse, sycophancy, and systematic bias amplification. We conclude with concrete directions for navigating these fundamental trade-offs through strategic relaxations of alignment requirements.
PDF12December 1, 2025