Позиция: Сложность достижения идеального согласования ИИ — Формализация трилеммы RLHF
Position: The Complexity of Perfect AI Alignment -- Formalizing the RLHF Trilemma
November 23, 2025
Авторы: Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary
cs.AI
Аннотация
Обучение с подкреплением на основе человеческих откликов (RLHF) широко используется для согласования больших языковых моделей, однако на практике сохраняется сложная проблема: повышение безопасности часто снижает справедливость, масштабирование на разнородные популяции становится вычислительно неразрешимым, а повышение устойчивости систем часто усиливает смещения в пользу большинства. Мы формализуем это противоречие как Трилемму Согласования: не существует системы RLHF, способной одновременно достичь (i) ε-репрезентативности для разнообразных человеческих ценностей, (ii) полиномиальной разрешимости по объему выборки и вычислительной сложности и (iii) δ-устойчивости к adversarial-возмущениям и сдвигам распределения. Посредством теоретико-сложностного анализа, интегрирующего теорию статистического обучения и робастную оптимизацию, мы доказываем, что достижение как репрезентативности (ε ≤ 0.01), так и устойчивости (δ ≤ 0.001) для популяций глобального масштаба требует Ω(2^{d_контекста}) операций, что является суперполиномиальной сложностью относительно размерности контекста. Мы показываем, что современные реализации RLHF разрешают эту трилемму, жертвуя репрезентативностью: они собирают лишь 10³–10⁴ примеров от однородных пулов аннотаторов, тогда как для истинного глобального представительства необходимо 10⁷–10⁸ образцов. Наша framework-модель дает единое объяснение задокументированным патологиям RLHF, включая коллапс предпочтений, сикофантство и систематическое усиление смещений. В заключение мы предлагаем конкретные направления для навигации по этим фундаментальным компромиссам посредством стратегического ослабления требований согласования.
English
Reinforcement Learning from Human Feedback (RLHF) is widely used for aligning large language models, yet practitioners face a persistent puzzle: improving safety often reduces fairness, scaling to diverse populations becomes computationally intractable, and making systems robust often amplifies majority biases. We formalize this tension as the Alignment Trilemma: no RLHF system can simultaneously achieve (i) epsilon-representativeness across diverse human values, (ii) polynomial tractability in sample and compute complexity, and (iii) delta-robustness against adversarial perturbations and distribution shift. Through a complexity-theoretic analysis integrating statistical learning theory and robust optimization, we prove that achieving both representativeness (epsilon <= 0.01) and robustness (delta <= 0.001) for global-scale populations requires Omega(2^{d_context}) operations, which is super-polynomial in the context dimensionality. We show that current RLHF implementations resolve this trilemma by sacrificing representativeness: they collect only 10^3--10^4 samples from homogeneous annotator pools while 10^7--10^8 samples are needed for true global representation. Our framework provides a unified explanation for documented RLHF pathologies including preference collapse, sycophancy, and systematic bias amplification. We conclude with concrete directions for navigating these fundamental trade-offs through strategic relaxations of alignment requirements.