Position: Die Komplexität perfekter KI-Abgleichung – Formalisierung des RLHF-Trilemmas
Position: The Complexity of Perfect AI Alignment -- Formalizing the RLHF Trilemma
November 23, 2025
papers.authors: Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary
cs.AI
papers.abstract
Reinforcement Learning from Human Feedback (RLHF) wird häufig zur Abstimmung großer Sprachmodelle eingesetzt, doch Praktiker stehen vor einem anhaltenden Rätsel: Verbesserungen der Sicherheit verringern oft die Fairness, die Skalierung auf diverse Bevölkerungsgruppen wird rechentechnisch unlösbar, und die Erhöhung der Robustheit verstärkt häufig Mehrheitsverzerrungen. Wir formalisieren diesen Zielkonflikt als Alignment-Trilemma: Kein RLHF-System kann gleichzeitig (i) Epsilon-Repräsentativität über diverse menschliche Werte hinweg, (ii) polynomielle Handhabbarkeit in Stichproben- und Rechenkomplexität sowie (iii) Delta-Robustheit gegen adversarielle Störungen und Distributionsverschiebungen erreichen. Durch eine komplexitätstheoretische Analyse, die statistische Lerntheorie und robuste Optimierung integriert, beweisen wir, dass das Erreichen sowohl von Repräsentativität (Epsilon ≤ 0,01) als auch von Robustheit (Delta ≤ 0,001) für globale Bevölkerungsgruppen Omega(2^{d_Kontext}) Operationen erfordert, was super-polynomiell in der Kontextdimensionalität ist. Wir zeigen, dass aktuelle RLHF-Implementierungen dieses Trilemma durch den Verzicht auf Repräsentativität auflösen: Sie erfassen nur 10³–10⁴ Stichproben aus homogenen Annotator-Pools, während 10⁷–10⁸ Stichproben für eine wirklich globale Repräsentation erforderlich wären. Unser Rahmenwerk bietet eine einheitliche Erklärung für dokumentierte RLHF-Pathologien, einschließlich Präferenzkollaps, Sykophantie und systematischer Verzerrungsverstärkung. Wir schließen mit konkreten Ansätzen, um diese fundamentalen Zielkonflikte durch strategische Lockerungen der Abstimmungsanforderungen zu bewältigen.
English
Reinforcement Learning from Human Feedback (RLHF) is widely used for aligning large language models, yet practitioners face a persistent puzzle: improving safety often reduces fairness, scaling to diverse populations becomes computationally intractable, and making systems robust often amplifies majority biases. We formalize this tension as the Alignment Trilemma: no RLHF system can simultaneously achieve (i) epsilon-representativeness across diverse human values, (ii) polynomial tractability in sample and compute complexity, and (iii) delta-robustness against adversarial perturbations and distribution shift. Through a complexity-theoretic analysis integrating statistical learning theory and robust optimization, we prove that achieving both representativeness (epsilon <= 0.01) and robustness (delta <= 0.001) for global-scale populations requires Omega(2^{d_context}) operations, which is super-polynomial in the context dimensionality. We show that current RLHF implementations resolve this trilemma by sacrificing representativeness: they collect only 10^3--10^4 samples from homogeneous annotator pools while 10^7--10^8 samples are needed for true global representation. Our framework provides a unified explanation for documented RLHF pathologies including preference collapse, sycophancy, and systematic bias amplification. We conclude with concrete directions for navigating these fundamental trade-offs through strategic relaxations of alignment requirements.