Position : La complexité de l'alignement parfait de l'IA -- Formalisation du trilemme de l'Apprentissage par Renforcement à partir de la Rétroaction Humaine
Position: The Complexity of Perfect AI Alignment -- Formalizing the RLHF Trilemma
November 23, 2025
papers.authors: Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary
cs.AI
papers.abstract
L'apprentissage par renforcement à partir de retours humains (RLHF) est largement utilisé pour aligner les grands modèles de langage, mais les praticiens sont confrontés à une énigme persistante : l'amélioration de la sécurité réduit souvent l'équité, la mise à l'échelle à des populations diverses devient informatiquement intraitable, et le renforcement de la robustesse des systèmes amplifie souvent les biais majoritaires. Nous formalisons cette tension sous le nom de Trilemme de l'Alignement : aucun système RLHF ne peut simultanément atteindre (i) une epsilon-représentativité sur des valeurs humaines diverses, (ii) une tractabilité polynomiale en complexité d'échantillonnage et de calcul, et (iii) une delta-robustesse contre les perturbations adverses et les décalages de distribution. Par une analyse de complexité théorique intégrant la théorie de l'apprentissage statistique et l'optimisation robuste, nous prouvons qu'atteindre à la fois la représentativité (epsilon <= 0.01) et la robustesse (delta <= 0.001) pour des populations à l'échelle mondiale nécessite des opérations en Omega(2^{d_contexte}), ce qui est super-polynomial dans la dimensionnalité du contexte. Nous montrons que les implémentations actuelles du RLHF résolvent ce trilemme en sacrifiant la représentativité : elles collectent seulement 10^3–10^4 échantillons auprès de pools d'annotateurs homogènes alors que 10^7–10^8 échantillons sont nécessaires pour une véritable représentation globale. Notre cadre fournit une explication unifiée pour les pathologies documentées du RLHF, incluant l'effondrement des préférences, la flagornerie et l'amplification des biais systématiques. Nous concluons par des orientations concrètes pour naviguer ces compromis fondamentaux via des assouplissements stratégiques des exigences d'alignement.
English
Reinforcement Learning from Human Feedback (RLHF) is widely used for aligning large language models, yet practitioners face a persistent puzzle: improving safety often reduces fairness, scaling to diverse populations becomes computationally intractable, and making systems robust often amplifies majority biases. We formalize this tension as the Alignment Trilemma: no RLHF system can simultaneously achieve (i) epsilon-representativeness across diverse human values, (ii) polynomial tractability in sample and compute complexity, and (iii) delta-robustness against adversarial perturbations and distribution shift. Through a complexity-theoretic analysis integrating statistical learning theory and robust optimization, we prove that achieving both representativeness (epsilon <= 0.01) and robustness (delta <= 0.001) for global-scale populations requires Omega(2^{d_context}) operations, which is super-polynomial in the context dimensionality. We show that current RLHF implementations resolve this trilemma by sacrificing representativeness: they collect only 10^3--10^4 samples from homogeneous annotator pools while 10^7--10^8 samples are needed for true global representation. Our framework provides a unified explanation for documented RLHF pathologies including preference collapse, sycophancy, and systematic bias amplification. We conclude with concrete directions for navigating these fundamental trade-offs through strategic relaxations of alignment requirements.