Positie: De complexiteit van perfecte AI-afstemming – Het formaliseren van het RLHF-trilemma
Position: The Complexity of Perfect AI Alignment -- Formalizing the RLHF Trilemma
November 23, 2025
Auteurs: Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary
cs.AI
Samenvatting
Reinforcement Learning from Human Feedback (RLHF) wordt veel gebruikt voor het afstemmen van grote taalmodellen, maar praktijkmensen worden geconfronteerd met een hardnekkig probleem: het verbeteren van veiligheid gaat vaak ten koste van rechtvaardigheid, het schalen naar diverse populaties wordt computationeel onhandelbaar, en het robuust maken van systemen versterkt vaak meerderheidsvooroordelen. Wij formaliseren deze spanning als het Alignment Trilemma: geen enkel RLHF-systeem kan gelijktijdig (i) epsilon-representativiteit over diverse menselijke waarden, (ii) polynomiale hanteerbaarheid in steekproef- en rekencomplexiteit, en (iii) delta-robuustheid tegen adversariële perturbaties en distributieverschuiving bereiken. Door middel van een complexiteitstheoretische analyse die statistische leertheorie en robuuste optimalisatie integreert, bewijzen wij dat het bereiken van zowel representativiteit (epsilon <= 0.01) als robuustheid (delta <= 0.001) voor populaties op mondiale schaal Omega(2^{d_context}) bewerkingen vereist, wat super-polynomiaal is in de contextdimensie. Wij tonen aan dat huidige RLHF-implementaties dit trilemma oplossen door in te leveren op representativiteit: zij verzamelen slechts 10^3–10^4 steekproeven van homogene beoordelaarsgroepen, terwijl 10^7–10^8 steekproeven nodig zijn voor echte mondiale representatie. Ons kader biedt een verenigende verklaring voor gedocumenteerde RLHF-pathologieën, waaronder voorkeurscollaps, sycofantie en systematische versterking van vooroordelen. Wij sluiten af met concrete richtingen voor het navigeren door deze fundamentele afwegingen via strategische versoepeling van afstemmingseisen.
English
Reinforcement Learning from Human Feedback (RLHF) is widely used for aligning large language models, yet practitioners face a persistent puzzle: improving safety often reduces fairness, scaling to diverse populations becomes computationally intractable, and making systems robust often amplifies majority biases. We formalize this tension as the Alignment Trilemma: no RLHF system can simultaneously achieve (i) epsilon-representativeness across diverse human values, (ii) polynomial tractability in sample and compute complexity, and (iii) delta-robustness against adversarial perturbations and distribution shift. Through a complexity-theoretic analysis integrating statistical learning theory and robust optimization, we prove that achieving both representativeness (epsilon <= 0.01) and robustness (delta <= 0.001) for global-scale populations requires Omega(2^{d_context}) operations, which is super-polynomial in the context dimensionality. We show that current RLHF implementations resolve this trilemma by sacrificing representativeness: they collect only 10^3--10^4 samples from homogeneous annotator pools while 10^7--10^8 samples are needed for true global representation. Our framework provides a unified explanation for documented RLHF pathologies including preference collapse, sycophancy, and systematic bias amplification. We conclude with concrete directions for navigating these fundamental trade-offs through strategic relaxations of alignment requirements.