ChatPaper.aiChatPaper

Posizione: La Complessità dell'Allineamento Perfetto dell'IA – Formalizzazione del Trilemma RLHF

Position: The Complexity of Perfect AI Alignment -- Formalizing the RLHF Trilemma

November 23, 2025
Autori: Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary
cs.AI

Abstract

L’apprendimento per rinforzo tramite feedback umano (RLHF) è ampiamente utilizzato per l’allineamento dei grandi modelli linguistici, eppure i professionisti si trovano di fronte a un enigma persistente: migliorare la sicurezza spesso riduce l’equità, scalare a popolazioni diverse diventa computazionalmente intrattabile e rendere i sistemi robusti spesso amplifica i bias delle maggioranze. Formalizziamo questa tensione come il Trilemma dell’Allineamento: nessun sistema RLHF può raggiungere simultaneamente (i) epsilon-rappresentatività attraverso diversi valori umani, (ii) trattabilità polinomiale in complessità campionaria e computazionale, e (iii) delta-robustezza contro perturbazioni avversarie e cambi di distribuzione. Attraverso un’analisi di teoria della complessità che integra la teoria statistica dell’apprendimento e l’ottimizzazione robusta, dimostriamo che raggiungere sia la rappresentatività (epsilon ≤ 0.01) che la robustezza (delta ≤ 0.001) per popolazioni su scala globale richiede operazioni di Omega(2^{d_contesto}), che è super-polinomiale nella dimensionalità del contesto. Mostriamo che le attuali implementazioni RLHF risolvono questo trilemma sacrificando la rappresentatività: raccolgono solo 10^3–10^4 campioni da pool di annotatori omogenei, mentre sarebbero necessari 10^7–10^8 campioni per una vera rappresentazione globale. Il nostro framework fornisce una spiegazione unificata per le patologie documentate dell’RLHF, inclusi il collasso delle preferenze, la sicofanza e l’amplificazione sistematica dei bias. Concludiamo con indicazioni concrete per navigare questi compromessi fondamentali attraverso rilassamenti strategici dei requisiti di allineamento.
English
Reinforcement Learning from Human Feedback (RLHF) is widely used for aligning large language models, yet practitioners face a persistent puzzle: improving safety often reduces fairness, scaling to diverse populations becomes computationally intractable, and making systems robust often amplifies majority biases. We formalize this tension as the Alignment Trilemma: no RLHF system can simultaneously achieve (i) epsilon-representativeness across diverse human values, (ii) polynomial tractability in sample and compute complexity, and (iii) delta-robustness against adversarial perturbations and distribution shift. Through a complexity-theoretic analysis integrating statistical learning theory and robust optimization, we prove that achieving both representativeness (epsilon <= 0.01) and robustness (delta <= 0.001) for global-scale populations requires Omega(2^{d_context}) operations, which is super-polynomial in the context dimensionality. We show that current RLHF implementations resolve this trilemma by sacrificing representativeness: they collect only 10^3--10^4 samples from homogeneous annotator pools while 10^7--10^8 samples are needed for true global representation. Our framework provides a unified explanation for documented RLHF pathologies including preference collapse, sycophancy, and systematic bias amplification. We conclude with concrete directions for navigating these fundamental trade-offs through strategic relaxations of alignment requirements.
PDF12December 1, 2025