Posición: La Complejidad del Alineamiento Perfecto de la IA — Formalizando el Trilema del RLHF
Position: The Complexity of Perfect AI Alignment -- Formalizing the RLHF Trilemma
November 23, 2025
Autores: Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary
cs.AI
Resumen
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) es ampliamente utilizado para alinear modelos de lenguaje grandes, sin embargo, los profesionales se enfrentan a un enigma persistente: mejorar la seguridad a menudo reduce la equidad, escalar a poblaciones diversas se vuelve computacionalmente intratable, y hacer que los sistemas sean robustos a menudo amplifica los sesgos mayoritarios. Formalizamos esta tensión como el Trilema de la Alineación: ningún sistema RLHF puede lograr simultáneamente (i) épsilon-representatividad en diversos valores humanos, (ii) tratabilidad polinomial en la complejidad muestral y computacional, y (iii) delta-robustez frente a perturbaciones adversarias y cambios en la distribución. Mediante un análisis de complejidad computacional que integra teoría del aprendizaje estadístico y optimización robusta, demostramos que lograr tanto la representatividad (épsilon <= 0.01) como la robustez (delta <= 0.001) para poblaciones a escala global requiere operaciones de Omega(2^{d_contexto}), lo cual es super-polinómico en la dimensionalidad del contexto. Mostramos que las implementaciones actuales de RLHF resuelven este trilema sacrificando la representatividad: recogen sólo 10^3--10^4 muestras de grupos de anotadores homogéneos, mientras que se necesitan 10^7--10^8 muestras para una verdadera representación global. Nuestro marco proporciona una explicación unificada para las patologías documentadas del RLHF, incluyendo el colapso de preferencias, la sicofancia y la amplificación sistemática de sesgos. Concluimos con direcciones concretas para navegar estas compensaciones fundamentales mediante relajaciones estratégicas de los requisitos de alineación.
English
Reinforcement Learning from Human Feedback (RLHF) is widely used for aligning large language models, yet practitioners face a persistent puzzle: improving safety often reduces fairness, scaling to diverse populations becomes computationally intractable, and making systems robust often amplifies majority biases. We formalize this tension as the Alignment Trilemma: no RLHF system can simultaneously achieve (i) epsilon-representativeness across diverse human values, (ii) polynomial tractability in sample and compute complexity, and (iii) delta-robustness against adversarial perturbations and distribution shift. Through a complexity-theoretic analysis integrating statistical learning theory and robust optimization, we prove that achieving both representativeness (epsilon <= 0.01) and robustness (delta <= 0.001) for global-scale populations requires Omega(2^{d_context}) operations, which is super-polynomial in the context dimensionality. We show that current RLHF implementations resolve this trilemma by sacrificing representativeness: they collect only 10^3--10^4 samples from homogeneous annotator pools while 10^7--10^8 samples are needed for true global representation. Our framework provides a unified explanation for documented RLHF pathologies including preference collapse, sycophancy, and systematic bias amplification. We conclude with concrete directions for navigating these fundamental trade-offs through strategic relaxations of alignment requirements.