ProgressGym: Alineación con un Milenio de Progreso Moral
ProgressGym: Alignment with a Millennium of Moral Progress
June 28, 2024
Autores: Tianyi Qiu, Yang Zhang, Xuchuan Huang, Jasmine Xinze Li, Jiaming Ji, Yaodong Yang
cs.AI
Resumen
Los sistemas de IA de frontera, incluidos los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), ejercen una influencia creciente sobre la epistemología de los usuarios humanos. Dicha influencia puede reforzar los valores sociales predominantes, contribuyendo potencialmente al afianzamiento de creencias morales equivocadas y, en consecuencia, a la perpetuación de prácticas morales problemáticas a gran escala. Introducimos la alineación progresiva como una solución técnica para mitigar este riesgo inminente. Los algoritmos de alineación progresiva aprenden a emular la mecánica del progreso moral humano, abordando así la susceptibilidad de los métodos de alineación existentes a los puntos ciegos morales contemporáneos. Para impulsar la investigación en alineación progresiva, presentamos ProgressGym, un marco experimental que permite aprender la mecánica del progreso moral a partir de la historia, con el fin de facilitar futuros avances en las decisiones morales del mundo real. Utilizando 9 siglos de textos históricos y 18 LLMs históricos, ProgressGym permite codificar los desafíos de alineación progresiva del mundo real en puntos de referencia concretos. Específicamente, introducimos tres desafíos principales: rastrear valores en evolución (PG-Follow), anticipar proactivamente el progreso moral (PG-Predict) y regular el bucle de retroalimentación entre los cambios de valores humanos y de la IA (PG-Coevolve). Los métodos de alineación sin una dimensión temporal no son aplicables a estas tareas. En respuesta, presentamos algoritmos de aprendizaje continuo y extrapolativos como métodos de referencia para la alineación progresiva, y construimos un tablero de clasificación abierto que solicita nuevos algoritmos y desafíos. El marco y el tablero de clasificación están disponibles en https://github.com/PKU-Alignment/ProgressGym y https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard, respectivamente.
English
Frontier AI systems, including large language models (LLMs), hold increasing
influence over the epistemology of human users. Such influence can reinforce
prevailing societal values, potentially contributing to the lock-in of
misguided moral beliefs and, consequently, the perpetuation of problematic
moral practices on a broad scale. We introduce progress alignment as a
technical solution to mitigate this imminent risk. Progress alignment
algorithms learn to emulate the mechanics of human moral progress, thereby
addressing the susceptibility of existing alignment methods to contemporary
moral blindspots. To empower research in progress alignment, we introduce
ProgressGym, an experimental framework allowing the learning of moral progress
mechanics from history, in order to facilitate future progress in real-world
moral decisions. Leveraging 9 centuries of historical text and 18 historical
LLMs, ProgressGym enables codification of real-world progress alignment
challenges into concrete benchmarks. Specifically, we introduce three core
challenges: tracking evolving values (PG-Follow), preemptively anticipating
moral progress (PG-Predict), and regulating the feedback loop between human and
AI value shifts (PG-Coevolve). Alignment methods without a temporal dimension
are inapplicable to these tasks. In response, we present lifelong and
extrapolative algorithms as baseline methods of progress alignment, and build
an open leaderboard soliciting novel algorithms and challenges. The framework
and the leaderboard are available at
https://github.com/PKU-Alignment/ProgressGym and
https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard
respectively.Summary
AI-Generated Summary