ProgressGym : Alignement avec un millénaire de progrès moral
ProgressGym: Alignment with a Millennium of Moral Progress
June 28, 2024
Auteurs: Tianyi Qiu, Yang Zhang, Xuchuan Huang, Jasmine Xinze Li, Jiaming Ji, Yaodong Yang
cs.AI
Résumé
Les systèmes d'IA de pointe, incluant les grands modèles de langage (LLMs), exercent une influence croissante sur l'épistémologie des utilisateurs humains. Une telle influence peut renforcer les valeurs sociétales dominantes, contribuant potentiellement à l'ancrage de croyances morales erronées et, par conséquent, à la perpétuation à grande échelle de pratiques morales problématiques. Nous introduisons l'alignement progressif comme solution technique pour atténuer ce risque imminent. Les algorithmes d'alignement progressif apprennent à reproduire les mécanismes du progrès moral humain, abordant ainsi la vulnérabilité des méthodes d'alignement existantes face aux angles morts moraux contemporains. Pour stimuler la recherche en alignement progressif, nous présentons ProgressGym, un cadre expérimental permettant d'apprendre les mécanismes du progrès moral à partir de l'histoire, afin de faciliter les progrès futurs dans les décisions morales réelles. En s'appuyant sur 9 siècles de textes historiques et 18 LLMs historiques, ProgressGym permet de codifier les défis d'alignement progressif du monde réel en benchmarks concrets. Plus précisément, nous introduisons trois défis fondamentaux : suivre l'évolution des valeurs (PG-Follow), anticiper de manière proactive le progrès moral (PG-Predict), et réguler la boucle de rétroaction entre les changements de valeurs humains et ceux de l'IA (PG-Coevolve). Les méthodes d'alignement sans dimension temporelle sont inapplicables à ces tâches. En réponse, nous présentons des algorithmes d'apprentissage continu et extrapolatifs comme méthodes de base pour l'alignement progressif, et créons un classement ouvert sollicitant de nouveaux algorithmes et défis. Le cadre et le classement sont disponibles respectivement sur https://github.com/PKU-Alignment/ProgressGym et https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard.
English
Frontier AI systems, including large language models (LLMs), hold increasing
influence over the epistemology of human users. Such influence can reinforce
prevailing societal values, potentially contributing to the lock-in of
misguided moral beliefs and, consequently, the perpetuation of problematic
moral practices on a broad scale. We introduce progress alignment as a
technical solution to mitigate this imminent risk. Progress alignment
algorithms learn to emulate the mechanics of human moral progress, thereby
addressing the susceptibility of existing alignment methods to contemporary
moral blindspots. To empower research in progress alignment, we introduce
ProgressGym, an experimental framework allowing the learning of moral progress
mechanics from history, in order to facilitate future progress in real-world
moral decisions. Leveraging 9 centuries of historical text and 18 historical
LLMs, ProgressGym enables codification of real-world progress alignment
challenges into concrete benchmarks. Specifically, we introduce three core
challenges: tracking evolving values (PG-Follow), preemptively anticipating
moral progress (PG-Predict), and regulating the feedback loop between human and
AI value shifts (PG-Coevolve). Alignment methods without a temporal dimension
are inapplicable to these tasks. In response, we present lifelong and
extrapolative algorithms as baseline methods of progress alignment, and build
an open leaderboard soliciting novel algorithms and challenges. The framework
and the leaderboard are available at
https://github.com/PKU-Alignment/ProgressGym and
https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard
respectively.Summary
AI-Generated Summary