ProgressGym: Allineamento con un Millennio di Progresso Morale
ProgressGym: Alignment with a Millennium of Moral Progress
June 28, 2024
Autori: Tianyi Qiu, Yang Zhang, Xuchuan Huang, Jasmine Xinze Li, Jiaming Ji, Yaodong Yang
cs.AI
Abstract
I sistemi di intelligenza artificiale di frontiera, inclusi i grandi modelli linguistici (LLM), esercitano un'influenza crescente sull'epistemologia degli utenti umani. Tale influenza può rafforzare i valori sociali prevalenti, contribuendo potenzialmente al consolidamento di convinzioni morali errate e, di conseguenza, alla perpetuazione su larga scala di pratiche morali problematiche. Introduciamo l'allineamento progressivo come soluzione tecnica per mitigare questo rischio imminente. Gli algoritmi di allineamento progressivo imparano a emulare i meccanismi del progresso morale umano, affrontando così la vulnerabilità dei metodi di allineamento esistenti ai punti ciechi morali contemporanei. Per favorire la ricerca nell'allineamento progressivo, presentiamo ProgressGym, un framework sperimentale che consente l'apprendimento dei meccanismi del progresso morale dalla storia, al fine di facilitare futuri progressi nelle decisioni morali del mondo reale. Utilizzando 9 secoli di testi storici e 18 LLM storici, ProgressGym permette di codificare le sfide dell'allineamento progressivo nel mondo reale in benchmark concreti. In particolare, introduciamo tre sfide fondamentali: tracciare l'evoluzione dei valori (PG-Follow), anticipare preventivamente il progresso morale (PG-Predict) e regolare il ciclo di feedback tra i cambiamenti di valori umani e quelli dell'IA (PG-Coevolve). I metodi di allineamento privi di una dimensione temporale non sono applicabili a questi compiti. In risposta, presentiamo algoritmi lifelong e estrapolativi come metodi di base per l'allineamento progressivo e creiamo una classifica aperta per sollecitare nuovi algoritmi e sfide. Il framework e la classifica sono disponibili rispettivamente su https://github.com/PKU-Alignment/ProgressGym e https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard.
English
Frontier AI systems, including large language models (LLMs), hold increasing
influence over the epistemology of human users. Such influence can reinforce
prevailing societal values, potentially contributing to the lock-in of
misguided moral beliefs and, consequently, the perpetuation of problematic
moral practices on a broad scale. We introduce progress alignment as a
technical solution to mitigate this imminent risk. Progress alignment
algorithms learn to emulate the mechanics of human moral progress, thereby
addressing the susceptibility of existing alignment methods to contemporary
moral blindspots. To empower research in progress alignment, we introduce
ProgressGym, an experimental framework allowing the learning of moral progress
mechanics from history, in order to facilitate future progress in real-world
moral decisions. Leveraging 9 centuries of historical text and 18 historical
LLMs, ProgressGym enables codification of real-world progress alignment
challenges into concrete benchmarks. Specifically, we introduce three core
challenges: tracking evolving values (PG-Follow), preemptively anticipating
moral progress (PG-Predict), and regulating the feedback loop between human and
AI value shifts (PG-Coevolve). Alignment methods without a temporal dimension
are inapplicable to these tasks. In response, we present lifelong and
extrapolative algorithms as baseline methods of progress alignment, and build
an open leaderboard soliciting novel algorithms and challenges. The framework
and the leaderboard are available at
https://github.com/PKU-Alignment/ProgressGym and
https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard
respectively.