ProgressGym: Alinhamento com um Milênio de Progresso Moral
ProgressGym: Alignment with a Millennium of Moral Progress
June 28, 2024
Autores: Tianyi Qiu, Yang Zhang, Xuchuan Huang, Jasmine Xinze Li, Jiaming Ji, Yaodong Yang
cs.AI
Resumo
Os sistemas de IA de vanguarda, incluindo grandes modelos de linguagem (LLMs), exercem uma influência crescente sobre a epistemologia dos usuários humanos. Essa influência pode reforçar os valores sociais predominantes, potencialmente contribuindo para a consolidação de crenças morais equivocadas e, consequentemente, a perpetuação de práticas morais problemáticas em larga escala. Introduzimos o alinhamento de progresso como uma solução técnica para mitigar esse risco iminente. Algoritmos de alinhamento de progresso aprendem a imitar os mecanismos do progresso moral humano, abordando assim a suscetibilidade dos métodos de alinhamento existentes a pontos cegos morais contemporâneos. Para capacitar a pesquisa em alinhamento de progresso, apresentamos o ProgressGym, um framework experimental que permite aprender os mecanismos de progresso moral a partir da história, a fim de facilitar futuros avanços em decisões morais do mundo real. Aproveitando 9 séculos de texto histórico e 18 LLMs históricos, o ProgressGym possibilita a codificação de desafios reais de alinhamento de progresso em benchmarks concretos. Especificamente, introduzimos três desafios principais: rastrear valores em evolução (PG-Follow), antecipar preventivamente o progresso moral (PG-Predict) e regular o ciclo de feedback entre mudanças de valores humanos e de IA (PG-Coevolve). Métodos de alinhamento sem uma dimensão temporal são inaplicáveis para essas tarefas. Em resposta, apresentamos algoritmos vitalícios e extrapolativos como métodos básicos de alinhamento de progresso, e construímos um leaderboard aberto solicitando novos algoritmos e desafios. O framework e o leaderboard estão disponíveis em https://github.com/PKU-Alignment/ProgressGym e https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard, respectivamente.
English
Frontier AI systems, including large language models (LLMs), hold increasing
influence over the epistemology of human users. Such influence can reinforce
prevailing societal values, potentially contributing to the lock-in of
misguided moral beliefs and, consequently, the perpetuation of problematic
moral practices on a broad scale. We introduce progress alignment as a
technical solution to mitigate this imminent risk. Progress alignment
algorithms learn to emulate the mechanics of human moral progress, thereby
addressing the susceptibility of existing alignment methods to contemporary
moral blindspots. To empower research in progress alignment, we introduce
ProgressGym, an experimental framework allowing the learning of moral progress
mechanics from history, in order to facilitate future progress in real-world
moral decisions. Leveraging 9 centuries of historical text and 18 historical
LLMs, ProgressGym enables codification of real-world progress alignment
challenges into concrete benchmarks. Specifically, we introduce three core
challenges: tracking evolving values (PG-Follow), preemptively anticipating
moral progress (PG-Predict), and regulating the feedback loop between human and
AI value shifts (PG-Coevolve). Alignment methods without a temporal dimension
are inapplicable to these tasks. In response, we present lifelong and
extrapolative algorithms as baseline methods of progress alignment, and build
an open leaderboard soliciting novel algorithms and challenges. The framework
and the leaderboard are available at
https://github.com/PKU-Alignment/ProgressGym and
https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard
respectively.