ProgressGym: Соответствие тысячелетнему моральному прогрессу
ProgressGym: Alignment with a Millennium of Moral Progress
June 28, 2024
Авторы: Tianyi Qiu, Yang Zhang, Xuchuan Huang, Jasmine Xinze Li, Jiaming Ji, Yaodong Yang
cs.AI
Аннотация
Системы искусственного интеллекта нового поколения, включая большие языковые модели (LLM), оказывают все более значительное влияние на эпистемологию человеческих пользователей. Такое влияние может укреплять доминирующие общественные ценности, что потенциально способствует закреплению ошибочных моральных убеждений и, следовательно, поддержанию проблематичных моральных практик в широком масштабе. Мы предлагаем прогрессивное выравнивание в качестве технического решения для смягчения этого неминуемого риска. Алгоритмы прогрессивного выравнивания учатся эмулировать механику морального прогресса человека, тем самым решая уязвимость существующих методов выравнивания перед современными моральными слепыми пятнами. Для поддержки исследований в области прогрессивного выравнивания мы представляем ProgressGym - экспериментальную платформу, позволяющую изучать механику морального прогресса из истории для облегчения будущего прогресса в принятии моральных решений в реальном мире. Используя 9 веков исторических текстов и 18 исторических LLM, ProgressGym позволяет кодировать вызовы реального прогрессивного выравнивания в конкретные бенчмарки. В частности, мы представляем три основных вызова: отслеживание эволюции ценностей (PG-Follow), предвосхищение морального прогресса (PG-Predict) и регулирование обратной связи между сдвигами ценностей человека и ИИ (PG-Coevolve). Методы выравнивания без временного измерения не применимы к этим задачам. В ответ на это мы представляем методы пожизненного и экстраполятивного выравнивания в качестве базовых методов прогрессивного выравнивания и создаем открытый рейтинг, принимающий новые алгоритмы и вызовы. Платформа и рейтинг доступны по следующим ссылкам: https://github.com/PKU-Alignment/ProgressGym и https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard соответственно.
English
Frontier AI systems, including large language models (LLMs), hold increasing
influence over the epistemology of human users. Such influence can reinforce
prevailing societal values, potentially contributing to the lock-in of
misguided moral beliefs and, consequently, the perpetuation of problematic
moral practices on a broad scale. We introduce progress alignment as a
technical solution to mitigate this imminent risk. Progress alignment
algorithms learn to emulate the mechanics of human moral progress, thereby
addressing the susceptibility of existing alignment methods to contemporary
moral blindspots. To empower research in progress alignment, we introduce
ProgressGym, an experimental framework allowing the learning of moral progress
mechanics from history, in order to facilitate future progress in real-world
moral decisions. Leveraging 9 centuries of historical text and 18 historical
LLMs, ProgressGym enables codification of real-world progress alignment
challenges into concrete benchmarks. Specifically, we introduce three core
challenges: tracking evolving values (PG-Follow), preemptively anticipating
moral progress (PG-Predict), and regulating the feedback loop between human and
AI value shifts (PG-Coevolve). Alignment methods without a temporal dimension
are inapplicable to these tasks. In response, we present lifelong and
extrapolative algorithms as baseline methods of progress alignment, and build
an open leaderboard soliciting novel algorithms and challenges. The framework
and the leaderboard are available at
https://github.com/PKU-Alignment/ProgressGym and
https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard
respectively.Summary
AI-Generated Summary