ChatPaper.aiChatPaper

ProgressGym: 천 년에 걸친 도덕적 진보와의 정렬

ProgressGym: Alignment with a Millennium of Moral Progress

June 28, 2024
저자: Tianyi Qiu, Yang Zhang, Xuchuan Huang, Jasmine Xinze Li, Jiaming Ji, Yaodong Yang
cs.AI

초록

대형 언어 모델(LLMs)을 포함한 프론티어 AI 시스템은 인간 사용자의 인식론에 점점 더 큰 영향을 미치고 있습니다. 이러한 영향은 기존의 사회적 가치를 강화함으로써 잘못된 도덕적 신념의 고착화를 초래하고, 결과적으로 광범위한 문제적 도덕적 관행의 지속에 기여할 수 있습니다. 우리는 이러한 임박한 위험을 완화하기 위한 기술적 해결책으로 '진보 정렬(progress alignment)'을 소개합니다. 진보 정렬 알고리즘은 인간의 도덕적 진보 메커니즘을 모방하도록 학습함으로써, 기존 정렬 방법이 현대의 도덕적 맹점에 취약한 문제를 해결합니다. 진보 정렬 연구를 지원하기 위해, 우리는 역사로부터 도덕적 진보 메커니즘을 학습하여 실제 세계의 도덕적 결정에서 미래의 진보를 촉진할 수 있는 실험적 프레임워크인 ProgressGym을 소개합니다. 9세기에 걸친 역사적 텍스트와 18개의 역사적 LLMs을 활용하여, ProgressGym은 실제 세계의 진보 정렬 과제를 구체적인 벤치마크로 체계화할 수 있게 합니다. 특히, 우리는 세 가지 핵심 과제를 제시합니다: 진화하는 가치 추적(PG-Follow), 도덕적 진보를 선제적으로 예측(PG-Predict), 그리고 인간과 AI의 가치 변화 간 피드백 루프 조절(PG-Coevolve). 시간적 차원이 없는 정렬 방법은 이러한 과제에 적용할 수 없습니다. 이에 대응하여, 우리는 평생 학습 및 외삽 알고리즘을 진보 정렬의 기본 방법으로 제시하고, 새로운 알고리즘과 과제를 모집하는 오픈 리더보드를 구축했습니다. 이 프레임워크와 리더보드는 각각 https://github.com/PKU-Alignment/ProgressGym과 https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard에서 확인할 수 있습니다.
English
Frontier AI systems, including large language models (LLMs), hold increasing influence over the epistemology of human users. Such influence can reinforce prevailing societal values, potentially contributing to the lock-in of misguided moral beliefs and, consequently, the perpetuation of problematic moral practices on a broad scale. We introduce progress alignment as a technical solution to mitigate this imminent risk. Progress alignment algorithms learn to emulate the mechanics of human moral progress, thereby addressing the susceptibility of existing alignment methods to contemporary moral blindspots. To empower research in progress alignment, we introduce ProgressGym, an experimental framework allowing the learning of moral progress mechanics from history, in order to facilitate future progress in real-world moral decisions. Leveraging 9 centuries of historical text and 18 historical LLMs, ProgressGym enables codification of real-world progress alignment challenges into concrete benchmarks. Specifically, we introduce three core challenges: tracking evolving values (PG-Follow), preemptively anticipating moral progress (PG-Predict), and regulating the feedback loop between human and AI value shifts (PG-Coevolve). Alignment methods without a temporal dimension are inapplicable to these tasks. In response, we present lifelong and extrapolative algorithms as baseline methods of progress alignment, and build an open leaderboard soliciting novel algorithms and challenges. The framework and the leaderboard are available at https://github.com/PKU-Alignment/ProgressGym and https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard respectively.

Summary

AI-Generated Summary

PDF42November 28, 2024