ChatPaper.aiChatPaper

モラルアライメント評価のためのフランス語データセット:Histoires Morales

Histoires Morales: A French Dataset for Assessing Moral Alignment

January 28, 2025
著者: Thibaud Leteno, Irina Proskurina, Antoine Gourru, Julien Velcin, Charlotte Laclau, Guillaume Metzler, Christophe Gravier
cs.AI

要旨

言語モデルを人間の価値観と整合させることは重要であり、特にそれらが日常生活により組み込まれるにつれてますます重要になります。モデルはしばしばユーザーの好みに適応されますが、現実世界の社会的状況における道徳的規範や行動と整合することも同様に重要です。英語や中国語などの言語での重要な進展がある一方で、フランス語はこの分野でほとんど注目されておらず、この言語における道徳的推論の処理方法を理解するためのギャップが存在しています。このギャップを埋めるために、私たちは「Histoires Morales」というフランス語のデータセットを紹介します。このデータセットはMoral Storiesから派生し、翻訳を通じて作成され、その後、文法の正確さとフランス文化的コンテキストへの適応を保証するためにネイティブスピーカーの支援を受けて洗練されました。また、データセット内の道徳的価値観の注釈に依存して、それらがフランスの規範と整合するようにします。Histoires Moralesは、チップの支払い方法の違い、人間関係における誠実さの表現、動物に対する責任など、さまざまな社会的状況をカバーしています。将来の研究を促進するために、我々はまた、多言語モデルのフランス語と英語のデータにおける整合性やその頑健性に関する予備的実験を実施しています。LLMは一般的には人間の道徳的規範と基本的に整合していますが、道徳的および非道徳的データの両方に対するユーザーの好み最適化によって容易に影響を受けることがわかりました。
English
Aligning language models with human values is crucial, especially as they become more integrated into everyday life. While models are often adapted to user preferences, it is equally important to ensure they align with moral norms and behaviours in real-world social situations. Despite significant progress in languages like English and Chinese, French has seen little attention in this area, leaving a gap in understanding how LLMs handle moral reasoning in this language. To address this gap, we introduce Histoires Morales, a French dataset derived from Moral Stories, created through translation and subsequently refined with the assistance of native speakers to guarantee grammatical accuracy and adaptation to the French cultural context. We also rely on annotations of the moral values within the dataset to ensure their alignment with French norms. Histoires Morales covers a wide range of social situations, including differences in tipping practices, expressions of honesty in relationships, and responsibilities toward animals. To foster future research, we also conduct preliminary experiments on the alignment of multilingual models on French and English data and the robustness of the alignment. We find that while LLMs are generally aligned with human moral norms by default, they can be easily influenced with user-preference optimization for both moral and immoral data.

Summary

AI-Generated Summary

PDF32January 29, 2025