ChatPaper.aiChatPaper

Histoires Morales : un ensemble de données français pour évaluer l'alignement moral

Histoires Morales: A French Dataset for Assessing Moral Alignment

January 28, 2025
Auteurs: Thibaud Leteno, Irina Proskurina, Antoine Gourru, Julien Velcin, Charlotte Laclau, Guillaume Metzler, Christophe Gravier
cs.AI

Résumé

Aligner les modèles de langage avec les valeurs humaines est crucial, surtout à mesure qu'ils deviennent de plus en plus intégrés dans la vie quotidienne. Bien que les modèles soient souvent adaptés aux préférences des utilisateurs, il est tout aussi important de s'assurer qu'ils sont en accord avec les normes morales et les comportements dans des situations sociales réelles. Malgré des progrès significatifs dans des langues comme l'anglais et le chinois, le français a reçu peu d'attention dans ce domaine, laissant un vide dans la compréhension de la manière dont les LLMs traitent le raisonnement moral dans cette langue. Pour combler cette lacune, nous présentons Histoires Morales, un ensemble de données français dérivé de Moral Stories, créé par traduction et ensuite affiné avec l'aide de locuteurs natifs pour garantir l'exactitude grammaticale et l'adaptation au contexte culturel français. Nous nous appuyons également sur des annotations des valeurs morales au sein de l'ensemble de données pour garantir leur alignement avec les normes françaises. Histoires Morales couvre un large éventail de situations sociales, y compris les différences dans les pratiques de pourboire, les expressions d'honnêteté dans les relations et les responsabilités envers les animaux. Pour promouvoir la recherche future, nous menons également des expériences préliminaires sur l'alignement des modèles multilingues sur des données françaises et anglaises et sur la robustesse de cet alignement. Nous constatons que bien que les LLMs soient généralement alignés avec les normes morales humaines par défaut, ils peuvent être facilement influencés par l'optimisation des préférences des utilisateurs pour des données à la fois morales et immorales.
English
Aligning language models with human values is crucial, especially as they become more integrated into everyday life. While models are often adapted to user preferences, it is equally important to ensure they align with moral norms and behaviours in real-world social situations. Despite significant progress in languages like English and Chinese, French has seen little attention in this area, leaving a gap in understanding how LLMs handle moral reasoning in this language. To address this gap, we introduce Histoires Morales, a French dataset derived from Moral Stories, created through translation and subsequently refined with the assistance of native speakers to guarantee grammatical accuracy and adaptation to the French cultural context. We also rely on annotations of the moral values within the dataset to ensure their alignment with French norms. Histoires Morales covers a wide range of social situations, including differences in tipping practices, expressions of honesty in relationships, and responsibilities toward animals. To foster future research, we also conduct preliminary experiments on the alignment of multilingual models on French and English data and the robustness of the alignment. We find that while LLMs are generally aligned with human moral norms by default, they can be easily influenced with user-preference optimization for both moral and immoral data.

Summary

AI-Generated Summary

PDF32January 29, 2025