ChatPaper.aiChatPaper

Sur la fiabilité des modèles génératifs de fond : Guide, évaluation et perspectives

On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective

February 20, 2025
Auteurs: Yue Huang, Chujie Gao, Siyuan Wu, Haoran Wang, Xiangqi Wang, Yujun Zhou, Yanbo Wang, Jiayi Ye, Jiawen Shi, Qihui Zhang, Yuan Li, Han Bao, Zhaoyi Liu, Tianrui Guan, Dongping Chen, Ruoxi Chen, Kehan Guo, Andy Zou, Bryan Hooi Kuen-Yew, Caiming Xiong, Elias Stengel-Eskin, Hongyang Zhang, Hongzhi Yin, Huan Zhang, Huaxiu Yao, Jaehong Yoon, Jieyu Zhang, Kai Shu, Kaijie Zhu, Ranjay Krishna, Swabha Swayamdipta, Taiwei Shi, Weijia Shi, Xiang Li, Yiwei Li, Yuexing Hao, Yuexing Hao, Zhihao Jia, Zhize Li, Xiuying Chen, Zhengzhong Tu, Xiyang Hu, Tianyi Zhou, Jieyu Zhao, Lichao Sun, Furong Huang, Or Cohen Sasson, Prasanna Sattigeri, Anka Reuel, Max Lamparth, Yue Zhao, Nouha Dziri, Yu Su, Huan Sun, Heng Ji, Chaowei Xiao, Mohit Bansal, Nitesh V. Chawla, Jian Pei, Jianfeng Gao, Michael Backes, Philip S. Yu, Neil Zhenqiang Gong, Pin-Yu Chen, Bo Li, Xiangliang Zhang
cs.AI

Résumé

Les modèles génératifs de base (GenFMs) sont apparus comme des outils transformateurs. Cependant, leur adoption généralisée soulève des préoccupations critiques concernant leur fiabilité à travers diverses dimensions. Cet article présente un cadre complet pour relever ces défis à travers trois contributions clés. Premièrement, nous passons systématiquement en revue les lois et politiques mondiales de gouvernance de l'IA émanant des gouvernements et des organismes de régulation, ainsi que les pratiques et normes de l'industrie. Sur la base de cette analyse, nous proposons un ensemble de principes directeurs pour les GenFMs, élaborés grâce à une collaboration multidisciplinaire approfondie intégrant des perspectives techniques, éthiques, juridiques et sociétales. Deuxièmement, nous introduisons TrustGen, la première plateforme de référence dynamique conçue pour évaluer la fiabilité à travers plusieurs dimensions et types de modèles, y compris les modèles texte-image, les grands modèles de langage et les modèles vision-langage. TrustGen exploite des composants modulaires—curation de métadonnées, génération de cas de test et variation contextuelle—pour permettre des évaluations adaptatives et itératives, surmontant ainsi les limites des méthodes d'évaluation statiques. En utilisant TrustGen, nous révélons des progrès significatifs en matière de fiabilité tout en identifiant des défis persistants. Enfin, nous proposons une discussion approfondie des défis et des orientations futures pour des GenFMs fiables, qui révèle la nature complexe et évolutive de la fiabilité, mettant en lumière les compromis nuancés entre utilité et fiabilité, et tenant compte de diverses applications en aval, identifiant des défis persistants et fournissant une feuille de route stratégique pour la recherche future. Ce travail établit un cadre holistique pour faire progresser la fiabilité dans l'IA générative, ouvrant la voie à une intégration plus sûre et plus responsable des GenFMs dans des applications critiques. Pour faciliter les avancées dans la communauté, nous mettons à disposition l'outil d'évaluation dynamique.
English
Generative Foundation Models (GenFMs) have emerged as transformative tools. However, their widespread adoption raises critical concerns regarding trustworthiness across dimensions. This paper presents a comprehensive framework to address these challenges through three key contributions. First, we systematically review global AI governance laws and policies from governments and regulatory bodies, as well as industry practices and standards. Based on this analysis, we propose a set of guiding principles for GenFMs, developed through extensive multidisciplinary collaboration that integrates technical, ethical, legal, and societal perspectives. Second, we introduce TrustGen, the first dynamic benchmarking platform designed to evaluate trustworthiness across multiple dimensions and model types, including text-to-image, large language, and vision-language models. TrustGen leverages modular components--metadata curation, test case generation, and contextual variation--to enable adaptive and iterative assessments, overcoming the limitations of static evaluation methods. Using TrustGen, we reveal significant progress in trustworthiness while identifying persistent challenges. Finally, we provide an in-depth discussion of the challenges and future directions for trustworthy GenFMs, which reveals the complex, evolving nature of trustworthiness, highlighting the nuanced trade-offs between utility and trustworthiness, and consideration for various downstream applications, identifying persistent challenges and providing a strategic roadmap for future research. This work establishes a holistic framework for advancing trustworthiness in GenAI, paving the way for safer and more responsible integration of GenFMs into critical applications. To facilitate advancement in the community, we release the toolkit for dynamic evaluation.

Summary

AI-Generated Summary

PDF462February 21, 2025