Zur Vertrauenswürdigkeit generativer Foundation-Modelle: Leitfaden, Bewertung und Perspektive
On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective
February 20, 2025
Autoren: Yue Huang, Chujie Gao, Siyuan Wu, Haoran Wang, Xiangqi Wang, Yujun Zhou, Yanbo Wang, Jiayi Ye, Jiawen Shi, Qihui Zhang, Yuan Li, Han Bao, Zhaoyi Liu, Tianrui Guan, Dongping Chen, Ruoxi Chen, Kehan Guo, Andy Zou, Bryan Hooi Kuen-Yew, Caiming Xiong, Elias Stengel-Eskin, Hongyang Zhang, Hongzhi Yin, Huan Zhang, Huaxiu Yao, Jaehong Yoon, Jieyu Zhang, Kai Shu, Kaijie Zhu, Ranjay Krishna, Swabha Swayamdipta, Taiwei Shi, Weijia Shi, Xiang Li, Yiwei Li, Yuexing Hao, Yuexing Hao, Zhihao Jia, Zhize Li, Xiuying Chen, Zhengzhong Tu, Xiyang Hu, Tianyi Zhou, Jieyu Zhao, Lichao Sun, Furong Huang, Or Cohen Sasson, Prasanna Sattigeri, Anka Reuel, Max Lamparth, Yue Zhao, Nouha Dziri, Yu Su, Huan Sun, Heng Ji, Chaowei Xiao, Mohit Bansal, Nitesh V. Chawla, Jian Pei, Jianfeng Gao, Michael Backes, Philip S. Yu, Neil Zhenqiang Gong, Pin-Yu Chen, Bo Li, Xiangliang Zhang
cs.AI
Zusammenfassung
Generative Foundation Models (GenFMs) haben sich als transformative Werkzeuge etabliert. Ihre breite Anwendung wirft jedoch kritische Bedenken hinsichtlich der Vertrauenswürdigkeit in verschiedenen Dimensionen auf. Dieses Papier präsentiert einen umfassenden Rahmen, um diese Herausforderungen durch drei zentrale Beiträge zu adressieren. Zunächst führen wir eine systematische Überprüfung globaler KI-Governance-Gesetze und -Richtlinien von Regierungen und Regulierungsbehörden sowie von Branchenpraktiken und -standards durch. Basierend auf dieser Analyse schlagen wir eine Reihe von Leitprinzipien für GenFMs vor, die durch umfangreiche multidisziplinäre Zusammenarbeit entwickelt wurden und technische, ethische, rechtliche und gesellschaftliche Perspektiven integrieren. Zweitens stellen wir TrustGen vor, die erste dynamische Benchmarking-Plattform, die entwickelt wurde, um die Vertrauenswürdigkeit über mehrere Dimensionen und Modelltypen hinweg zu bewerten, einschließlich Text-zu-Bild-, Large-Language- und Vision-Language-Modelle. TrustGen nutzt modulare Komponenten – Metadatenkuratierung, Testfallgenerierung und kontextuelle Variation –, um adaptive und iterative Bewertungen zu ermöglichen und die Grenzen statischer Evaluierungsmethoden zu überwinden. Mit TrustGen zeigen wir signifikante Fortschritte in der Vertrauenswürdigkeit auf, identifizieren aber auch anhaltende Herausforderungen. Schließlich bieten wir eine detaillierte Diskussion der Herausforderungen und zukünftigen Richtungen für vertrauenswürdige GenFMs, die die komplexe, sich entwickelnde Natur der Vertrauenswürdigkeit offenlegt, die subtilen Abwägungen zwischen Nutzen und Vertrauenswürdigkeit hervorhebt und Überlegungen für verschiedene nachgelagerte Anwendungen berücksichtigt, wobei anhaltende Herausforderungen identifiziert und eine strategische Roadmap für zukünftige Forschung bereitgestellt wird. Diese Arbeit etabliert einen ganzheitlichen Rahmen zur Förderung der Vertrauenswürdigkeit in der generativen KI und ebnet den Weg für eine sicherere und verantwortungsvollere Integration von GenFMs in kritische Anwendungen. Um Fortschritte in der Gemeinschaft zu erleichtern, stellen wir das Toolkit für die dynamische Bewertung zur Verfügung.
English
Generative Foundation Models (GenFMs) have emerged as transformative tools.
However, their widespread adoption raises critical concerns regarding
trustworthiness across dimensions. This paper presents a comprehensive
framework to address these challenges through three key contributions. First,
we systematically review global AI governance laws and policies from
governments and regulatory bodies, as well as industry practices and standards.
Based on this analysis, we propose a set of guiding principles for GenFMs,
developed through extensive multidisciplinary collaboration that integrates
technical, ethical, legal, and societal perspectives. Second, we introduce
TrustGen, the first dynamic benchmarking platform designed to evaluate
trustworthiness across multiple dimensions and model types, including
text-to-image, large language, and vision-language models. TrustGen leverages
modular components--metadata curation, test case generation, and contextual
variation--to enable adaptive and iterative assessments, overcoming the
limitations of static evaluation methods. Using TrustGen, we reveal significant
progress in trustworthiness while identifying persistent challenges. Finally,
we provide an in-depth discussion of the challenges and future directions for
trustworthy GenFMs, which reveals the complex, evolving nature of
trustworthiness, highlighting the nuanced trade-offs between utility and
trustworthiness, and consideration for various downstream applications,
identifying persistent challenges and providing a strategic roadmap for future
research. This work establishes a holistic framework for advancing
trustworthiness in GenAI, paving the way for safer and more responsible
integration of GenFMs into critical applications. To facilitate advancement in
the community, we release the toolkit for dynamic evaluation.Summary
AI-Generated Summary