Over de Betrouwbaarheid van Generatieve Fundamentele Modellen: Richtlijn, Evaluatie en Perspectief

Samenvatting

Generatieve Foundation Models (GenFMs) zijn opgekomen als transformerende tools. Hun brede adoptie roept echter kritieke zorgen op over betrouwbaarheid op verschillende dimensies. Dit artikel presenteert een uitgebreid raamwerk om deze uitdagingen aan te pakken via drie belangrijke bijdragen. Ten eerste voeren we een systematische review uit van wereldwijde AI-governancewetten en -beleid van overheden en regelgevende instanties, evenals industriële praktijken en standaarden. Op basis van deze analyse stellen we een reeks leidende principes voor GenFMs voor, ontwikkeld door uitgebreide multidisciplinaire samenwerking die technische, ethische, juridische en maatschappelijke perspectieven integreert. Ten tweede introduceren we TrustGen, het eerste dynamische benchmarkplatform ontworpen om betrouwbaarheid te evalueren over meerdere dimensies en modeltypen, waaronder tekst-naar-beeld, grote taal- en visie-taalmodellen. TrustGen maakt gebruik van modulaire componenten—metadata-curatie, testcasegeneratie en contextuele variatie—om adaptieve en iteratieve beoordelingen mogelijk te maken, waardoor de beperkingen van statische evaluatiemethoden worden overwonnen. Met TrustGen onthullen we significante vooruitgang in betrouwbaarheid, terwijl we aanhoudende uitdagingen identificeren. Tot slot bieden we een diepgaande discussie van de uitdagingen en toekomstige richtingen voor betrouwbare GenFMs, die de complexe, evoluerende aard van betrouwbaarheid onthult, waarbij de genuanceerde afwegingen tussen nut en betrouwbaarheid worden belicht, en rekening wordt gehouden met verschillende downstream-toepassingen, waarbij aanhoudende uitdagingen worden geïdentificeerd en een strategische routekaart voor toekomstig onderzoek wordt geboden. Dit werk stelt een holistisch raamwerk vast voor het bevorderen van betrouwbaarheid in GenAI, en baant de weg voor een veiligere en verantwoordelijkere integratie van GenFMs in kritieke toepassingen. Om vooruitgang in de gemeenschap te faciliteren, geven we de toolkit voor dynamische evaluatie vrij.

English

Generative Foundation Models (GenFMs) have emerged as transformative tools. However, their widespread adoption raises critical concerns regarding trustworthiness across dimensions. This paper presents a comprehensive framework to address these challenges through three key contributions. First, we systematically review global AI governance laws and policies from governments and regulatory bodies, as well as industry practices and standards. Based on this analysis, we propose a set of guiding principles for GenFMs, developed through extensive multidisciplinary collaboration that integrates technical, ethical, legal, and societal perspectives. Second, we introduce TrustGen, the first dynamic benchmarking platform designed to evaluate trustworthiness across multiple dimensions and model types, including text-to-image, large language, and vision-language models. TrustGen leverages modular components--metadata curation, test case generation, and contextual variation--to enable adaptive and iterative assessments, overcoming the limitations of static evaluation methods. Using TrustGen, we reveal significant progress in trustworthiness while identifying persistent challenges. Finally, we provide an in-depth discussion of the challenges and future directions for trustworthy GenFMs, which reveals the complex, evolving nature of trustworthiness, highlighting the nuanced trade-offs between utility and trustworthiness, and consideration for various downstream applications, identifying persistent challenges and providing a strategic roadmap for future research. This work establishes a holistic framework for advancing trustworthiness in GenAI, paving the way for safer and more responsible integration of GenFMs into critical applications. To facilitate advancement in the community, we release the toolkit for dynamic evaluation.

Over de Betrouwbaarheid van Generatieve Fundamentele Modellen: Richtlijn, Evaluatie en Perspectief

On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective

Samenvatting

Support