Sobre a Confiabilidade dos Modelos de Fundação Gerativos: Diretrizes, Avaliação e Perspectiva

Resumo

Modelos de Fundação Generativos (GenFMs) surgiram como ferramentas transformadoras. No entanto, sua adoção generalizada levanta preocupações críticas em relação à confiabilidade em diversas dimensões. Este artigo apresenta um framework abrangente para abordar esses desafios por meio de três contribuições principais. Primeiro, revisamos sistematicamente as leis e políticas globais de governança de IA de governos e órgãos reguladores, bem como práticas e padrões da indústria. Com base nessa análise, propomos um conjunto de princípios orientadores para GenFMs, desenvolvidos por meio de extensa colaboração multidisciplinar que integra perspectivas técnicas, éticas, legais e sociais. Segundo, introduzimos o TrustGen, a primeira plataforma de benchmarking dinâmica projetada para avaliar a confiabilidade em múltiplas dimensões e tipos de modelos, incluindo modelos de texto-para-imagem, linguagem de grande escala e visão-linguagem. O TrustGen aproveita componentes modulares—curadoria de metadados, geração de casos de teste e variação contextual—para permitir avaliações adaptativas e iterativas, superando as limitações dos métodos de avaliação estáticos. Usando o TrustGen, revelamos progressos significativos em confiabilidade enquanto identificamos desafios persistentes. Por fim, fornecemos uma discussão aprofundada sobre os desafios e direções futuras para GenFMs confiáveis, que revela a natureza complexa e evolutiva da confiabilidade, destacando as nuances de equilíbrio entre utilidade e confiabilidade, e considerações para várias aplicações subsequentes, identificando desafios persistentes e fornecendo um roteiro estratégico para pesquisas futuras. Este trabalho estabelece um framework holístico para avançar a confiabilidade em GenAI, pavimentando o caminho para uma integração mais segura e responsável de GenFMs em aplicações críticas. Para facilitar o avanço na comunidade, disponibilizamos o kit de ferramentas para avaliação dinâmica.

English

Generative Foundation Models (GenFMs) have emerged as transformative tools. However, their widespread adoption raises critical concerns regarding trustworthiness across dimensions. This paper presents a comprehensive framework to address these challenges through three key contributions. First, we systematically review global AI governance laws and policies from governments and regulatory bodies, as well as industry practices and standards. Based on this analysis, we propose a set of guiding principles for GenFMs, developed through extensive multidisciplinary collaboration that integrates technical, ethical, legal, and societal perspectives. Second, we introduce TrustGen, the first dynamic benchmarking platform designed to evaluate trustworthiness across multiple dimensions and model types, including text-to-image, large language, and vision-language models. TrustGen leverages modular components--metadata curation, test case generation, and contextual variation--to enable adaptive and iterative assessments, overcoming the limitations of static evaluation methods. Using TrustGen, we reveal significant progress in trustworthiness while identifying persistent challenges. Finally, we provide an in-depth discussion of the challenges and future directions for trustworthy GenFMs, which reveals the complex, evolving nature of trustworthiness, highlighting the nuanced trade-offs between utility and trustworthiness, and consideration for various downstream applications, identifying persistent challenges and providing a strategic roadmap for future research. This work establishes a holistic framework for advancing trustworthiness in GenAI, paving the way for safer and more responsible integration of GenFMs into critical applications. To facilitate advancement in the community, we release the toolkit for dynamic evaluation.

Sobre a Confiabilidade dos Modelos de Fundação Gerativos: Diretrizes, Avaliação e Perspectiva

On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective

Resumo

Support