Sobre la Confiabilidad de los Modelos Generativos Fundamentales: Directrices, Evaluación y Perspectiva

Resumen

Los Modelos Fundacionales Generativos (GenFMs) han surgido como herramientas transformadoras. Sin embargo, su adopción generalizada plantea preocupaciones críticas en cuanto a su confiabilidad en múltiples dimensiones. Este artículo presenta un marco integral para abordar estos desafíos a través de tres contribuciones clave. En primer lugar, revisamos sistemáticamente las leyes y políticas globales de gobernanza de la IA de gobiernos y organismos reguladores, así como las prácticas y estándares de la industria. Basándonos en este análisis, proponemos un conjunto de principios rectores para los GenFMs, desarrollados mediante una extensa colaboración multidisciplinaria que integra perspectivas técnicas, éticas, legales y sociales. En segundo lugar, presentamos TrustGen, la primera plataforma de evaluación dinámica diseñada para medir la confiabilidad en múltiples dimensiones y tipos de modelos, incluyendo modelos de texto a imagen, lenguajes grandes y modelos de visión y lenguaje. TrustGen aprovecha componentes modulares—curatoría de metadatos, generación de casos de prueba y variación contextual—para permitir evaluaciones adaptativas e iterativas, superando las limitaciones de los métodos de evaluación estáticos. Utilizando TrustGen, revelamos avances significativos en confiabilidad mientras identificamos desafíos persistentes. Finalmente, ofrecemos una discusión detallada de los desafíos y direcciones futuras para los GenFMs confiables, lo que revela la naturaleza compleja y en evolución de la confiabilidad, destacando los matices en las compensaciones entre utilidad y confiabilidad, y consideraciones para diversas aplicaciones posteriores, identificando desafíos persistentes y proporcionando una hoja de ruta estratégica para futuras investigaciones. Este trabajo establece un marco holístico para avanzar en la confiabilidad de la IA generativa, allanando el camino para una integración más segura y responsable de los GenFMs en aplicaciones críticas. Para facilitar el avance en la comunidad, liberamos la herramienta para la evaluación dinámica.

English

Generative Foundation Models (GenFMs) have emerged as transformative tools. However, their widespread adoption raises critical concerns regarding trustworthiness across dimensions. This paper presents a comprehensive framework to address these challenges through three key contributions. First, we systematically review global AI governance laws and policies from governments and regulatory bodies, as well as industry practices and standards. Based on this analysis, we propose a set of guiding principles for GenFMs, developed through extensive multidisciplinary collaboration that integrates technical, ethical, legal, and societal perspectives. Second, we introduce TrustGen, the first dynamic benchmarking platform designed to evaluate trustworthiness across multiple dimensions and model types, including text-to-image, large language, and vision-language models. TrustGen leverages modular components--metadata curation, test case generation, and contextual variation--to enable adaptive and iterative assessments, overcoming the limitations of static evaluation methods. Using TrustGen, we reveal significant progress in trustworthiness while identifying persistent challenges. Finally, we provide an in-depth discussion of the challenges and future directions for trustworthy GenFMs, which reveals the complex, evolving nature of trustworthiness, highlighting the nuanced trade-offs between utility and trustworthiness, and consideration for various downstream applications, identifying persistent challenges and providing a strategic roadmap for future research. This work establishes a holistic framework for advancing trustworthiness in GenAI, paving the way for safer and more responsible integration of GenFMs into critical applications. To facilitate advancement in the community, we release the toolkit for dynamic evaluation.

Sobre la Confiabilidad de los Modelos Generativos Fundamentales: Directrices, Evaluación y Perspectiva

On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective

Resumen

Support