Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles Generative Pre-trained Transformer (GPT) ont montré des progrès impressionnants en termes de capacités, captivant l'intérêt tant des praticiens que du grand public. Cependant, bien que la littérature sur la fiabilité des modèles GPT reste limitée, les praticiens ont proposé d'utiliser ces modèles performants pour des applications sensibles dans les domaines de la santé et de la finance - où les erreurs peuvent s'avérer coûteuses. Dans cette optique, ce travail propose une évaluation exhaustive de la fiabilité des grands modèles de langage, en se concentrant sur GPT-4 et GPT-3.5, en considérant diverses perspectives - incluant la toxicité, les biais stéréotypés, la robustesse aux attaques adverses, la robustesse hors distribution, la robustesse face à des démonstrations adverses, la confidentialité, l'éthique des machines et l'équité. Sur la base de nos évaluations, nous découvrons des vulnérabilités inédites aux menaces de fiabilité. Par exemple, nous constatons que les modèles GPT peuvent être facilement induits en erreur pour générer des sorties toxiques et biaisées, et divulguer des informations privées provenant des données d'entraînement et de l'historique des conversations. Nous observons également que, bien que GPT-4 soit généralement plus fiable que GPT-3.5 sur les benchmarks standards, GPT-4 est plus vulnérable face aux techniques de jailbreaking ou aux invites utilisateurs trompeuses, potentiellement parce que GPT-4 suit les instructions (erronées) de manière plus précise. Notre travail illustre une évaluation complète de la fiabilité des modèles GPT et met en lumière les lacunes en matière de fiabilité. Notre benchmark est disponible publiquement à l'adresse https://decodingtrust.github.io/.