Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Generative Pre-trained Transformer (GPT)-Modelle haben beeindruckende Fortschritte in ihren Fähigkeiten gezeigt und damit das Interesse von Praktikern und der Öffentlichkeit gleichermaßen geweckt. Dennoch, während die Literatur zur Vertrauenswürdigkeit von GPT-Modellen noch begrenzt ist, haben Praktiker vorgeschlagen, leistungsstarke GPT-Modelle für sensible Anwendungen im Gesundheitswesen und im Finanzbereich einzusetzen – wo Fehler kostspielig sein können. Zu diesem Zweck schlägt diese Arbeit eine umfassende Bewertung der Vertrauenswürdigkeit für große Sprachmodelle mit einem Fokus auf GPT-4 und GPT-3.5 vor, wobei verschiedene Perspektiven berücksichtigt werden – einschließlich Toxizität, Stereotypen-Bias, adversarieller Robustheit, Robustheit bei Out-of-Distribution-Daten, Robustheit gegenüber adversariellen Demonstrationen, Datenschutz, Maschinenethik und Fairness. Basierend auf unseren Bewertungen entdecken wir bisher unveröffentlichte Schwachstellen in Bezug auf Vertrauenswürdigkeitsbedrohungen. Beispielsweise stellen wir fest, dass GPT-Modelle leicht dazu verleitet werden können, toxische und voreingenommene Ausgaben zu generieren und private Informationen sowohl aus den Trainingsdaten als auch aus dem Konversationsverlauf preiszugeben. Wir stellen außerdem fest, dass GPT-4 zwar in der Regel vertrauenswürdiger ist als GPT-3.5 bei Standard-Benchmarks, GPT-4 jedoch anfälliger ist, wenn es um Jailbreaking-Systeme oder Benutzeranweisungen geht, möglicherweise weil GPT-4 die (irreführenden) Anweisungen präziser befolgt. Unsere Arbeit veranschaulicht eine umfassende Bewertung der Vertrauenswürdigkeit von GPT-Modellen und beleuchtet die Lücken in der Vertrauenswürdigkeit. Unser Benchmark ist öffentlich verfügbar unter https://decodingtrust.github.io/.