Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Generative Pre-trained Transformer (GPT)-modellen hebben opwindende vooruitgang geboekt in hun mogelijkheden, wat de interesse heeft gewekt van zowel professionals als het grote publiek. Echter, terwijl de literatuur over de betrouwbaarheid van GPT-modellen beperkt blijft, hebben professionals voorgesteld om krachtige GPT-modellen in te zetten voor gevoelige toepassingen in de gezondheidszorg en financiën - waar fouten kostbaar kunnen zijn. Daarom stelt dit werk een uitgebreide evaluatie van de betrouwbaarheid voor grote taalmodellen voor, met een focus op GPT-4 en GPT-3.5, waarbij diverse perspectieven worden overwogen - waaronder toxiciteit, stereotyperingsbias, adversariële robuustheid, robuustheid buiten de distributie, robuustheid op adversariële demonstraties, privacy, machine-ethiek en eerlijkheid. Op basis van onze evaluaties ontdekken we eerder niet gepubliceerde kwetsbaarheden voor bedreigingen van de betrouwbaarheid. Zo stellen we vast dat GPT-modellen gemakkelijk misleid kunnen worden om giftige en bevooroordeelde uitvoer te genereren en privé-informatie te lekken, zowel uit trainingsdata als uit gespreksgeschiedenis. We ontdekken ook dat hoewel GPT-4 over het algemeen betrouwbaarder is dan GPT-3.5 op standaard benchmarks, GPT-4 kwetsbaarder is bij het jailbreaken van het systeem of gebruikersprompts, mogelijk omdat GPT-4 de (misleidende) instructies nauwkeuriger opvolgt. Ons werk illustreert een uitgebreide evaluatie van de betrouwbaarheid van GPT-modellen en werpt licht op de hiaten in betrouwbaarheid. Onze benchmark is publiekelijk beschikbaar op https://decodingtrust.github.io/.