Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli Generative Pre-trained Transformer (GPT) hanno dimostrato progressi entusiasmanti nelle capacità, catturando l'interesse sia dei professionisti che del pubblico. Tuttavia, mentre la letteratura sull'affidabilità dei modelli GPT rimane limitata, i professionisti hanno proposto di impiegare modelli GPT avanzati per applicazioni sensibili in ambito sanitario e finanziario, dove gli errori possono essere costosi. A tal fine, questo lavoro propone una valutazione completa dell'affidabilità per i grandi modelli linguistici, con un focus su GPT-4 e GPT-3.5, considerando diverse prospettive, tra cui tossicità, pregiudizi stereotipati, robustezza agli attacchi avversari, robustezza fuori distribuzione, robustezza su dimostrazioni avversarie, privacy, etica delle macchine e equità. Sulla base delle nostre valutazioni, scopriamo vulnerabilità precedentemente non documentate alle minacce all'affidabilità. Ad esempio, troviamo che i modelli GPT possono essere facilmente indotti a generare output tossici e distorti e a rivelare informazioni private sia nei dati di addestramento che nella cronologia delle conversazioni. Troviamo inoltre che, sebbene GPT-4 sia generalmente più affidabile di GPT-3.5 sui benchmark standard, GPT-4 è più vulnerabile in caso di jailbreaking del sistema o di prompt dell'utente, potenzialmente perché GPT-4 segue le istruzioni (fuorvianti) in modo più preciso. Il nostro lavoro illustra una valutazione completa dell'affidabilità dei modelli GPT e getta luce sulle lacune in termini di affidabilità. Il nostro benchmark è disponibile pubblicamente all'indirizzo https://decodingtrust.github.io/.