AutoDetect: Verso un Framework Unificato per il Rilevamento Automatico delle Debolezze nei Modelli Linguistici di Grandi Dimensioni
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models
June 24, 2024
Autori: Jiale Cheng, Yida Lu, Xiaotao Gu, Pei Ke, Xiao Liu, Yuxiao Dong, Hongning Wang, Jie Tang, Minlie Huang
cs.AI
Abstract
Sebbene i Modelli Linguistici di Grande Dimensione (LLM) stiano diventando sempre più potenti, continuano a mostrare debolezze significative ma sottili, come errori nel seguire istruzioni o nello svolgere compiti di programmazione. Poiché questi errori imprevisti potrebbero portare a gravi conseguenze nelle applicazioni pratiche, è cruciale indagare sistematicamente i limiti degli LLM. Gli approcci tradizionali di benchmarking non riescono a individuare in modo approfondito le specifiche carenze dei modelli, mentre le ispezioni manuali sono costose e non scalabili. In questo articolo, introduciamo un framework unificato, AutoDetect, per esporre automaticamente le debolezze degli LLM in vari compiti. Ispirato dal processo di valutazione educativa che misura i risultati di apprendimento degli studenti, AutoDetect è composto da tre agenti basati su LLM: Esaminatore, Interrogatore e Valutatore. La collaborazione tra questi tre agenti è progettata per realizzare un'identificazione completa e approfondita delle debolezze. Il nostro framework dimostra un notevole successo nell'individuare difetti, con un tasso di successo superiore al 30% in modelli di rilievo come ChatGPT e Claude. Ancora più importante, queste debolezze identificate possono guidare miglioramenti specifici del modello, risultando più efficaci rispetto a metodi di aumento dei dati non mirati come Self-Instruct. Il nostro approccio ha portato a sostanziali miglioramenti in LLM popolari, tra cui la serie Llama e Mistral-7b, aumentando le loro prestazioni di oltre il 10% su diversi benchmark. Codice e dati sono disponibili pubblicamente all'indirizzo https://github.com/thu-coai/AutoDetect.
English
Although Large Language Models (LLMs) are becoming increasingly powerful,
they still exhibit significant but subtle weaknesses, such as mistakes in
instruction-following or coding tasks. As these unexpected errors could lead to
severe consequences in practical deployments, it is crucial to investigate the
limitations within LLMs systematically. Traditional benchmarking approaches
cannot thoroughly pinpoint specific model deficiencies, while manual
inspections are costly and not scalable. In this paper, we introduce a unified
framework, AutoDetect, to automatically expose weaknesses in LLMs across
various tasks. Inspired by the educational assessment process that measures
students' learning outcomes, AutoDetect consists of three LLM-powered agents:
Examiner, Questioner, and Assessor. The collaboration among these three agents
is designed to realize comprehensive and in-depth weakness identification. Our
framework demonstrates significant success in uncovering flaws, with an
identification success rate exceeding 30% in prominent models such as ChatGPT
and Claude. More importantly, these identified weaknesses can guide specific
model improvements, proving more effective than untargeted data augmentation
methods like Self-Instruct. Our approach has led to substantial enhancements in
popular LLMs, including the Llama series and Mistral-7b, boosting their
performance by over 10% across several benchmarks. Code and data are publicly
available at https://github.com/thu-coai/AutoDetect.