ChatPaper.aiChatPaper

AutoDetect: Verso un Framework Unificato per il Rilevamento Automatico delle Debolezze nei Modelli Linguistici di Grandi Dimensioni

AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models

June 24, 2024
Autori: Jiale Cheng, Yida Lu, Xiaotao Gu, Pei Ke, Xiao Liu, Yuxiao Dong, Hongning Wang, Jie Tang, Minlie Huang
cs.AI

Abstract

Sebbene i Modelli Linguistici di Grande Dimensione (LLM) stiano diventando sempre più potenti, continuano a mostrare debolezze significative ma sottili, come errori nel seguire istruzioni o nello svolgere compiti di programmazione. Poiché questi errori imprevisti potrebbero portare a gravi conseguenze nelle applicazioni pratiche, è cruciale indagare sistematicamente i limiti degli LLM. Gli approcci tradizionali di benchmarking non riescono a individuare in modo approfondito le specifiche carenze dei modelli, mentre le ispezioni manuali sono costose e non scalabili. In questo articolo, introduciamo un framework unificato, AutoDetect, per esporre automaticamente le debolezze degli LLM in vari compiti. Ispirato dal processo di valutazione educativa che misura i risultati di apprendimento degli studenti, AutoDetect è composto da tre agenti basati su LLM: Esaminatore, Interrogatore e Valutatore. La collaborazione tra questi tre agenti è progettata per realizzare un'identificazione completa e approfondita delle debolezze. Il nostro framework dimostra un notevole successo nell'individuare difetti, con un tasso di successo superiore al 30% in modelli di rilievo come ChatGPT e Claude. Ancora più importante, queste debolezze identificate possono guidare miglioramenti specifici del modello, risultando più efficaci rispetto a metodi di aumento dei dati non mirati come Self-Instruct. Il nostro approccio ha portato a sostanziali miglioramenti in LLM popolari, tra cui la serie Llama e Mistral-7b, aumentando le loro prestazioni di oltre il 10% su diversi benchmark. Codice e dati sono disponibili pubblicamente all'indirizzo https://github.com/thu-coai/AutoDetect.
English
Although Large Language Models (LLMs) are becoming increasingly powerful, they still exhibit significant but subtle weaknesses, such as mistakes in instruction-following or coding tasks. As these unexpected errors could lead to severe consequences in practical deployments, it is crucial to investigate the limitations within LLMs systematically. Traditional benchmarking approaches cannot thoroughly pinpoint specific model deficiencies, while manual inspections are costly and not scalable. In this paper, we introduce a unified framework, AutoDetect, to automatically expose weaknesses in LLMs across various tasks. Inspired by the educational assessment process that measures students' learning outcomes, AutoDetect consists of three LLM-powered agents: Examiner, Questioner, and Assessor. The collaboration among these three agents is designed to realize comprehensive and in-depth weakness identification. Our framework demonstrates significant success in uncovering flaws, with an identification success rate exceeding 30% in prominent models such as ChatGPT and Claude. More importantly, these identified weaknesses can guide specific model improvements, proving more effective than untargeted data augmentation methods like Self-Instruct. Our approach has led to substantial enhancements in popular LLMs, including the Llama series and Mistral-7b, boosting their performance by over 10% across several benchmarks. Code and data are publicly available at https://github.com/thu-coai/AutoDetect.
PDF102February 8, 2026