AutoDetect: Naar een Uniform Framework voor Geautomatiseerde Zwakte-detectie in Grote Taalmodellen
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models
June 24, 2024
Auteurs: Jiale Cheng, Yida Lu, Xiaotao Gu, Pei Ke, Xiao Liu, Yuxiao Dong, Hongning Wang, Jie Tang, Minlie Huang
cs.AI
Samenvatting
Hoewel Large Language Models (LLM's) steeds krachtiger worden, vertonen ze nog steeds significante maar subtiele zwakheden, zoals fouten in het opvolgen van instructies of coderings taken. Aangezien deze onverwachte fouten tot ernstige gevolgen kunnen leiden in praktische toepassingen, is het cruciaal om de beperkingen binnen LLM's systematisch te onderzoeken. Traditionele benchmarkmethoden kunnen specifieke modeltekortkomingen niet grondig aanwijzen, terwijl handmatige inspecties kostbaar en niet schaalbaar zijn. In dit artikel introduceren we een uniform raamwerk, AutoDetect, om automatisch zwakheden in LLM's bloot te leggen bij verschillende taken. Geïnspireerd door het onderwijsbeoordelingsproces dat de leerresultaten van studenten meet, bestaat AutoDetect uit drie LLM-aangedreven agents: Examiner, Questioner en Assessor. De samenwerking tussen deze drie agents is ontworpen om uitgebreide en diepgaande identificatie van zwakheden te realiseren. Ons raamwerk toont aanzienlijk succes in het blootleggen van gebreken, met een identificatiesuccespercentage van meer dan 30% in prominente modellen zoals ChatGPT en Claude. Belangrijker nog, deze geïdentificeerde zwakheden kunnen specifieke modelverbeteringen sturen, wat effectiever blijkt dan niet-gerichte data-augmentatiemethoden zoals Self-Instruct. Onze aanpak heeft geleid tot substantiële verbeteringen in populaire LLM's, waaronder de Llama-serie en Mistral-7b, waardoor hun prestaties met meer dan 10% zijn verbeterd op verschillende benchmarks. Code en data zijn publiek beschikbaar op https://github.com/thu-coai/AutoDetect.
English
Although Large Language Models (LLMs) are becoming increasingly powerful,
they still exhibit significant but subtle weaknesses, such as mistakes in
instruction-following or coding tasks. As these unexpected errors could lead to
severe consequences in practical deployments, it is crucial to investigate the
limitations within LLMs systematically. Traditional benchmarking approaches
cannot thoroughly pinpoint specific model deficiencies, while manual
inspections are costly and not scalable. In this paper, we introduce a unified
framework, AutoDetect, to automatically expose weaknesses in LLMs across
various tasks. Inspired by the educational assessment process that measures
students' learning outcomes, AutoDetect consists of three LLM-powered agents:
Examiner, Questioner, and Assessor. The collaboration among these three agents
is designed to realize comprehensive and in-depth weakness identification. Our
framework demonstrates significant success in uncovering flaws, with an
identification success rate exceeding 30% in prominent models such as ChatGPT
and Claude. More importantly, these identified weaknesses can guide specific
model improvements, proving more effective than untargeted data augmentation
methods like Self-Instruct. Our approach has led to substantial enhancements in
popular LLMs, including the Llama series and Mistral-7b, boosting their
performance by over 10% across several benchmarks. Code and data are publicly
available at https://github.com/thu-coai/AutoDetect.