AutoDetect: Naar een Uniform Framework voor Geautomatiseerde Zwakte-detectie in Grote Taalmodellen

Samenvatting

Hoewel Large Language Models (LLM's) steeds krachtiger worden, vertonen ze nog steeds significante maar subtiele zwakheden, zoals fouten in het opvolgen van instructies of coderings taken. Aangezien deze onverwachte fouten tot ernstige gevolgen kunnen leiden in praktische toepassingen, is het cruciaal om de beperkingen binnen LLM's systematisch te onderzoeken. Traditionele benchmarkmethoden kunnen specifieke modeltekortkomingen niet grondig aanwijzen, terwijl handmatige inspecties kostbaar en niet schaalbaar zijn. In dit artikel introduceren we een uniform raamwerk, AutoDetect, om automatisch zwakheden in LLM's bloot te leggen bij verschillende taken. Geïnspireerd door het onderwijsbeoordelingsproces dat de leerresultaten van studenten meet, bestaat AutoDetect uit drie LLM-aangedreven agents: Examiner, Questioner en Assessor. De samenwerking tussen deze drie agents is ontworpen om uitgebreide en diepgaande identificatie van zwakheden te realiseren. Ons raamwerk toont aanzienlijk succes in het blootleggen van gebreken, met een identificatiesuccespercentage van meer dan 30% in prominente modellen zoals ChatGPT en Claude. Belangrijker nog, deze geïdentificeerde zwakheden kunnen specifieke modelverbeteringen sturen, wat effectiever blijkt dan niet-gerichte data-augmentatiemethoden zoals Self-Instruct. Onze aanpak heeft geleid tot substantiële verbeteringen in populaire LLM's, waaronder de Llama-serie en Mistral-7b, waardoor hun prestaties met meer dan 10% zijn verbeterd op verschillende benchmarks. Code en data zijn publiek beschikbaar op https://github.com/thu-coai/AutoDetect.

English

Although Large Language Models (LLMs) are becoming increasingly powerful, they still exhibit significant but subtle weaknesses, such as mistakes in instruction-following or coding tasks. As these unexpected errors could lead to severe consequences in practical deployments, it is crucial to investigate the limitations within LLMs systematically. Traditional benchmarking approaches cannot thoroughly pinpoint specific model deficiencies, while manual inspections are costly and not scalable. In this paper, we introduce a unified framework, AutoDetect, to automatically expose weaknesses in LLMs across various tasks. Inspired by the educational assessment process that measures students' learning outcomes, AutoDetect consists of three LLM-powered agents: Examiner, Questioner, and Assessor. The collaboration among these three agents is designed to realize comprehensive and in-depth weakness identification. Our framework demonstrates significant success in uncovering flaws, with an identification success rate exceeding 30% in prominent models such as ChatGPT and Claude. More importantly, these identified weaknesses can guide specific model improvements, proving more effective than untargeted data augmentation methods like Self-Instruct. Our approach has led to substantial enhancements in popular LLMs, including the Llama series and Mistral-7b, boosting their performance by over 10% across several benchmarks. Code and data are publicly available at https://github.com/thu-coai/AutoDetect.

AutoDetect: Naar een Uniform Framework voor Geautomatiseerde Zwakte-detectie in Grote Taalmodellen

AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models

Samenvatting

Support