ProgCo: Programma Helpt Bij Zelfcorrectie van Grote Taalmodellen
ProgCo: Program Helps Self-Correction of Large Language Models
January 2, 2025
Auteurs: Xiaoshuai Song, Yanan Wu, Weixun Wang, Jiaheng Liu, Wenbo Su, Bo Zheng
cs.AI
Samenvatting
Zelfcorrectie heeft tot doel om grote taalmodellen (LLM's) in staat te stellen zichzelf te controleren en hun initiële antwoorden te verfijnen zonder externe feedback. LLM's falen echter vaak in effectieve zelfcontrole en genereren juiste feedback, wat leidt tot misleiding bij de verfijning en uiteindelijk tot het falen van zelfcorrectie, vooral bij complexe redeneertaken. In dit artikel stellen we Programma-gedreven Zelfcorrectie (ProgCo) voor. Allereerst bereikt programma-gedreven verificatie (ProgVe) complexe verificatielogica en uitgebreide validatie door zelf gegenereerde, zelf uitvoerende verificatie pseudo-programma's. Vervolgens ontvangt programma-gedreven verfijning (ProgRe) feedback van ProgVe, voert dubbele reflectie en verfijning uit op zowel antwoorden als verificatieprogramma's om misleidende incorrecte feedback bij complexe redeneertaken te verminderen. Experimenten op drie instructievolg- en wiskundige benchmarks tonen aan dat ProgCo effectieve zelfcorrectie bereikt en de prestaties verder kan verbeteren wanneer gecombineerd met echte programma-tools.
English
Self-Correction aims to enable large language models (LLMs) to self-verify
and self-refine their initial responses without external feedback. However,
LLMs often fail to effectively self-verify and generate correct feedback,
further misleading refinement and leading to the failure of self-correction,
especially in complex reasoning tasks. In this paper, we propose Program-driven
Self-Correction (ProgCo). First, program-driven verification (ProgVe) achieves
complex verification logic and extensive validation through self-generated,
self-executing verification pseudo-programs. Then, program-driven refinement
(ProgRe) receives feedback from ProgVe, conducts dual reflection and refinement
on both responses and verification programs to mitigate misleading of incorrect
feedback in complex reasoning tasks. Experiments on three instruction-following
and mathematical benchmarks indicate that ProgCo achieves effective
self-correction, and can be further enhance performance when combined with real
program tools.Summary
AI-Generated Summary