ChatPaper.aiChatPaper

ProgCo: Programma Helpt Bij Zelfcorrectie van Grote Taalmodellen

ProgCo: Program Helps Self-Correction of Large Language Models

January 2, 2025
Auteurs: Xiaoshuai Song, Yanan Wu, Weixun Wang, Jiaheng Liu, Wenbo Su, Bo Zheng
cs.AI

Samenvatting

Zelfcorrectie heeft tot doel om grote taalmodellen (LLM's) in staat te stellen zichzelf te controleren en hun initiële antwoorden te verfijnen zonder externe feedback. LLM's falen echter vaak in effectieve zelfcontrole en genereren juiste feedback, wat leidt tot misleiding bij de verfijning en uiteindelijk tot het falen van zelfcorrectie, vooral bij complexe redeneertaken. In dit artikel stellen we Programma-gedreven Zelfcorrectie (ProgCo) voor. Allereerst bereikt programma-gedreven verificatie (ProgVe) complexe verificatielogica en uitgebreide validatie door zelf gegenereerde, zelf uitvoerende verificatie pseudo-programma's. Vervolgens ontvangt programma-gedreven verfijning (ProgRe) feedback van ProgVe, voert dubbele reflectie en verfijning uit op zowel antwoorden als verificatieprogramma's om misleidende incorrecte feedback bij complexe redeneertaken te verminderen. Experimenten op drie instructievolg- en wiskundige benchmarks tonen aan dat ProgCo effectieve zelfcorrectie bereikt en de prestaties verder kan verbeteren wanneer gecombineerd met echte programma-tools.
English
Self-Correction aims to enable large language models (LLMs) to self-verify and self-refine their initial responses without external feedback. However, LLMs often fail to effectively self-verify and generate correct feedback, further misleading refinement and leading to the failure of self-correction, especially in complex reasoning tasks. In this paper, we propose Program-driven Self-Correction (ProgCo). First, program-driven verification (ProgVe) achieves complex verification logic and extensive validation through self-generated, self-executing verification pseudo-programs. Then, program-driven refinement (ProgRe) receives feedback from ProgVe, conducts dual reflection and refinement on both responses and verification programs to mitigate misleading of incorrect feedback in complex reasoning tasks. Experiments on three instruction-following and mathematical benchmarks indicate that ProgCo achieves effective self-correction, and can be further enhance performance when combined with real program tools.

Summary

AI-Generated Summary

PDF272January 3, 2025