ChatPaper.aiChatPaper

ProgCo: Programa que Ayuda a la Autocorrección de Modelos de Lenguaje Grandes

ProgCo: Program Helps Self-Correction of Large Language Models

January 2, 2025
Autores: Xiaoshuai Song, Yanan Wu, Weixun Wang, Jiaheng Liu, Wenbo Su, Bo Zheng
cs.AI

Resumen

La Autocorrección tiene como objetivo permitir que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) se autoverifiquen y autoperfeccionen sus respuestas iniciales sin necesidad de retroalimentación externa. Sin embargo, los LLMs a menudo no logran autoverificarse de manera efectiva y generar retroalimentación correcta, lo que conduce a una autoperfección errónea, especialmente en tareas de razonamiento complejas. En este artículo, proponemos Autocorrección Dirigida por Programa (ProgCo). En primer lugar, la verificación dirigida por programa (ProgVe) logra una lógica de verificación compleja y una validación extensa a través de seudo-programas de verificación auto-generados y auto-ejecutables. Luego, el perfeccionamiento dirigido por programa (ProgRe) recibe retroalimentación de ProgVe, realiza una doble reflexión y perfeccionamiento tanto en las respuestas como en los programas de verificación para mitigar la confusión causada por retroalimentación incorrecta en tareas de razonamiento complejas. Experimentos en tres conjuntos de datos de seguimiento de instrucciones y matemáticos indican que ProgCo logra una autocorrección efectiva y puede mejorar aún más su rendimiento cuando se combina con herramientas de programa reales.
English
Self-Correction aims to enable large language models (LLMs) to self-verify and self-refine their initial responses without external feedback. However, LLMs often fail to effectively self-verify and generate correct feedback, further misleading refinement and leading to the failure of self-correction, especially in complex reasoning tasks. In this paper, we propose Program-driven Self-Correction (ProgCo). First, program-driven verification (ProgVe) achieves complex verification logic and extensive validation through self-generated, self-executing verification pseudo-programs. Then, program-driven refinement (ProgRe) receives feedback from ProgVe, conducts dual reflection and refinement on both responses and verification programs to mitigate misleading of incorrect feedback in complex reasoning tasks. Experiments on three instruction-following and mathematical benchmarks indicate that ProgCo achieves effective self-correction, and can be further enhance performance when combined with real program tools.

Summary

AI-Generated Summary

PDF272January 3, 2025