Cadena de Pensamiento Fiable mediante Consistencia de Prefijo

Resumen

Los Modelos de Lenguaje de Gran Escala a menudo mejoran su precisión en tareas de razonamiento al muestrear múltiples trazas de Cadenas de Pensamiento (CoT) y agregarlas mediante votación mayoritaria (MV), una técnica en tiempo de prueba denominada autoconsistencia. Al truncar una CoT en un punto intermedio y regenerar el resto, observamos que las trazas con respuestas correctas reproducen su respuesta original con mayor frecuencia que aquellas con respuestas incorrectas. Utilizamos esta diferencia como una señal de fiabilidad, la consistencia de prefijo, que pondera cada respuesta candidata según la frecuencia con la que reaparece bajo regeneración. No requiere acceso a log-probabilidades de tokens ni a instrucciones de autoevaluación. En cinco modelos de razonamiento y cuatro puntos de referencia de matemáticas y ciencias, la consistencia de prefijo es el mejor predictor de corrección en la mayoría de los casos, y re-ponderar los votos mediante ella alcanza la precisión de meseta de la MV estándar con hasta 21 veces menos tokens (mediana de 4,6 veces). Nuestro código está disponible en https://github.com/naoto-iwase/prefix-consistency.

English

Large Language Models often improve accuracy on reasoning tasks by sampling multiple Chain-of-Thought (CoT) traces and aggregating them with majority voting (MV), a test-time technique called self-consistency. When we truncate a CoT partway through and regenerate the remainder, we observe that traces with correct answers reproduce their original answer more often than traces with wrong answers. We use this difference as a reliability signal, prefix consistency, that weights each candidate answer by how often it reappears under regeneration. It requires no access to token log-probabilities or self-rating prompts. Across five reasoning models and four math and science benchmarks, prefix consistency is the best correctness predictor in most settings, and reweighting votes by it reaches Standard MV plateau accuracy at up to 21x fewer tokens (median 4.6x). Our code is available at https://github.com/naoto-iwase/prefix-consistency.

Cadena de Pensamiento Fiable mediante Consistencia de Prefijo

Reliable Chain-of-Thought via Prefix Consistency

Resumen

Support