Chaîne de pensée fiable via la cohérence du préfixe

Résumé

Les grands modèles de langage améliorent souvent la précision sur les tâches de raisonnement en échantillonnant plusieurs traces de chaîne de pensée (CoT) et en les agrégeant par vote majoritaire (MV), une technique au moment du test appelée auto-cohérence. Lorsque nous tronquons une CoT à mi-parcours et régénérons le reste, nous observons que les traces avec des réponses correctes reproduisent leur réponse originale plus souvent que les traces avec des réponses incorrectes. Nous utilisons cette différence comme un signal de fiabilité, la cohérence de préfixe, qui pondère chaque réponse candidate par la fréquence à laquelle elle réapparaît sous régénération. Elle ne nécessite aucun accès aux probabilités logarithmiques des tokens ni aux prompts d'auto-évaluation. Sur cinq modèles de raisonnement et quatre références en mathématiques et sciences, la cohérence de préfixe est le meilleur prédicteur de correction dans la plupart des contextes, et la repondération des votes par celle-ci atteint la précision de plateau du MV standard avec jusqu'à 21 fois moins de tokens (médiane de 4,6 fois). Notre code est disponible à l'adresse https://github.com/naoto-iwase/prefix-consistency.

English

Large Language Models often improve accuracy on reasoning tasks by sampling multiple Chain-of-Thought (CoT) traces and aggregating them with majority voting (MV), a test-time technique called self-consistency. When we truncate a CoT partway through and regenerate the remainder, we observe that traces with correct answers reproduce their original answer more often than traces with wrong answers. We use this difference as a reliability signal, prefix consistency, that weights each candidate answer by how often it reappears under regeneration. It requires no access to token log-probabilities or self-rating prompts. Across five reasoning models and four math and science benchmarks, prefix consistency is the best correctness predictor in most settings, and reweighting votes by it reaches Standard MV plateau accuracy at up to 21x fewer tokens (median 4.6x). Our code is available at https://github.com/naoto-iwase/prefix-consistency.

Chaîne de pensée fiable via la cohérence du préfixe

Reliable Chain-of-Thought via Prefix Consistency

Résumé

Support