Chaîne de pensée compressée : Raisonnement efficace à travers des représentations denses
Compressed Chain of Thought: Efficient Reasoning Through Dense Representations
December 17, 2024
Auteurs: Jeffrey Cheng, Benjamin Van Durme
cs.AI
Résumé
Le décodage en chaîne de pensée (CoT) permet aux modèles de langage d'améliorer leurs performances de raisonnement au détriment d'une latence élevée dans le décodage. Des propositions récentes ont exploré des variantes de jetons de contemplation, un terme que nous introduisons pour désigner des jetons spéciaux utilisés lors de l'inférence pour permettre un calcul supplémentaire. Les travaux antérieurs ont envisagé des séquences de longueur fixe tirées d'un ensemble discret d'incorporations en tant que jetons de contemplation. Nous proposons ici la Chaîne-de-Pensée Compressée (CCoT), un cadre pour générer des jetons de contemplation significatifs et continus de longueur de séquence variable. Les jetons de contemplation générés sont des représentations compressées de chaînes de raisonnement explicites, et notre méthode peut être appliquée aux modèles de langage de décodeur prêts à l'emploi. À travers des expériences, nous illustrons comment CCoT permet un raisonnement supplémentaire sur des représentations denses et significatives pour obtenir des améliorations correspondantes en termes de précision. De plus, les améliorations de raisonnement peuvent être modifiées de manière adaptative sur demande en contrôlant le nombre de jetons de contemplation générés.
English
Chain-of-thought (CoT) decoding enables language models to improve reasoning
performance at the cost of high generation latency in decoding. Recent
proposals have explored variants of contemplation tokens, a term we introduce
that refers to special tokens used during inference to allow for extra
computation. Prior work has considered fixed-length sequences drawn from a
discrete set of embeddings as contemplation tokens. Here we propose Compressed
Chain-of-Thought (CCoT), a framework to generate contentful and continuous
contemplation tokens of variable sequence length. The generated contemplation
tokens are compressed representations of explicit reasoning chains, and our
method can be applied to off-the-shelf decoder language models. Through
experiments, we illustrate how CCoT enables additional reasoning over dense
contentful representations to achieve corresponding improvements in accuracy.
Moreover, the reasoning improvements can be adaptively modified on demand by
controlling the number of contemplation tokens generated.Summary
AI-Generated Summary