Samengeperste Gedachtegang: Efficiënt Redeneren Door Dichte Representaties
Compressed Chain of Thought: Efficient Reasoning Through Dense Representations
December 17, 2024
Auteurs: Jeffrey Cheng, Benjamin Van Durme
cs.AI
Samenvatting
Chain-of-thought (CoT) decoderen stelt taalmodellen in staat om redeneerprestaties te verbeteren ten koste van een hoge generatielatentie bij decodering. Recente voorstellen hebben varianten van contemplatietokens verkend, een term die we introduceren en die verwijst naar speciale tokens die tijdens inferentie worden gebruikt om extra berekeningen toe te staan. Eerder onderzoek heeft vaste reeksen van een discrete set van insluitingen overwogen als contemplatietokens. Hier stellen we Compressed Chain-of-Thought (CCoT) voor, een raamwerk om betekenisvolle en continue contemplatietokens van variabele reeks lengte te genereren. De gegenereerde contemplatietokens zijn gecomprimeerde representaties van expliciete redeneerketens, en onze methode kan worden toegepast op decoder-taalmodellen van de plank. Via experimenten illustreren we hoe CCoT extra redenering mogelijk maakt over dichte betekenisvolle representaties om overeenkomstige verbeteringen in nauwkeurigheid te bereiken. Bovendien kunnen de redeneerverbeteringen op aanvraag adaptief worden aangepast door het aantal gegenereerde contemplatietokens te regelen.
English
Chain-of-thought (CoT) decoding enables language models to improve reasoning
performance at the cost of high generation latency in decoding. Recent
proposals have explored variants of contemplation tokens, a term we introduce
that refers to special tokens used during inference to allow for extra
computation. Prior work has considered fixed-length sequences drawn from a
discrete set of embeddings as contemplation tokens. Here we propose Compressed
Chain-of-Thought (CCoT), a framework to generate contentful and continuous
contemplation tokens of variable sequence length. The generated contemplation
tokens are compressed representations of explicit reasoning chains, and our
method can be applied to off-the-shelf decoder language models. Through
experiments, we illustrate how CCoT enables additional reasoning over dense
contentful representations to achieve corresponding improvements in accuracy.
Moreover, the reasoning improvements can be adaptively modified on demand by
controlling the number of contemplation tokens generated.