Samengeperste Gedachtegang: Efficiënt Redeneren Door Dichte Representaties

Samenvatting

Chain-of-thought (CoT) decoderen stelt taalmodellen in staat om redeneerprestaties te verbeteren ten koste van een hoge generatielatentie bij decodering. Recente voorstellen hebben varianten van contemplatietokens verkend, een term die we introduceren en die verwijst naar speciale tokens die tijdens inferentie worden gebruikt om extra berekeningen toe te staan. Eerder onderzoek heeft vaste reeksen van een discrete set van insluitingen overwogen als contemplatietokens. Hier stellen we Compressed Chain-of-Thought (CCoT) voor, een raamwerk om betekenisvolle en continue contemplatietokens van variabele reeks lengte te genereren. De gegenereerde contemplatietokens zijn gecomprimeerde representaties van expliciete redeneerketens, en onze methode kan worden toegepast op decoder-taalmodellen van de plank. Via experimenten illustreren we hoe CCoT extra redenering mogelijk maakt over dichte betekenisvolle representaties om overeenkomstige verbeteringen in nauwkeurigheid te bereiken. Bovendien kunnen de redeneerverbeteringen op aanvraag adaptief worden aangepast door het aantal gegenereerde contemplatietokens te regelen.

English

Chain-of-thought (CoT) decoding enables language models to improve reasoning performance at the cost of high generation latency in decoding. Recent proposals have explored variants of contemplation tokens, a term we introduce that refers to special tokens used during inference to allow for extra computation. Prior work has considered fixed-length sequences drawn from a discrete set of embeddings as contemplation tokens. Here we propose Compressed Chain-of-Thought (CCoT), a framework to generate contentful and continuous contemplation tokens of variable sequence length. The generated contemplation tokens are compressed representations of explicit reasoning chains, and our method can be applied to off-the-shelf decoder language models. Through experiments, we illustrate how CCoT enables additional reasoning over dense contentful representations to achieve corresponding improvements in accuracy. Moreover, the reasoning improvements can be adaptively modified on demand by controlling the number of contemplation tokens generated.

Samengeperste Gedachtegang: Efficiënt Redeneren Door Dichte Representaties

Compressed Chain of Thought: Efficient Reasoning Through Dense Representations

Samenvatting

Support