Overweging in Latente Ruimte via Differentieerbare Cache-augmentatie

Samenvatting

Technieken die grote taalmodellen (LLM's) in staat stellen om "meer te denken" door het genereren en aandacht te schenken aan tussenliggende redeneerstappen, hebben veelbelovende resultaten laten zien bij het oplossen van complexe problemen. De standaard benaderingen genereren echter sequenties van discrete tokens direct voor het reageren, wat aanzienlijke latentiekosten met zich mee kan brengen en moeilijk te optimaliseren kan zijn. In dit werk tonen we aan dat een bevroren LLM kan worden uitgebreid met een offline coprocessor die werkt op de sleutel-waarde (kv) cache van het model. Deze coprocessor breidt de cache uit met een reeks latente embeddings die zijn ontworpen om de geloofwaardigheid van daaropvolgende decodering te verbeteren. We trainen deze coprocessor met behulp van het taalmodelleringsverlies van de decoder op standaard voorafgaande trainingsgegevens, terwijl de decoder zelf bevroren blijft. Deze benadering stelt het model in staat om op een end-to-end differentieerbare manier te leren hoe extra berekeningen te destilleren in zijn kv-cache. Omdat de decoder ongewijzigd blijft, kan de coprocessor offline en asynchroon werken, en kan het taalmodel normaal functioneren als de coprocessor niet beschikbaar is of als een bepaalde cache niet extra berekening vereist. We tonen experimenteel aan dat wanneer een cache wordt uitgebreid, de decoder een lagere perplexiteit bereikt op tal van daaropvolgende tokens. Bovendien laten onze experimenten zelfs zonder enige taakspecifieke training zien dat cache-uitbreiding consequent de perplexiteit verlaagt en de prestaties verbetert bij een reeks redeneerintensieve taken.

English

Techniques enabling large language models (LLMs) to "think more" by generating and attending to intermediate reasoning steps have shown promise in solving complex problems. However, the standard approaches generate sequences of discrete tokens immediately before responding, and so they can incur significant latency costs and be challenging to optimize. In this work, we demonstrate that a frozen LLM can be augmented with an offline coprocessor that operates on the model's key-value (kv) cache. This coprocessor augments the cache with a set of latent embeddings designed to improve the fidelity of subsequent decoding. We train this coprocessor using the language modeling loss from the decoder on standard pretraining data, while keeping the decoder itself frozen. This approach enables the model to learn, in an end-to-end differentiable fashion, how to distill additional computation into its kv-cache. Because the decoder remains unchanged, the coprocessor can operate offline and asynchronously, and the language model can function normally if the coprocessor is unavailable or if a given cache is deemed not to require extra computation. We show experimentally that when a cache is augmented, the decoder achieves lower perplexity on numerous subsequent tokens. Furthermore, even without any task-specific training, our experiments demonstrate that cache augmentation consistently reduces perplexity and improves performance across a range of reasoning-intensive tasks.

Overweging in Latente Ruimte via Differentieerbare Cache-augmentatie

Deliberation in Latent Space via Differentiable Cache Augmentation

Samenvatting

Support