ChatPaper.aiChatPaper

LLM Vooropleiding met Continue Concepten

LLM Pretraining with Continuous Concepts

February 12, 2025
Auteurs: Jihoon Tack, Jack Lanchantin, Jane Yu, Andrew Cohen, Ilia Kulikov, Janice Lan, Shibo Hao, Yuandong Tian, Jason Weston, Xian Li
cs.AI

Samenvatting

De voorspelling van het volgende token is het standaard trainingsdoel dat wordt gebruikt bij grootschalige taalmodelpretraining. Representaties worden geleerd als gevolg van optimalisatie voor token-level perplexiteit. Wij stellen Continuous Concept Mixing (CoCoMix) voor, een nieuw pretraining framework dat discrete voorspelling van het volgende token combineert met continue concepten. Specifiek voorspelt CoCoMix continue concepten die zijn geleerd van een voorgeleerde schaarse auto-encoder en mengt ze in de verborgen toestand van het model door ze af te wisselen met verborgen representaties van tokens. Door experimenten op meerdere benchmarks, waaronder taalmodellering en downstream redeneertaken, tonen we aan dat CoCoMix meer monster-efficiënt is en consequent beter presteert dan de standaard voorspelling van het volgende token, kennisdistantiëring en het invoegen van pauzetokens. We vinden dat het combineren van zowel conceptleren als afwisseling in een end-to-end framework cruciaal is voor prestatieverbeteringen. Bovendien verbetert CoCoMix de interpreteerbaarheid en bestuurbaarheid door directe inspectie en aanpassing van het voorspelde concept mogelijk te maken, waardoor een transparante manier wordt geboden om het interne redeneerproces van het model te sturen.
English
Next token prediction has been the standard training objective used in large language model pretraining. Representations are learned as a result of optimizing for token-level perplexity. We propose Continuous Concept Mixing (CoCoMix), a novel pretraining framework that combines discrete next token prediction with continuous concepts. Specifically, CoCoMix predicts continuous concepts learned from a pretrained sparse autoencoder and mixes them into the model's hidden state by interleaving with token hidden representations. Through experiments on multiple benchmarks, including language modeling and downstream reasoning tasks, we show that CoCoMix is more sample efficient and consistently outperforms standard next token prediction, knowledge distillation and inserting pause tokens. We find that combining both concept learning and interleaving in an end-to-end framework is critical to performance gains. Furthermore, CoCoMix enhances interpretability and steerability by allowing direct inspection and modification of the predicted concept, offering a transparent way to guide the model's internal reasoning process.
PDF295February 13, 2025