LayerCake: Decodifica Contrastiva Consapevole dei Token tra i Livelli dei Modelli Linguistici di Grande Dimensione

Abstract

I grandi modelli linguistici (LLM) eccellono nella comprensione e generazione del linguaggio naturale, ma rimangono vulnerabili a errori fattuali, limitando la loro affidabilità in compiti ad alta intensità di conoscenza. Sebbene le strategie di decodifica in fase di inferenza offrano una soluzione efficiente e promettente senza necessità di addestramento, i metodi esistenti trattano tipicamente i segnali a livello di token e di strato in modo isolato, trascurando la dinamica congiunta tra di essi. In questo lavoro, introduciamo un metodo di decodifica contrastiva consapevole dei token e localizzato a livello di strato, che allinea specifici tipi di token con gli strati del trasformatore che li influenzano maggiormente, al fine di migliorare la generazione di contenuti fattuali. Attraverso un'analisi empirica dell'attenzione, identifichiamo due pattern chiave: i token di punteggiatura ricevono un'attenzione dominante negli strati iniziali, mentre i token concettuali governano il ragionamento semantico negli strati intermedi. Sopprimendo selettivamente l'attenzione a questi tipi di token alle rispettive profondità, otteniamo l'induzione di una degradazione fattuale controllata e deriviamo segnali contrastivi per guidare la decodifica fattuale finale. Il nostro metodo non richiede ulteriore addestramento o modifiche al modello, e gli esperimenti dimostrano che il metodo migliora costantemente la fattualità su più LLM e vari benchmark.

English

Large language models (LLMs) excel at natural language understanding and generation but remain vulnerable to factual errors, limiting their reliability in knowledge-intensive tasks. While decoding-time strategies provide a promising efficient solution without training, existing methods typically treat token-level and layer-level signals in isolation, overlooking the joint dynamics between them. In this work, we introduce a token-aware, layer-localized contrastive decoding method that aligns specific token types with their most influential transformer layers to improve factual generation. Through empirical attention analysis, we identify two key patterns: punctuation tokens receive dominant attention in early layers, while conceptual tokens govern semantic reasoning in intermediate layers. By selectively suppressing attention to these token types at their respective depths, we achieve the induction of controlled factual degradation and derive contrastive signals to guide the final factual decoding. Our method requires no additional training or model modification, and experiments demonstrate that our method consistently improves factuality across multiple LLMs and various benchmarks.

LayerCake: Decodifica Contrastiva Consapevole dei Token tra i Livelli dei Modelli Linguistici di Grande Dimensione

LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers

Abstract

Support