Een laag overslaan of herhalen? Het leren van Program-of-Layers in LLM's

Samenvatting

Grote taalmodellen (LLMs) voeren inferentie uit door een vaste diepte en volgorde te volgen, met een niet-recurrente uitvoering van alle lagen. Wij onthullen het wijdverbreide bestaan van trainingsvrije, flexibele, dynamische programma-van-lagen (PoLar), waarbij voorgetrainde lagen als modules kunnen worden verpakt en vervolgens worden overgeslagen of herhaald om voor elke invoer een gepersonaliseerd programma te vormen. Voor de meeste invoeren kunnen aanzienlijk kortere programma-uitvoeringen dezelfde of betere nauwkeurigheid bereiken, terwijl onjuiste voorspellingen van het oorspronkelijke LLM kunnen worden gecorrigeerd door alternatieve programma's met minder lagen. Deze observaties geven aan dat inferentie meerdere geldige latente berekeningen toelaat, naast de standaard forward pass. Om PoLar in de praktijk efficiënt te bereiken, stellen we een lichtgewicht PoLar-voorspellingsnetwerk voor dat leert om uitvoeringsprogramma's te genereren die dynamisch voorgetrainde lagen overslaan of herhalen voor elke invoer. Experimenten op wiskundige redeneerbenchmarks tonen aan dat PoLar consequent de nauwkeurigheid verbetert ten opzichte van standaard inferentie en eerdere dynamische-dieptemethoden, vaak terwijl er minder lagen worden uitgevoerd, en dat deze winsten standhouden bij evaluatie buiten de verdeling. Onze resultaten suggereren dat uitvoering met vaste diepte slechts een beperkte subset van de latente redeneercapaciteit van een LLM vastlegt.

English

Large language models (LLMs) perform inference by following a fixed depth and order, non-recurrent execution of all layers. We reveal the wide existence of training-free, flexible, dynamic program-of-layers (PoLar), where pretrained layers can be packed as modules and then skipped or looped to form a customized program for each input. For most inputs, substantially shorter program executions can achieve the same or better accuracy, while incorrect predictions of the original LLM can be corrected by alternative programs with fewer layers. These observations indicate that inference admits multiple valid latent computations beyond the standard forward pass. To efficiently achieve PoLar in practice, we propose a lightweight PoLar prediction network, which learns to generate execution programs that dynamically skip or repeat pretrained layers for each input. Experiments on mathematical reasoning benchmarks demonstrate that PoLar consistently improves accuracy over standard inference and prior dynamic-depth methods, often while executing fewer layers, and that these gains persist under out-of-distribution evaluation. Our results suggest that fixed-depth execution captures only a narrow subset of an LLM's latent reasoning capacity.