Eine Schicht überspringen oder in einer Schleife ausführen? Lernen von Schichtenprogrammen in LLMs

Zusammenfassung

Große Sprachmodelle (LLMs) führen Inferenz mittels einer nicht-rekurrenten Ausführung aller Schichten in einer festgelegten Tiefe und Reihenfolge durch. Wir decken die weit verbreitete Existenz eines trainingsfreien, flexiblen, dynamischen Programms aus Schichten (PoLar) auf, bei dem vortrainierte Schichten als Module verpackt und dann übersprungen oder durchlaufen werden können, um ein maßgeschneidertes Programm für jede Eingabe zu erstellen. Für die meisten Eingaben erzielen deutlich kürzere Programmausführungen die gleiche oder eine bessere Genauigkeit, während falsche Vorhersagen des ursprünglichen LLM durch alternative Programme mit weniger Schichten korrigiert werden können. Diese Beobachtungen deuten darauf hin, dass die Inferenz mehrere gültige latente Berechnungen jenseits des Standard-Durchlaufs zulässt. Um PoLar in der Praxis effizient zu erreichen, schlagen wir ein leichtes PoLar-Vorhersagenetzwerk vor, das lernt, Ausführungsprogramme zu generieren, die vortrainierte Schichten für jede Eingabe dynamisch überspringen oder wiederholen. Experimente mit Benchmarks für mathematisches Denken zeigen, dass PoLar die Genauigkeit im Vergleich zur Standardinferenz und früheren dynamischen Tiefenverfahren konsistent verbessert, oft bei Ausführung von weniger Schichten, und dass diese Gewinne auch bei verteilungsübergreifender Bewertung bestehen bleiben. Unsere Ergebnisse legen nahe, dass die Ausführung mit fester Tiefe nur eine enge Teilmenge der latenten Denkfähigkeit eines LLM erfasst.

English

Large language models (LLMs) perform inference by following a fixed depth and order, non-recurrent execution of all layers. We reveal the wide existence of training-free, flexible, dynamic program-of-layers (PoLar), where pretrained layers can be packed as modules and then skipped or looped to form a customized program for each input. For most inputs, substantially shorter program executions can achieve the same or better accuracy, while incorrect predictions of the original LLM can be corrected by alternative programs with fewer layers. These observations indicate that inference admits multiple valid latent computations beyond the standard forward pass. To efficiently achieve PoLar in practice, we propose a lightweight PoLar prediction network, which learns to generate execution programs that dynamically skip or repeat pretrained layers for each input. Experiments on mathematical reasoning benchmarks demonstrate that PoLar consistently improves accuracy over standard inference and prior dynamic-depth methods, often while executing fewer layers, and that these gains persist under out-of-distribution evaluation. Our results suggest that fixed-depth execution captures only a narrow subset of an LLM's latent reasoning capacity.