Пропустить слой или зациклить его? Обучение программе из слоев в LLM

Аннотация

Большие языковые модели (LLM) выполняют инференс, следуя фиксированной глубине и порядку, при нерекуррентном выполнении всех слоёв. Мы обнаружили широкое существование свободных от обучения, гибких, динамических программ слоёв (PoLar), где предобученные слои могут упаковываться как модули, а затем пропускаться или повторяться, формируя настраиваемую программу для каждого входного сигнала. Для большинства входных сигналов существенно более короткие выполнения программ могут достичь той же или лучшей точности, в то время как неверные предсказания исходной LLM могут быть исправлены альтернативными программами с меньшим числом слоёв. Эти наблюдения указывают на то, что инференс допускает множество правильных скрытых вычислений за пределами стандартного прямого прохода. Для эффективного достижения PoLar на практике мы предлагаем легковесную сеть предсказания PoLar, которая учится генерировать программы выполнения, динамически пропускающие или повторяющие предобученные слои для каждого входного сигнала. Эксперименты на бенчмарках математических рассуждений показывают, что PoLar последовательно улучшает точность по сравнению со стандартным инференсом и предыдущими методами динамической глубины, часто при выполнении меньшего числа слоёв, и что эти выгоды сохраняются при оценке вне распределения. Наши результаты позволяют предположить, что выполнение с фиксированной глубиной захватывает лишь узкое подмножество скрытой способности рассуждения LLM.

English

Large language models (LLMs) perform inference by following a fixed depth and order, non-recurrent execution of all layers. We reveal the wide existence of training-free, flexible, dynamic program-of-layers (PoLar), where pretrained layers can be packed as modules and then skipped or looped to form a customized program for each input. For most inputs, substantially shorter program executions can achieve the same or better accuracy, while incorrect predictions of the original LLM can be corrected by alternative programs with fewer layers. These observations indicate that inference admits multiple valid latent computations beyond the standard forward pass. To efficiently achieve PoLar in practice, we propose a lightweight PoLar prediction network, which learns to generate execution programs that dynamically skip or repeat pretrained layers for each input. Experiments on mathematical reasoning benchmarks demonstrate that PoLar consistently improves accuracy over standard inference and prior dynamic-depth methods, often while executing fewer layers, and that these gains persist under out-of-distribution evaluation. Our results suggest that fixed-depth execution captures only a narrow subset of an LLM's latent reasoning capacity.