LayerRoute: Pular Camadas Adaptativo Condicionado pela Entrada via Ajuste Fino LoRA para Modelos de Linguagem Agênticos

Resumo

Sistemas de modelos de linguagem agentivos alternam entre dois tipos de etapas estruturalmente distintos: chamadas de ferramentas estruturadas (curtas, determinísticas, com baixa perplexidade) e etapas de planejamento/raciocínio abertas (longas, complexas, com alta perplexidade). Apesar dessa heterogeneidade, sistemas de inferência atuais aplicam computação idêntica a cada etapa. Apresentamos o LayerRoute, um adaptador leve que aprende a ignorar seletivamente blocos transformadores com base em cada entrada. O LayerRoute aumenta cada um dos 24 blocos transformadores do Qwen2.5-0.5B-Instruct com: (1) um roteador por camada (~897 parâmetros, Linear(896,1)) que gera uma porta binária rígida por meio do estimador de passagem direta, e (2) adaptadores LoRA (rank 8, ~1,08M parâmetros) nas projeções de atenção Q/K/V/O. Os pesos da rede principal permanecem congelados. Uma única passagem de treinamento ponta a ponta em dados agentivos (Hermes, Glaive, GSM8K, Turing) com um termo de regularização de porta força o sistema a descobrir quais blocos podem ser ignorados por tipo de entrada. Após 3.000 passos (6,4 minutos em uma A100 40GB), o LayerRoute atinge um diferencial de ignorância de 12,91%: chamadas de ferramentas ignoram 15,25% dos FLOPs enquanto etapas de planejamento ignoram apenas 2,34%, utilizando apenas 1,10M de parâmetros treináveis (0,22% dos 494M da rede principal). A qualidade melhora em relação ao modelo base devido à adaptação LoRA, com um delta de perplexidade de -1,29 em chamadas de ferramentas e -1,30 em planejamento.

English

Agentic language model systems alternate between two structurally distinct step types: structured tool calls (short, deterministic, low perplexity) and open-ended planning/reasoning steps (long, complex, high perplexity). Despite this heterogeneity, current inference systems apply identical compute to every step. We introduce LayerRoute, a lightweight adapter that learns to selectively skip transformer blocks on a per-input basis. LayerRoute augments each of the 24 transformer blocks in Qwen2.5-0.5B-Instruct with: (1) a per-layer router (~897 parameters, Linear(896,1)) that outputs a hard binary gate via the straight-through estimator, and (2) LoRA adapters (rank 8, ~1.08M parameters) on the Q/K/V/O attention projections. The backbone weights remain frozen. A single end-to-end training pass on agentic data (Hermes, Glaive, GSM8K, Turing) with a gate regularisation term forces the system to discover which blocks are skippable per input type. After 3,000 steps (6.4 minutes on an A100 40GB), LayerRoute achieves a 12.91% skip differential: tool calls skip 15.25% of FLOPs while planning steps skip only 2.34%, using only 1.10M trainable parameters (0.22% of the 494M backbone). Quality improves over the base model due to LoRA adaptation, with perplexity delta of -1.29 on tool calls and -1.30 on planning.