LayerRoute: Invoerafhankelijk Adaptief Overslaan van Lagen via LoRA-Fijnafstemming voor Agentische Taalmodellen

Samenvatting

Agentische taalmodellen wisselen af tussen twee structureel verschillende stapstypes: gestructureerde toolaanroepen (kort, deterministisch, lage perplexiteit) en open plannings-/redeneerstappen (lang, complex, hoge perplexiteit). Ondanks deze heterogeniteit passen huidige inferentiesystemen identieke rekenkracht toe op elke stap. Wij introduceren LayerRoute, een lichtgewicht adapter die leert om op basis van elke input selectief transformatorblokken over te slaan. LayerRoute breidt elk van de 24 transformatorblokken in Qwen2.5-0.5B-Instruct uit met: (1) een per-laag-router (ongeveer 897 parameters, Linear(896,1)) die via de straight-through-schatter een harde binaire poort uitvoert, en (2) LoRA-adapters (rang 8, ongeveer 1,08M parameters) op de Q/K/V/O-aandachtsprojecties. De ruggengraatgewichten blijven bevroren. Een enkele end-to-end trainingsronde op agentische data (Hermes, Glaive, GSM8K, Turing) met een poortregularisatieterm dwingt het systeem om te ontdekken welke blokken per inputtype overslaanbaar zijn. Na 3000 stappen (6,4 minuten op een A100 40 GB) bereikt LayerRoute een overslaandifferentieel van 12,91%: toolaanroepen slaan 15,25% van de FLOPs over, terwijl planningsstappen slechts 2,34% overslaan, met slechts 1,10M trainbare parameters (0,22% van de 494M ruggengraat). De kwaliteit verbetert ten opzichte van het basismodel door de LoRA-adaptatie, met een perplexiteitsdelta van -1,29 op toolaanroepen en -1,30 op planning.

English

Agentic language model systems alternate between two structurally distinct step types: structured tool calls (short, deterministic, low perplexity) and open-ended planning/reasoning steps (long, complex, high perplexity). Despite this heterogeneity, current inference systems apply identical compute to every step. We introduce LayerRoute, a lightweight adapter that learns to selectively skip transformer blocks on a per-input basis. LayerRoute augments each of the 24 transformer blocks in Qwen2.5-0.5B-Instruct with: (1) a per-layer router (~897 parameters, Linear(896,1)) that outputs a hard binary gate via the straight-through estimator, and (2) LoRA adapters (rank 8, ~1.08M parameters) on the Q/K/V/O attention projections. The backbone weights remain frozen. A single end-to-end training pass on agentic data (Hermes, Glaive, GSM8K, Turing) with a gate regularisation term forces the system to discover which blocks are skippable per input type. After 3,000 steps (6.4 minutes on an A100 40GB), LayerRoute achieves a 12.91% skip differential: tool calls skip 15.25% of FLOPs while planning steps skip only 2.34%, using only 1.10M trainable parameters (0.22% of the 494M backbone). Quality improves over the base model due to LoRA adaptation, with perplexity delta of -1.29 on tool calls and -1.30 on planning.