Wo sollte Diffusion in ein Sprachmodell eintreten? Geometriegeführte Ersetzung versteckter Zustände

Zusammenfassung

Kontinuierliche Diffusionssprachmodelle liegen hinter autoregressiven Transformatoren zurück, was teilweise daran liegt, dass die Diffusion in Räumen angewendet wird, die für die Sprach-Entrauschung und Token-Wiederherstellung ungeeignet sind. Wir schlagen DiHAL vor, einen geometriegeführten Diffusions-Transformer-Hybriden, der die Frage stellt, wo die Diffusion in einen vortrainierten Transformer eintreten sollte. DiHAL bewertet Schichten mit geometriebasierten Proxys, wählt eine diffusionsfreundliche Hidden-State-Schnittstelle aus und ersetzt das untere Transformer-Präfix durch eine Diffusionsbrücke, während die oberen Schichten und der ursprüngliche LM-Head erhalten bleiben. Indem DiHAL den Hidden-State der ausgewählten Schicht statt der Token rekonstruiert, vermeidet es eine direkte kontinuierlich-zu-diskrete Wiederherstellung. Experimente mit Backbones im 8B-Maßstab zeigen, dass der Geometrie-Score unter einem festen Brückentrainingsprotokoll effektive flache Einfügungsschichten vorhersagt und dass die Hidden-State-Wiederherstellung in einem diagnostischen Vergleich, der das Diffusions-/Wiederherstellungstrainingsbudget abgleicht, gegenüber kontinuierlichen Diffusionsbaselines verbessert wird. Diese Ergebnisse deuten darauf hin, dass die Hidden-State-Geometrie dabei hilft zu identifizieren, wo ein diffusionsbasierter Austausch innerhalb vortrainierter Sprachmodelle machbar ist.

English

Continuous diffusion language models lag behind autoregressive transformers, partly because diffusion is applied in spaces poorly suited to language denoising and token recovery. We propose DiHAL, a geometry-guided diffusion-transformer hybrid that asks where diffusion should enter a pretrained transformer. DiHAL scores layers with geometry-based proxies, selects a diffusion-friendly hidden-state interface, and replaces the lower transformer prefix with a diffusion bridge while retaining the upper layers and original LM head. By reconstructing the selected-layer hidden state rather than tokens, DiHAL avoids direct continuous-to-discrete recovery. Experiments on 8B-scale backbones show that the geometry score predicts effective shallow insertion layers under a fixed bridge-training protocol and that hidden-state recovery improves over continuous diffusion baselines in a diagnostic comparison matching the diffusion/recovery training budget. These results suggest that hidden-state geometry helps identify where diffusion-based replacement is feasible inside pretrained language models.