Waar zou diffusie een taalmodel moeten binnentreden? Geometrie-gestuurde vervanging van verborgen toestanden.

Samenvatting

Continue diffusiontaalmodellen blijven achter bij autoregressieve transformers, deels omdat diffusie wordt toegepast in ruimtes die slecht geschikt zijn voor het ontruisen van taal en het herstellen van tokens. Wij stellen DiHAL voor, een geometrie-gestuurde diffusie-transformerhybride die onderzoekt waar diffusie een voorgetrainde transformer zou moeten binnentreden. DiHAL beoordeelt lagen met geometrie-gebaseerde proxy's, selecteert een diffusievriendelijke interface voor verborgen toestanden en vervangt het onderste transformerprefix door een diffusiebrug, terwijl de bovenste lagen en de oorspronkelijke LM-kop behouden blijven. Door de verborgen toestand van de geselecteerde laag te reconstrueren in plaats van tokens, vermijdt DiHAL direct herstel van continu naar discreet. Experimenten op 8B-schaal backbones tonen aan dat de geometriescore effectieve ondiepe invoeglagen voorspelt onder een vast brugtrainingsprotocol, en dat herstel van verborgen toestanden verbetert ten opzichte van continue diffusiebaselines in een diagnostische vergelijking die overeenkomt met het trainingsbudget voor diffusie/herstel. Deze resultaten suggereren dat geometrie van verborgen toestanden helpt bij het identificeren waar diffusiegebaseerde vervanging haalbaar is binnen voorgetrainde taalmodellen.

English

Continuous diffusion language models lag behind autoregressive transformers, partly because diffusion is applied in spaces poorly suited to language denoising and token recovery. We propose DiHAL, a geometry-guided diffusion-transformer hybrid that asks where diffusion should enter a pretrained transformer. DiHAL scores layers with geometry-based proxies, selects a diffusion-friendly hidden-state interface, and replaces the lower transformer prefix with a diffusion bridge while retaining the upper layers and original LM head. By reconstructing the selected-layer hidden state rather than tokens, DiHAL avoids direct continuous-to-discrete recovery. Experiments on 8B-scale backbones show that the geometry score predicts effective shallow insertion layers under a fixed bridge-training protocol and that hidden-state recovery improves over continuous diffusion baselines in a diagnostic comparison matching the diffusion/recovery training budget. These results suggest that hidden-state geometry helps identify where diffusion-based replacement is feasible inside pretrained language models.