Où la diffusion devrait-elle entrer dans un modèle de langage ? Remplacement d'états cachés guidé par la géométrie

Résumé

Les modèles de langage à diffusion continue accusent un retard par rapport aux transformeurs autorégressifs, en partie parce que la diffusion est appliquée dans des espaces peu adaptés au débruitage linguistique et à la récupération de tokens. Nous proposons DiHAL, un hybride transformeur-diffusion guidé par la géométrie, qui cherche à déterminer où la diffusion doit intervenir dans un transformeur pré-entraîné. DiHAL évalue les couches à l'aide de proxies géométriques, sélectionne une interface d'état caché favorable à la diffusion, et remplace le préfixe inférieur du transformeur par un pont de diffusion tout en conservant les couches supérieures et la tête LM d'origine. En reconstruisant l'état caché de la couche sélectionnée plutôt que les tokens, DiHAL évite une récupération directe du continu au discret. Les expériences menées sur des backbones à l'échelle 8B montrent que le score géométrique prédit des couches d'insertion superficielles efficaces sous un protocole d'entraînement fixe du pont, et que la récupération de l'état caché améliore les bases de référence de diffusion continue dans une comparaison diagnostique assortie au budget d'entraînement diffusion/récupération. Ces résultats suggèrent que la géométrie des états cachés aide à identifier où un remplacement par diffusion est réalisable à l'intérieur de modèles de langage pré-entraînés.

English

Continuous diffusion language models lag behind autoregressive transformers, partly because diffusion is applied in spaces poorly suited to language denoising and token recovery. We propose DiHAL, a geometry-guided diffusion-transformer hybrid that asks where diffusion should enter a pretrained transformer. DiHAL scores layers with geometry-based proxies, selects a diffusion-friendly hidden-state interface, and replaces the lower transformer prefix with a diffusion bridge while retaining the upper layers and original LM head. By reconstructing the selected-layer hidden state rather than tokens, DiHAL avoids direct continuous-to-discrete recovery. Experiments on 8B-scale backbones show that the geometry score predicts effective shallow insertion layers under a fixed bridge-training protocol and that hidden-state recovery improves over continuous diffusion baselines in a diagnostic comparison matching the diffusion/recovery training budget. These results suggest that hidden-state geometry helps identify where diffusion-based replacement is feasible inside pretrained language models.