¿Dónde debería integrarse la difusión en un modelo de lenguaje? Reemplazo de estados ocultos guiado por geometría

Resumen

Los modelos de lenguaje de difusión continua están rezagados respecto a los transformadores autorregresivos, en parte porque la difusión se aplica en espacios poco adecuados para la eliminación de ruido y la recuperación de tokens en lenguaje. Proponemos DiHAL, un híbrido difusión-transformer guiado por geometría que aborda dónde debería entrar la difusión en un transformer preentrenado. DiHAL puntúa las capas con proxies basados en geometría, selecciona una interfaz de estado oculto favorable para la difusión y reemplaza el prefijo inferior del transformer con un puente de difusión, conservando las capas superiores y el cabezal original del modelo de lenguaje (LM). Al reconstruir el estado oculto de la capa seleccionada en lugar de los tokens, DiHAL evita la recuperación directa de continuo a discreto. Los experimentos con backbones de escala 8B muestran que la puntuación geométrica predice capas de inserción superficiales efectivas bajo un protocolo fijo de entrenamiento del puente, y que la recuperación del estado oculto mejora respecto a las líneas base de difusión continua en una comparación diagnóstica que iguala el presupuesto de entrenamiento de difusión/recuperación. Estos resultados sugieren que la geometría del estado oculto ayuda a identificar dónde es factible un reemplazo basado en difusión dentro de modelos de lenguaje preentrenados.

English

Continuous diffusion language models lag behind autoregressive transformers, partly because diffusion is applied in spaces poorly suited to language denoising and token recovery. We propose DiHAL, a geometry-guided diffusion-transformer hybrid that asks where diffusion should enter a pretrained transformer. DiHAL scores layers with geometry-based proxies, selects a diffusion-friendly hidden-state interface, and replaces the lower transformer prefix with a diffusion bridge while retaining the upper layers and original LM head. By reconstructing the selected-layer hidden state rather than tokens, DiHAL avoids direct continuous-to-discrete recovery. Experiments on 8B-scale backbones show that the geometry score predicts effective shallow insertion layers under a fixed bridge-training protocol and that hidden-state recovery improves over continuous diffusion baselines in a diagnostic comparison matching the diffusion/recovery training budget. These results suggest that hidden-state geometry helps identify where diffusion-based replacement is feasible inside pretrained language models.