Sondeo Estructural de Grafos en Modelos de Visión y Lenguaje

Resumen

Los modelos de visión y lenguaje (VLM) logran un sólido rendimiento multimodal, pero aún se comprende poco cómo se organiza el cómputo a través de poblaciones de neuronas. En este trabajo, estudiamos los VLM a través de la lente de la topología neuronal, representando cada capa como un grafo de correlación intra-capa derivado de las coactivaciones neurona-neurona. Esta perspectiva nos permite preguntar si la estructura a nivel de población es conductualmente significativa, cómo cambia entre modalidades y profundidad, y si identifica componentes internos causalmente influyentes bajo intervención. Demostramos que la topología de correlación porta una señal conductual recuperable; además, la estructura cross-modal se consolida progresivamente con la profundidad alrededor de un conjunto compacto de neuronas hub recurrentes, cuya perturbación dirigida altera sustancialmente la salida del modelo. Así, la topología neuronal surge como una escala intermedia significativa para la interpretabilidad de los VLM: más rica que la atribución local, más manejable que la recuperación completa de circuitos, y empíricamente ligada al comportamiento multimodal. El código está disponible públicamente en https://github.com/he-h/vlm-graph-probing.

English

Vision-language models (VLMs) achieve strong multimodal performance, yet how computation is organized across populations of neurons remains poorly understood. In this work, we study VLMs through the lens of neural topology, representing each layer as a within-layer correlation graph derived from neuron-neuron co-activations. This view allows us to ask whether population-level structure is behaviorally meaningful, how it changes across modalities and depth, and whether it identifies causally influential internal components under intervention. We show that correlation topology carries recoverable behavioral signal; moreover, cross-modal structure progressively consolidates with depth around a compact set of recurrent hub neurons, whose targeted perturbation substantially alters model output. Neural topology thus emerges as a meaningful intermediate scale for VLM interpretability: richer than local attribution, more tractable than full circuit recovery, and empirically tied to multimodal behavior. Code is publicly available at https://github.com/he-h/vlm-graph-probing.

Sondeo Estructural de Grafos en Modelos de Visión y Lenguaje

Structural Graph Probing of Vision-Language Models

Resumen

Support