ChatPaper.aiChatPaper

Le Dragonneau : Le chaînon manquant entre le Transformer et les modèles du cerveau

The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain

September 30, 2025
papers.authors: Adrian Kosowski, Przemysław Uznański, Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz
cs.AI

papers.abstract

La relation entre les systèmes informatiques et le cerveau a servi de motivation pour des théoriciens pionniers depuis John von Neumann et Alan Turing. Les réseaux biologiques uniformes et invariants d'échelle, comme le cerveau, possèdent des propriétés puissantes, notamment la capacité à généraliser dans le temps, ce qui constitue le principal obstacle pour l'apprentissage automatique sur la voie des modèles de raisonnement universel. Nous présentons `Dragon Hatchling' (BDH), une nouvelle architecture de modèle de langage à grande échelle basée sur un réseau biologique inspiré et invariant d'échelle de particules neuronales interagissant localement. BDH combine des fondements théoriques solides et une interprétabilité intrinsèque sans sacrifier les performances comparables à celles des Transformers. BDH est une architecture pratique et performante de pointe pour l'apprentissage de séquences basé sur des états d'attention. En plus d'être un modèle graphique, BDH admet une formulation adaptée aux GPU. Il présente des lois d'échelle similaires à celles des Transformers : empiriquement, BDH rivalise avec les performances de GPT2 sur des tâches de langage et de traduction, pour un nombre de paramètres équivalent (de 10 millions à 1 milliard) et avec les mêmes données d'entraînement. BDH peut être représenté comme un modèle cérébral. La mémoire de travail de BDH pendant l'inférence repose entièrement sur la plasticité synaptique avec un apprentissage hebbien utilisant des neurones à impulsions. Nous confirmons empiriquement que des synapses spécifiques et individuelles renforcent les connexions chaque fois que BDH entend ou raisonne sur un concept spécifique lors du traitement des entrées linguistiques. Le réseau d'interaction neuronale de BDH est un graphe à modularité élevée avec une distribution des degrés à queue lourde. Le modèle BDH est biologiquement plausible, expliquant un mécanisme possible que les neurones humains pourraient utiliser pour produire la parole. BDH est conçu pour l'interprétabilité. Les vecteurs d'activation de BDH sont clairsemés et positifs. Nous démontrons la monosémanticité de BDH sur des tâches linguistiques. L'interprétabilité de l'état, qui va au-delà de l'interprétabilité des neurones et des paramètres du modèle, est une caractéristique inhérente de l'architecture BDH.
English
The relationship between computing systems and the brain has served as motivation for pioneering theoreticians since John von Neumann and Alan Turing. Uniform, scale-free biological networks, such as the brain, have powerful properties, including generalizing over time, which is the main barrier for Machine Learning on the path to Universal Reasoning Models. We introduce `Dragon Hatchling' (BDH), a new Large Language Model architecture based on a scale-free biologically inspired network of \n locally-interacting neuron particles. BDH couples strong theoretical foundations and inherent interpretability without sacrificing Transformer-like performance. BDH is a practical, performant state-of-the-art attention-based state space sequence learning architecture. In addition to being a graph model, BDH admits a GPU-friendly formulation. It exhibits Transformer-like scaling laws: empirically BDH rivals GPT2 performance on language and translation tasks, at the same number of parameters (10M to 1B), for the same training data. BDH can be represented as a brain model. The working memory of BDH during inference entirely relies on synaptic plasticity with Hebbian learning using spiking neurons. We confirm empirically that specific, individual synapses strengthen connection whenever BDH hears or reasons about a specific concept while processing language inputs. The neuron interaction network of BDH is a graph of high modularity with heavy-tailed degree distribution. The BDH model is biologically plausible, explaining one possible mechanism which human neurons could use to achieve speech. BDH is designed for interpretability. Activation vectors of BDH are sparse and positive. We demonstrate monosemanticity in BDH on language tasks. Interpretability of state, which goes beyond interpretability of neurons and model parameters, is an inherent feature of the BDH architecture.
PDF1041October 1, 2025