Il Principio di Copertura: Un Quadro Concettuale per Comprendere la Generalizzazione Composizionale
The Coverage Principle: A Framework for Understanding Compositional Generalization
May 26, 2025
Autori: Hoyeon Chang, Jinho Park, Hanseul Cho, Sohee Yang, Miyoung Ko, Hyeonbin Hwang, Seungpil Won, Dohaeng Lee, Youbin Ahn, Minjoon Seo
cs.AI
Abstract
I grandi modelli linguistici eccellono nel riconoscimento di pattern, ma spesso non riescono a generalizzare in modo sistematico e composizionale. Proponiamo il principio di copertura: un framework centrato sui dati che dimostra come i modelli che si basano principalmente sul riconoscimento di pattern per compiti composizionali non possano generalizzare in modo affidabile oltre la sostituzione di frammenti che producono risultati identici quando utilizzati negli stessi contesti. Dimostriamo che questo framework ha un forte potere predittivo per le capacità di generalizzazione dei Transformer. In primo luogo, deriviamo e confermiamo empiricamente che i dati di addestramento necessari per la generalizzazione a due salti crescono almeno quadraticamente con la dimensione del set di token, e l'efficienza dei dati di addestramento non migliora con un aumento di 20 volte dei parametri. In secondo luogo, per compiti composizionali con ambiguità di percorso, in cui una variabile influisce sull'output attraverso più percorsi computazionali, mostriamo che i Transformer apprendono rappresentazioni di stato dipendenti dal contesto che compromettono sia le prestazioni che l'interoperabilità. In terzo luogo, la supervisione Chain-of-Thought migliora l'efficienza dei dati di addestramento per compiti multi-salto, ma continua a lottare con l'ambiguità di percorso. Infine, delineiamo una tassonomia basata su meccanismi che distingue tre modi in cui le reti neurali possono generalizzare: basata sulla struttura (limitata dalla copertura), basata sulle proprietà (sfruttando invarianze algebriche) e condivisa-operatore (attraverso il riutilizzo di funzioni). Questa lente concettuale contestualizza i nostri risultati e evidenzia dove sono necessarie nuove idee architetturali per raggiungere una composizionalità sistematica. Nel complesso, il principio di copertura fornisce una prospettiva unificata per comprendere il ragionamento composizionale e sottolinea la necessità di innovazioni fondamentali nell'architettura o nell'addestramento per raggiungere una vera composizionalità sistematica.
English
Large language models excel at pattern matching, yet often fall short in
systematic compositional generalization. We propose the coverage principle: a
data-centric framework showing that models relying primarily on pattern
matching for compositional tasks cannot reliably generalize beyond substituting
fragments that yield identical results when used in the same contexts. We
demonstrate that this framework has a strong predictive power for the
generalization capabilities of Transformers. First, we derive and empirically
confirm that the training data required for two-hop generalization grows at
least quadratically with the token set size, and the training data efficiency
does not improve with 20x parameter scaling. Second, for compositional tasks
with path ambiguity where one variable affects the output through multiple
computational paths, we show that Transformers learn context-dependent state
representations that undermine both performance and interoperability. Third,
Chain-of-Thought supervision improves training data efficiency for multi-hop
tasks but still struggles with path ambiguity. Finally, we outline a
mechanism-based taxonomy that distinguishes three ways neural networks
can generalize: structure-based (bounded by coverage), property-based
(leveraging algebraic invariances), and shared-operator (through function
reuse). This conceptual lens contextualizes our results and highlights where
new architectural ideas are needed to achieve systematic compositionally.
Overall, the coverage principle provides a unified lens for understanding
compositional reasoning, and underscores the need for fundamental architectural
or training innovations to achieve truly systematic compositionality.