ChatPaper.aiChatPaper

Le Principe de Couverture : Un Cadre pour Comprendre la Généralisation Compositionnelle

The Coverage Principle: A Framework for Understanding Compositional Generalization

May 26, 2025
Auteurs: Hoyeon Chang, Jinho Park, Hanseul Cho, Sohee Yang, Miyoung Ko, Hyeonbin Hwang, Seungpil Won, Dohaeng Lee, Youbin Ahn, Minjoon Seo
cs.AI

Résumé

Les grands modèles de langage excellent dans la reconnaissance de motifs, mais peinent souvent à généraliser de manière systématique et compositionnelle. Nous proposons le principe de couverture : un cadre centré sur les données montrant que les modèles reposant principalement sur la reconnaissance de motifs pour les tâches compositionnelles ne peuvent pas généraliser de manière fiable au-delà de la substitution de fragments produisant des résultats identiques dans les mêmes contextes. Nous démontrons que ce cadre possède un fort pouvoir prédictif concernant les capacités de généralisation des Transformers. Premièrement, nous établissons et confirmons empiriquement que les données d'entraînement nécessaires pour une généralisation à deux sauts croissent au moins de manière quadratique avec la taille de l'ensemble de tokens, et que l'efficacité des données d'entraînement ne s'améliore pas avec un scaling des paramètres de 20x. Deuxièmement, pour les tâches compositionnelles présentant une ambiguïté de chemin où une variable affecte la sortie via plusieurs chemins de calcul, nous montrons que les Transformers apprennent des représentations d'état dépendantes du contexte qui compromettent à la fois la performance et l'interopérabilité. Troisièmement, la supervision par chaîne de pensée améliore l'efficacité des données d'entraînement pour les tâches multi-sauts, mais continue de lutter avec l'ambiguïté de chemin. Enfin, nous esquissons une taxonomie basée sur les mécanismes qui distingue trois manières dont les réseaux de neurones peuvent généraliser : basée sur la structure (limitée par la couverture), basée sur les propriétés (exploitant les invariances algébriques), et basée sur les opérateurs partagés (via la réutilisation de fonctions). Cette lentille conceptuelle contextualise nos résultats et met en lumière où de nouvelles idées architecturales sont nécessaires pour atteindre une compositionnalité systématique. Globalement, le principe de couverture offre une perspective unifiée pour comprendre le raisonnement compositionnel, et souligne la nécessité d'innovations fondamentales en architecture ou en entraînement pour atteindre une véritable compositionnalité systématique.
English
Large language models excel at pattern matching, yet often fall short in systematic compositional generalization. We propose the coverage principle: a data-centric framework showing that models relying primarily on pattern matching for compositional tasks cannot reliably generalize beyond substituting fragments that yield identical results when used in the same contexts. We demonstrate that this framework has a strong predictive power for the generalization capabilities of Transformers. First, we derive and empirically confirm that the training data required for two-hop generalization grows at least quadratically with the token set size, and the training data efficiency does not improve with 20x parameter scaling. Second, for compositional tasks with path ambiguity where one variable affects the output through multiple computational paths, we show that Transformers learn context-dependent state representations that undermine both performance and interoperability. Third, Chain-of-Thought supervision improves training data efficiency for multi-hop tasks but still struggles with path ambiguity. Finally, we outline a mechanism-based taxonomy that distinguishes three ways neural networks can generalize: structure-based (bounded by coverage), property-based (leveraging algebraic invariances), and shared-operator (through function reuse). This conceptual lens contextualizes our results and highlights where new architectural ideas are needed to achieve systematic compositionally. Overall, the coverage principle provides a unified lens for understanding compositional reasoning, and underscores the need for fundamental architectural or training innovations to achieve truly systematic compositionality.

Summary

AI-Generated Summary

PDF71May 27, 2025