ChatPaper.aiChatPaper

Foi et Destin : Les limites des Transformers sur la compositionnalité

Faith and Fate: Limits of Transformers on Compositionality

May 29, 2023
Auteurs: Nouha Dziri, Ximing Lu, Melanie Sclar, Xiang Lorraine Li, Liwei Jian, Bill Yuchen Lin, Peter West, Chandra Bhagavatula, Ronan Le Bras, Jena D. Hwang, Soumya Sanyal, Sean Welleck, Xiang Ren, Allyson Ettinger, Zaid Harchaoui, Yejin Choi
cs.AI

Résumé

Les modèles de langage de grande taille (LLMs) basés sur l'architecture Transformer suscitent l'admiration pour leurs performances exceptionnelles sur des tâches nécessitant un raisonnement complexe en plusieurs étapes. Pourtant, ces mêmes modèles échouent parfois sur des problèmes étonnamment triviaux. Cela soulève la question : ces erreurs sont-elles fortuites, ou révèlent-elles des limitations plus profondes ? Dans une tentative de démystifier les Transformers, nous explorons les limites de ces modèles à travers trois tâches compositionnelles représentatives : la multiplication de nombres à plusieurs chiffres, les énigmes de grilles logiques et un problème classique de programmation dynamique. Ces tâches nécessitent de décomposer les problèmes en sous-étapes et de synthétiser ces étapes pour obtenir une réponse précise. Nous formulons les tâches compositionnelles sous forme de graphes de calcul afin de quantifier systématiquement le niveau de complexité, et nous décomposons les étapes de raisonnement en sous-procédures intermédiaires. Nos résultats empiriques suggèrent que les Transformers résolvent les tâches compositionnelles en réduisant le raisonnement compositionnel multi-étapes à une correspondance linéarisée de sous-graphes, sans nécessairement développer des compétences systématiques de résolution de problèmes. Pour compléter notre étude empirique, nous proposons des arguments théoriques sur des problèmes de raisonnement multi-étapes abstraits qui mettent en évidence comment les performances des Transformers se dégradent rapidement avec l'augmentation de la complexité des tâches.
English
Transformer large language models (LLMs) have sparked admiration for their exceptional performance on tasks that demand intricate multi-step reasoning. Yet, these models simultaneously show failures on surprisingly trivial problems. This begs the question: Are these errors incidental, or do they signal more substantial limitations? In an attempt to demystify Transformers, we investigate the limits of these models across three representative compositional tasks -- multi-digit multiplication, logic grid puzzles, and a classic dynamic programming problem. These tasks require breaking problems down into sub-steps and synthesizing these steps into a precise answer. We formulate compositional tasks as computation graphs to systematically quantify the level of complexity, and break down reasoning steps into intermediate sub-procedures. Our empirical findings suggest that Transformers solve compositional tasks by reducing multi-step compositional reasoning into linearized subgraph matching, without necessarily developing systematic problem-solving skills. To round off our empirical study, we provide theoretical arguments on abstract multi-step reasoning problems that highlight how Transformers' performance will rapidly decay with increased task complexity.
PDF71December 15, 2024