Le raisonnement implicite dans les Transformers est un raisonnement via des raccourcis.

papers.abstract

Le calcul au moment du test émerge comme un nouveau paradigme pour améliorer les capacités de raisonnement complexe en plusieurs étapes des modèles de langage, comme en témoignent les succès d'OpenAI avec o1 et o3, ainsi que de DeepSeek avec R1. Par rapport au raisonnement explicite dans le calcul au moment du test, le raisonnement implicite est plus efficace en termes d'inférence, nécessitant moins de tokens générés. Cependant, pourquoi la capacité de raisonnement avancée n'émerge-t-elle pas dans le style de raisonnement implicite ? Dans ce travail, nous entraînons GPT-2 à partir de zéro sur un ensemble de données de raisonnement mathématique en plusieurs étapes soigneusement sélectionné et menons des expériences analytiques pour étudier comment les modèles de langage effectuent un raisonnement implicite dans des tâches en plusieurs étapes. Nos résultats révèlent : 1) Les modèles de langage peuvent effectuer un raisonnement étape par étape et atteindre une grande précision dans les tests intra-domaines et extra-domaines via un raisonnement implicite. Cependant, cette capacité n'émerge que lorsqu'ils sont entraînés sur des données à motif fixe. 2) À l'inverse, les capacités de raisonnement implicite émergeant d'un entraînement sur des données à motif non fixe ont tendance à sur-adapter un motif spécifique et échouent à généraliser davantage. Notamment, cette limitation est également observée dans les modèles de langage de pointe. Ces résultats suggèrent que les modèles de langage acquièrent un raisonnement implicite par apprentissage de raccourcis, permettant des performances solides sur des tâches avec des motifs similaires tout en manquant de généralisation.

English

Test-time compute is emerging as a new paradigm for enhancing language models' complex multi-step reasoning capabilities, as demonstrated by the success of OpenAI's o1 and o3, as well as DeepSeek's R1. Compared to explicit reasoning in test-time compute, implicit reasoning is more inference-efficient, requiring fewer generated tokens. However, why does the advanced reasoning capability fail to emerge in the implicit reasoning style? In this work, we train GPT-2 from scratch on a curated multi-step mathematical reasoning dataset and conduct analytical experiments to investigate how language models perform implicit reasoning in multi-step tasks. Our findings reveal: 1) Language models can perform step-by-step reasoning and achieve high accuracy in both in-domain and out-of-domain tests via implicit reasoning. However, this capability only emerges when trained on fixed-pattern data. 2) Conversely, implicit reasoning abilities emerging from training on unfixed-pattern data tend to overfit a specific pattern and fail to generalize further. Notably, this limitation is also observed in state-of-the-art large language models. These findings suggest that language models acquire implicit reasoning through shortcut learning, enabling strong performance on tasks with similar patterns while lacking generalization.

Le raisonnement implicite dans les Transformers est un raisonnement via des raccourcis.

Implicit Reasoning in Transformers is Reasoning through Shortcuts

papers.abstract

Support