Paysage des Pensées : Visualisation du Processus de Raisonnement des Modèles de Langage à Grande Échelle

papers.abstract

De nombreuses applications des grands modèles de langage (LLM) reposent sur leur capacité à effectuer un raisonnement étape par étape. Cependant, le comportement de raisonnement des LLM reste mal compris, ce qui pose des défis pour la recherche, le développement et la sécurité. Pour combler cette lacune, nous introduisons le paysage des pensées - le premier outil de visualisation permettant aux utilisateurs d'inspecter les chemins de raisonnement de la chaîne de pensée et de ses dérivés sur n'importe quel ensemble de données à choix multiples. Plus précisément, nous représentons les états d'un chemin de raisonnement sous forme de vecteurs de caractéristiques qui quantifient leurs distances par rapport à tous les choix de réponses. Ces caractéristiques sont ensuite visualisées dans des graphiques en deux dimensions à l'aide de t-SNE. L'analyse qualitative et quantitative avec le paysage des pensées distingue efficacement les modèles forts des modèles faibles, les réponses correctes des réponses incorrectes, ainsi que les différentes tâches de raisonnement. Il révèle également des schémas de raisonnement indésirables, tels qu'une faible cohérence et une forte incertitude. De plus, les utilisateurs peuvent adapter notre outil à un modèle qui prédit la propriété qu'ils observent. Nous démontrons cet avantage en adaptant notre outil à un vérificateur léger qui évalue la justesse des chemins de raisonnement. Le code est disponible publiquement à l'adresse suivante : https://github.com/tmlr-group/landscape-of-thoughts.

English

Numerous applications of large language models (LLMs) rely on their ability to perform step-by-step reasoning. However, the reasoning behavior of LLMs remains poorly understood, posing challenges to research, development, and safety. To address this gap, we introduce landscape of thoughts-the first visualization tool for users to inspect the reasoning paths of chain-of-thought and its derivatives on any multi-choice dataset. Specifically, we represent the states in a reasoning path as feature vectors that quantify their distances to all answer choices. These features are then visualized in two-dimensional plots using t-SNE. Qualitative and quantitative analysis with the landscape of thoughts effectively distinguishes between strong and weak models, correct and incorrect answers, as well as different reasoning tasks. It also uncovers undesirable reasoning patterns, such as low consistency and high uncertainty. Additionally, users can adapt our tool to a model that predicts the property they observe. We showcase this advantage by adapting our tool to a lightweight verifier that evaluates the correctness of reasoning paths. The code is publicly available at: https://github.com/tmlr-group/landscape-of-thoughts.

Paysage des Pensées : Visualisation du Processus de Raisonnement des Modèles de Langage à Grande Échelle

Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models

papers.abstract

Support