Tableau de Réflexion : Penser Étape par Étape à Travers les Modalités
Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities
June 20, 2024
Auteurs: Sachit Menon, Richard Zemel, Carl Vondrick
cs.AI
Résumé
Face à des questions nécessitant une pensée visuelle, les humains changent naturellement de modalités de raisonnement, formant souvent des images mentales ou dessinant des aides visuelles. Les grands modèles de langage ont montré des résultats prometteurs en arithmétique et en raisonnement symbolique en exprimant leur raisonnement intermédiaire sous forme de chaîne de pensée textuelle, mais peinent à étendre cette capacité pour répondre à des requêtes textuelles facilement résolues par un raisonnement visuel, même avec un pré-entraînement multimodal étendu. Nous introduisons une méthode simple, le *whiteboard-of-thought prompting*, pour débloquer les capacités de raisonnement visuel des grands modèles de langage multimodaux à travers différentes modalités. Cette approche fournit aux modèles un « tableau blanc » métaphorique pour dessiner les étapes de raisonnement sous forme d'images, puis renvoie ces images au modèle pour un traitement ultérieur. Nous constatons que cela peut être réalisé sans démonstrations ni modules spécialisés, en exploitant simplement la capacité existante des modèles à écrire du code avec des bibliothèques comme Matplotlib et Turtle. Cette méthode simple obtient des résultats de pointe sur quatre tâches difficiles en langage naturel impliquant un raisonnement visuel et spatial. Nous identifions plusieurs situations où GPT-4o utilisant la chaîne de pensée échoue de manière spectaculaire, y compris des cas où il atteint une précision de 0 %, tandis que le *whiteboard-of-thought* permet d'atteindre jusqu'à 92 % de précision dans ces mêmes contextes. Nous explorons en détail les succès de cette technique ainsi que ses sources d'erreur.
English
When presented with questions involving visual thinking, humans naturally
switch reasoning modalities, often forming mental images or drawing visual
aids. Large language models have shown promising results in arithmetic and
symbolic reasoning by expressing intermediate reasoning in text as a chain of
thought, yet struggle to extend this capability to answer text queries that are
easily solved by visual reasoning, even with extensive multimodal pretraining.
We introduce a simple method, whiteboard-of-thought prompting, to unlock the
visual reasoning capabilities of multimodal large language models across
modalities. Whiteboard-of-thought prompting provides multimodal large language
models with a metaphorical `whiteboard' to draw out reasoning steps as images,
then returns these images back to the model for further processing. We find
this can be accomplished with no demonstrations or specialized modules, instead
leveraging models' existing ability to write code with libraries such as
Matplotlib and Turtle. This simple approach shows state-of-the-art results on
four difficult natural language tasks that involve visual and spatial
reasoning. We identify multiple settings where GPT-4o using chain-of-thought
fails dramatically, including more than one where it achieves 0% accuracy,
while whiteboard-of-thought enables up to 92% accuracy in these same
settings. We present a detailed exploration of where the technique succeeds as
well as its sources of error.Summary
AI-Generated Summary