Whiteboard-of-Thought: Pensare Passo dopo Passo Attraverso le Modalità
Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities
June 20, 2024
Autori: Sachit Menon, Richard Zemel, Carl Vondrick
cs.AI
Abstract
Quando si trovano di fronte a domande che richiedono pensiero visivo, gli esseri umani passano naturalmente a modalità di ragionamento diverse, spesso formando immagini mentali o disegnando ausili visivi. I grandi modelli linguistici hanno mostrato risultati promettenti nel ragionamento aritmetico e simbolico esprimendo il ragionamento intermedio in testo come una catena di pensiero, ma faticano ad estendere questa capacità per rispondere a query testuali che vengono facilmente risolte attraverso il ragionamento visivo, anche con un ampio pre-addestramento multimodale. Introduciamo un metodo semplice, il prompting "whiteboard-of-thought", per sbloccare le capacità di ragionamento visivo dei grandi modelli linguistici multimodali attraverso diverse modalità. Il prompting "whiteboard-of-thought" fornisce ai grandi modelli linguistici multimodali una "lavagna" metaforica per disegnare i passaggi del ragionamento come immagini, per poi restituire queste immagini al modello per un'ulteriore elaborazione. Abbiamo scoperto che questo può essere realizzato senza dimostrazioni o moduli specializzati, sfruttando invece la capacità esistente dei modelli di scrivere codice con librerie come Matplotlib e Turtle. Questo approccio semplice mostra risultati all'avanguardia in quattro difficili compiti di linguaggio naturale che coinvolgono il ragionamento visivo e spaziale. Identifichiamo molteplici contesti in cui GPT-4o utilizzando la catena di pensiero fallisce in modo drammatico, incluso più di un caso in cui raggiunge una precisione dello 0%, mentre il "whiteboard-of-thought" consente una precisione fino al 92% negli stessi contesti. Presentiamo un'analisi dettagliata di dove la tecnica ha successo e delle sue fonti di errore.
English
When presented with questions involving visual thinking, humans naturally
switch reasoning modalities, often forming mental images or drawing visual
aids. Large language models have shown promising results in arithmetic and
symbolic reasoning by expressing intermediate reasoning in text as a chain of
thought, yet struggle to extend this capability to answer text queries that are
easily solved by visual reasoning, even with extensive multimodal pretraining.
We introduce a simple method, whiteboard-of-thought prompting, to unlock the
visual reasoning capabilities of multimodal large language models across
modalities. Whiteboard-of-thought prompting provides multimodal large language
models with a metaphorical `whiteboard' to draw out reasoning steps as images,
then returns these images back to the model for further processing. We find
this can be accomplished with no demonstrations or specialized modules, instead
leveraging models' existing ability to write code with libraries such as
Matplotlib and Turtle. This simple approach shows state-of-the-art results on
four difficult natural language tasks that involve visual and spatial
reasoning. We identify multiple settings where GPT-4o using chain-of-thought
fails dramatically, including more than one where it achieves 0% accuracy,
while whiteboard-of-thought enables up to 92% accuracy in these same
settings. We present a detailed exploration of where the technique succeeds as
well as its sources of error.