I modelli linguistici di grandi dimensioni pensano troppo velocemente per esplorare in modo efficace.
Large Language Models Think Too Fast To Explore Effectively
January 29, 2025
Autori: Lan Pan, Hanbo Xie, Robert C. Wilson
cs.AI
Abstract
I Large Language Models hanno sviluppato molte capacità intellettuali. Sebbene numerosi benchmark valutino la loro intelligenza, è stata data poca attenzione alla loro capacità di esplorare, una capacità essenziale per scoprire nuove informazioni e adattarsi a ambienti nuovi sia nei sistemi naturali che artificiali. Resta poco chiaro fino a che punto i LLM possano esplorare efficacemente, specialmente in compiti aperti. Questo studio indaga se i LLM possano superare gli esseri umani nell'esplorazione durante un compito aperto, utilizzando Little Alchemy 2 come paradigma, dove gli agenti combinano elementi per scoprirne di nuovi. I risultati mostrano che la maggior parte dei LLM ha prestazioni inferiori rispetto agli esseri umani, ad eccezione del modello o1, con quei LLM tradizionali che si basano principalmente su strategie guidate dall'incertezza, a differenza degli esseri umani che bilanciano incertezza ed empowerment. L'analisi rappresentazionale dei modelli con Sparse Autoencoder ha rivelato che l'incertezza e le scelte sono rappresentate nei primi blocchi trasformatore, mentre i valori di empowerment sono elaborati successivamente, causando ai LLM di pensare troppo velocemente e prendere decisioni premature, ostacolando un'esplorazione efficace. Questi risultati mettono in luce i limiti dell'esplorazione dei LLM e suggeriscono direzioni per migliorarne l'adattabilità.
English
Large Language Models have emerged many intellectual capacities. While
numerous benchmarks assess their intelligence, limited attention has been given
to their ability to explore, an essential capacity for discovering new
information and adapting to novel environments in both natural and artificial
systems. The extent to which LLMs can effectively explore, particularly in
open-ended tasks, remains unclear. This study investigates whether LLMs can
surpass humans in exploration during an open-ended task, using Little Alchemy 2
as a paradigm, where agents combine elements to discover new ones. Results show
most LLMs underperform compared to humans, except for the o1 model, with those
traditional LLMs relying primarily on uncertainty driven strategies, unlike
humans who balance uncertainty and empowerment. Representational analysis of
the models with Sparse Autoencoders revealed that uncertainty and choices are
represented at earlier transformer blocks, while empowerment values are
processed later, causing LLMs to think too fast and make premature decisions,
hindering effective exploration. These findings shed light on the limitations
of LLM exploration and suggest directions for improving their adaptability.Summary
AI-Generated Summary