I Modelli Linguistici di Grandi Dimensioni Possono Reinventare gli Algoritmi Fondamentali?

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un forte potenziale nel far progredire la scoperta scientifica. Tuttavia, se possiedano o meno la capacità per un'innovazione fondamentale rimane una questione aperta. In questo lavoro, ci concentriamo su un prerequisito per l'innovazione fondamentale: gli LLM possono reinventare gli algoritmi fondamentali dell'informatica? La nostra pipeline *Unlearn-and-Reinvent* applica l'"unlearning" (disapprendimento) agli LLM per rimuovere uno specifico algoritmo fondamentale, come l'algoritmo di Dijkstra o quello di Euclide, dalla conoscenza pre-addestrata di un LLM, per poi verificare se il modello è in grado di reinventarlo in un ambiente controllato. Per consentire un disapprendimento efficace, adottiamo un metodo di unlearning on-policy basato su GRPO. Attraverso esperimenti su 10 algoritmi target, 3 modelli open-weight robusti e 3 livelli di suggerimento, i nostri risultati dimostrano che (1) il modello più potente, Qwen3-4B-Thinking-2507, reinventa con successo il 50% degli algoritmi senza suggerimenti, il 70% al livello di suggerimento 1 e il 90% al livello di suggerimento 2; (2) alcuni suggerimenti di alto livello possono migliorare il tasso di successo della reinvenzione, ma persino suggerimenti passo-passo falliscono per quegli algoritmi più complessi; e (3) il reinforcement learning al momento del test (test-time) consente la reinvenzione con successo per l'algoritmo di Strassen al livello di suggerimento 2. Attraverso l'analisi delle traiettorie di output e studi di ablazione, scopriamo che il verificatore generativo nella fase di reinvenzione gioca un ruolo critico nel sostenere la capacità di ragionamento dei modelli, aiutando a evitare il fenomeno del "collasso del pensiero" ("thought collapse"). Questi risultati offrono spunti di riflessione sia sul potenziale che sugli attuali limiti del pensiero innovativo degli LLM.

English

LLMs have shown strong potential to advance scientific discovery. Whether they possess the capacity for foundational innovation, however, remains an open question. In this work, we focus on a prerequisite for foundational innovation: can LLMs reinvent foundational algorithms in computer science? Our Unlearn-and-Reinvent pipeline applies LLM unlearning to remove a specific foundational algorithm, such as Dijkstra's or Euclid's algorithm, from an LLM's pretrained knowledge, and then tests whether the model can reinvent it in a controlled environment. To enable effective unlearning, we adopt a GRPO-based, on-policy unlearning method. Across 10 target algorithms, 3 strong open-weight models, and 3 hint levels, our experiments demonstrate that (1) the strongest model Qwen3-4B-Thinking-2507 successfully reinvents 50% of the algorithms with no hint, 70% at hint level 1, and 90% at hint level 2; (2) a few high-level hints can enhance the reinvention success rate, but even step-by-step hints fail for those complicated algorithms; and (3) test-time reinforcement learning enables successful reinvention for the Strassen algorithm at hint level 2. Through analyses of output trajectories and ablation studies, we find that generative verifier in the reinvention phase plays a critical role in sustaining models' reasoning strength, helping to avoid the ``thought collapse'' phenomenon. These findings offer insights into both the potential and current limits of LLMs' innovative thinking.

I Modelli Linguistici di Grandi Dimensioni Possono Reinventare gli Algoritmi Fondamentali?

Can Large Language Models Reinvent Foundational Algorithms?

Abstract

Support