Os Grandes Modelos de Linguagem Podem Reinventar Algoritmos Fundamentais?

Resumo

Os LLMs demonstraram forte potencial para impulsionar a descoberta científica. No entanto, a questão sobre se possuem capacidade para inovação fundamental permanece em aberto. Neste trabalho, focamos num pré-requisito para a inovação fundamental: os LLMs podem reinventar algoritmos fundamentais da ciência da computação? Nossa abordagem Unlearn-and-Reinvent aplica o "desaprendizado" (unlearning) em LLMs para remover um algoritmo fundamental específico, como o algoritmo de Dijkstra ou o algoritmo de Euclides, do conhecimento pré-treinado do modelo, e depois testa se o modelo consegue reinventá-lo num ambiente controlado. Para permitir um desaprendizado eficaz, adotamos um método de desaprendizado on-policy baseado em GRPO. Através de experiências com 10 algoritmos-alvo, 3 modelos open-weight robustos e 3 níveis de dica, nossos resultados demonstram que (1) o modelo mais forte, Qwen3-4B-Thinking-2507, consegue reinventar 50% dos algoritmos sem dica, 70% no nível de dica 1 e 90% no nível de dica 2; (2) algumas dicas de alto nível podem aumentar a taxa de sucesso na reinvenção, mas mesmo dicas passo a passo falham para os algoritmos mais complexos; e (3) o reforço de aprendizagem em tempo de teste (test-time reinforcement learning) permite a reinvenção bem-sucedida do algoritmo de Strassen no nível de dica 2. Através da análise dos percursos de saída e de estudos de ablação, descobrimos que o verificador generativo na fase de reinvenção desempenha um papel crucial na sustentação da capacidade de raciocínio dos modelos, ajudando a evitar o fenômeno do "colapso do pensamento" (thought collapse). Estas descobertas oferecem perspetivas sobre o potencial e os limites atuais do pensamento inovador dos LLMs.

English

LLMs have shown strong potential to advance scientific discovery. Whether they possess the capacity for foundational innovation, however, remains an open question. In this work, we focus on a prerequisite for foundational innovation: can LLMs reinvent foundational algorithms in computer science? Our Unlearn-and-Reinvent pipeline applies LLM unlearning to remove a specific foundational algorithm, such as Dijkstra's or Euclid's algorithm, from an LLM's pretrained knowledge, and then tests whether the model can reinvent it in a controlled environment. To enable effective unlearning, we adopt a GRPO-based, on-policy unlearning method. Across 10 target algorithms, 3 strong open-weight models, and 3 hint levels, our experiments demonstrate that (1) the strongest model Qwen3-4B-Thinking-2507 successfully reinvents 50% of the algorithms with no hint, 70% at hint level 1, and 90% at hint level 2; (2) a few high-level hints can enhance the reinvention success rate, but even step-by-step hints fail for those complicated algorithms; and (3) test-time reinforcement learning enables successful reinvention for the Strassen algorithm at hint level 2. Through analyses of output trajectories and ablation studies, we find that generative verifier in the reinvention phase plays a critical role in sustaining models' reasoning strength, helping to avoid the ``thought collapse'' phenomenon. These findings offer insights into both the potential and current limits of LLMs' innovative thinking.

Os Grandes Modelos de Linguagem Podem Reinventar Algoritmos Fundamentais?

Can Large Language Models Reinvent Foundational Algorithms?

Resumo

Support