Adaptação Durante a Aprendizagem: Fundamentação de LLMs para Problemas Científicos com Adaptação Inteligente do Uso de Ferramentas

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) demonstram capacidades promissoras na resolução de problemas científicos simples, mas frequentemente produzem alucinações para problemas complexos. Enquanto a integração de LLMs com ferramentas pode aumentar a confiabilidade, essa abordagem geralmente resulta em uma superdependência das ferramentas, diminuindo a capacidade do modelo de resolver problemas simples por meio de raciocínio básico. Em contraste, especialistas humanos avaliam primeiro a complexidade do problema usando conhecimento de domínio antes de escolher uma abordagem de solução apropriada. Inspirados nesse processo humano de resolução de problemas, propomos um novo método de ajuste fino de dois componentes. No primeiro componente, Destilação de Conhecimento do Mundo (WKD, do inglês World Knowledge Distillation), os LLMs aprendem diretamente a partir de soluções geradas usando informações da ferramenta para internalizar o conhecimento do domínio. No segundo componente, Adaptação do Uso da Ferramenta (TUA, do inglês Tool Usage Adaptation), nós dividimos os problemas em categorias fáceis e difíceis com base na precisão de resposta direta do modelo. Mantendo o mesmo alvo de alinhamento para problemas fáceis como no WKD, treinamos o modelo para alternar inteligentemente para o uso da ferramenta para problemas mais desafiadores. Validamos nosso método em seis conjuntos de dados de referência científica, abrangendo matemática, ciências climáticas e epidemiologia. Em média, nossos modelos demonstram um aumento de 28,18% na precisão das respostas e um aumento de 13,89% na precisão do uso da ferramenta em todos os conjuntos de dados, superando modelos de última geração, incluindo GPT-4o e Claude-3.5.

English

Large Language Models (LLMs) demonstrate promising capabilities in solving simple scientific problems but often produce hallucinations for complex ones. While integrating LLMs with tools can increase reliability, this approach typically results in over-reliance on tools, diminishing the model's ability to solve simple problems through basic reasoning. In contrast, human experts first assess problem complexity using domain knowledge before choosing an appropriate solution approach. Inspired by this human problem-solving process, we propose a novel two-component fine-tuning method. In the first component World Knowledge Distillation (WKD), LLMs learn directly from solutions generated using tool's information to internalize domain knowledge. In the second component Tool Usage Adaptation (TUA), we partition problems into easy and hard categories based on the model's direct answering accuracy. While maintaining the same alignment target for easy problems as in WKD, we train the model to intelligently switch to tool usage for more challenging problems. We validate our method on six scientific benchmark datasets, spanning mathematics, climate science and epidemiology. On average, our models demonstrate a 28.18% improvement in answer accuracy and a 13.89% increase in tool usage precision across all datasets, surpassing state-of-the-art models including GPT-4o and Claude-3.5.

Adaptação Durante a Aprendizagem: Fundamentação de LLMs para Problemas Científicos com Adaptação Inteligente do Uso de Ferramentas

Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Resumo

Support