START: Raciocinador Autodidata com FerramentasSTART: Self-taught Reasoner with Tools
Grandes modelos de raciocínio (LRMs, do inglês Large Reasoning Models) como o OpenAI-o1 e o DeepSeek-R1 demonstraram capacidades notáveis em tarefas complexas de raciocínio por meio da utilização de longas cadeias de pensamento (CoT, do inglês Chain-of-Thought). No entanto, esses modelos frequentemente sofrem com alucinações e ineficiências devido à sua dependência exclusiva de processos internos de raciocínio. Neste artigo, apresentamos o START (Self-Taught Reasoner with Tools), um novo modelo de linguagem de raciocínio de longa CoT integrado a ferramentas, que aprimora significativamente as capacidades de raciocínio ao aproveitar ferramentas externas. Por meio da execução de código, o START é capaz de realizar cálculos complexos, auto-verificação, exploração de métodos diversos e auto-depuração, abordando assim as limitações dos LRMs. A inovação central do START reside em sua estrutura de autoaprendizagem, que compreende duas técnicas principais: 1) Hint-infer: Demonstramos que a inserção de dicas artificialmente projetadas (por exemplo, "Espere, talvez usar Python aqui seja uma boa ideia.") durante o processo de inferência de um LRM estimula efetivamente sua capacidade de utilizar ferramentas externas sem a necessidade de dados de demonstração. O Hint-infer também pode servir como um método simples e eficaz de escalonamento sequencial em tempo de teste; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): O Hint-RFT combina o Hint-infer e o RFT ao pontuar, filtrar e modificar as trajetórias de raciocínio com invocação de ferramentas geradas por um LRM via Hint-infer, seguido pelo ajuste fino do LRM. Por meio dessa estrutura, ajustamos o modelo QwQ-32B para alcançar o START. Em questões de ciência de nível de doutorado (GPQA), benchmarks de matemática de nível de competição (AMC23, AIME24, AIME25) e o benchmark de código de nível de competição (LiveCodeBench), o START alcança taxas de precisão de 63,6%, 95,0%, 66,7%, 47,1% e 47,3%, respectivamente. Ele supera significativamente o QwQ-32B base e alcança desempenho comparável ao modelo de peso aberto de última geração R1-Distill-Qwen-32B e ao modelo proprietário o1-Preview.