SciOrch: aprendendo a orquestrar LLMs especialistas para resolver tarefas de raciocínio científico multimodal de fronteira

Resumo

O raciocínio científico de fronteira continua sendo um grande desafio para modelos de linguagem de grande porte (LLMs), onde mesmo os sistemas comerciais mais fortes ficam aquém do desempenho em nível de especialista. Um exame mais atento do comportamento dos modelos revela uma complementaridade substancial que a avaliação de um único modelo esconde: diferentes modelos de fronteira se destacam em diferentes tipos de perguntas, e nenhum modelo isolado captura o quadro completo. Apresentamos o SciOrch, uma estrutura que treina um modelo leve de 8B para orquestrar LLMs de fronteira em raciocínio científico. O orquestrador decompõe cada pergunta, delega subproblemas a modelos comerciais selecionados por meio de chamadas de API e sintetiza uma resposta final. Treinar tal orquestrador é fundamentalmente mais difícil do que o RL agentivo convencional: cada ação aciona uma chamada de API que é cara tanto em custo financeiro quanto em latência, tornando rollouts online padrão inviáveis. Abordamos isso com uma abordagem baseada em MCTS, produzindo trajetórias de orquestração diversas, extraindo amostras de nó único por nó e otimizando o orquestrador com treinamento no estilo GRPO. Em um conjunto de teste de 240 perguntas que abrange SGI-Reasoning e Scientists' First Exam, o SciOrch atinge 56,66% de acurácia média, superando o modelo comercial único mais forte em 3,74% e a linha de base multiagente mais forte em 3,33%. Ele também obtém a melhor acurácia tanto no SGI quanto no SFE com menos da metade do custo de API dos métodos multiagente típicos.

English

Frontier scientific reasoning remains a major challenge for large language models (LLMs), where even the strongest commercial systems fall short of expert-level performance. A closer look at model behavior reveals substantial complementarity that single-model evaluation hides: different frontier models excel on different question types, and no single model captures the full picture. We present SciOrch, a framework that trains a lightweight 8B model to orchestrate frontier LLMs for scientific reasoning. The orchestrator decomposes each question, delegates sub-problems to selected commercial models through API calls, and synthesizes a final answer. Training such an orchestrator is fundamentally harder than conventional agentic RL: each action triggers an API call that is expensive in both dollar cost and latency, making standard online rollouts infeasible. We address this with MCTS-based approach, producing diverse orchestration trajectories, extracting per-node single-turn samples, and optimizing the orchestrator with GRPO-style training. On a 240-question test set spanning SGI-Reasoning and Scientists' First Exam, SciOrch reaches 56.66% average accuracy, outperforming the strongest single commercial model by 3.74% and the strongest multi-agent baseline by 3.33%. It also attains the best accuracy on both SGI and SFE with less than half the API cost of typical multi-agent methods.