SciOrch: Leren om expert-LLM's te orkestreren voor het oplossen van grensverleggende multimodale wetenschappelijke redeneertaken

Samenvatting

Redeneren op het niveau van wetenschappelijke toponderzoek blijft een grote uitdaging voor grote taalmodellen (LLMs), waarbij zelfs de sterkste commerciële systemen tekortschieten ten opzichte van expertniveau. Een nadere blik op het modelgedrag onthult een aanzienlijke complementariteit die evaluatie op basis van één model verbergt: verschillende topmodellen blinken uit in verschillende vraagtypen, en geen enkel model geeft het volledige beeld. We presenteren SciOrch, een raamwerk dat een lichtgewicht 8B-model traint om top-LLMs te orkestreren voor wetenschappelijk redeneren. De orkestrator ontleedt elke vraag, delegeert deelproblemen aan geselecteerde commerciële modellen via API-aanroepen, en synthetiseert een eindantwoord. Het trainen van een dergelijke orkestrator is fundamenteel moeilijker dan conventionele agentische RL: elke actie triggert een API-aanroep die duur is zowel qua dollarkosten als latentie, waardoor standaard online rollouts onuitvoerbaar zijn. We pakken dit aan met een op MCTS gebaseerde aanpak, waarbij we diverse orkestratietrajecten produceren, per-knoop enkele-stap samples extraheren, en de orkestrator optimaliseren met GRPO-achtige training. Op een testset van 240 vragen uit SGI-Reasoning en Scientists' First Exam behaalt SciOrch een gemiddelde nauwkeurigheid van 56,66%, waarmee het het sterkste enkele commerciële model met 3,74% en de sterkste multi-agentbaseline met 3,33% overtreft. Het behaalt ook de beste nauwkeurigheid op zowel SGI als SFE met minder dan de helft van de API-kosten van typische multi-agentmethoden.

English

Frontier scientific reasoning remains a major challenge for large language models (LLMs), where even the strongest commercial systems fall short of expert-level performance. A closer look at model behavior reveals substantial complementarity that single-model evaluation hides: different frontier models excel on different question types, and no single model captures the full picture. We present SciOrch, a framework that trains a lightweight 8B model to orchestrate frontier LLMs for scientific reasoning. The orchestrator decomposes each question, delegates sub-problems to selected commercial models through API calls, and synthesizes a final answer. Training such an orchestrator is fundamentally harder than conventional agentic RL: each action triggers an API call that is expensive in both dollar cost and latency, making standard online rollouts infeasible. We address this with MCTS-based approach, producing diverse orchestration trajectories, extracting per-node single-turn samples, and optimizing the orchestrator with GRPO-style training. On a 240-question test set spanning SGI-Reasoning and Scientists' First Exam, SciOrch reaches 56.66% average accuracy, outperforming the strongest single commercial model by 3.74% and the strongest multi-agent baseline by 3.33%. It also attains the best accuracy on both SGI and SFE with less than half the API cost of typical multi-agent methods.