SciOrch: Lernen, Experten-LLMs zur Lösung bahnbrechender multimodaler wissenschaftlicher Reasoning-Aufgaben zu orchestrieren

Zusammenfassung

Frontier-wissenschaftliches Denken bleibt eine große Herausforderung für große Sprachmodelle (Large Language Models, LLMs), bei der selbst die leistungsfähigsten kommerziellen Systeme kein Expertniveau erreichen. Ein genauerer Blick auf das Modellverhalten offenbart erhebliche Komplementaritäten, die die Evaluierung einzelner Modelle verdeckt: Verschiedene Frontier-Modelle zeichnen sich bei unterschiedlichen Fragetypen aus, und kein einzelnes Modell erfasst das gesamte Bild. Wir stellen SciOrch vor, ein Framework, das ein leichtgewichtiges 8B-Modell trainiert, um Frontier-LLMs für wissenschaftliches Denken zu orchestrieren. Der Orchestrator zerlegt jede Frage, delegiert Teilprobleme über API-Aufrufe an ausgewählte kommerzielle Modelle und synthetisiert eine endgültige Antwort. Das Training eines solchen Orchestrators ist grundlegend schwieriger als herkömmliches agentenbasiertes Reinforcement Learning: Jede Aktion löst einen API-Aufruf aus, der sowohl in Bezug auf Dollar-Kosten als auch auf Latenz teuer ist, was standardmäßige Online-Rollouts unpraktikabel macht. Wir begegnen diesem Problem mit einem MCTS-basierten Ansatz, der vielfältige Orchestrierungspfade erzeugt, Einzelknoten-Einzelschritt-Stichproben extrahiert und den Orchestrator mit GRPO-artigem Training optimiert. Auf einem 240-Fragen-Testsatz, der SGI-Reasoning und Scientists' First Exam umfasst, erreicht SciOrch eine durchschnittliche Genauigkeit von 56,66 % und übertrifft damit das stärkste einzelne kommerzielle Modell um 3,74 % und die stärkste Multi-Agenten-Baseline um 3,33 %. Es erzielt zudem die beste Genauigkeit sowohl auf SGI als auch auf SFE mit weniger als der Hälfte der API-Kosten typischer Multi-Agenten-Methoden.

English

Frontier scientific reasoning remains a major challenge for large language models (LLMs), where even the strongest commercial systems fall short of expert-level performance. A closer look at model behavior reveals substantial complementarity that single-model evaluation hides: different frontier models excel on different question types, and no single model captures the full picture. We present SciOrch, a framework that trains a lightweight 8B model to orchestrate frontier LLMs for scientific reasoning. The orchestrator decomposes each question, delegates sub-problems to selected commercial models through API calls, and synthesizes a final answer. Training such an orchestrator is fundamentally harder than conventional agentic RL: each action triggers an API call that is expensive in both dollar cost and latency, making standard online rollouts infeasible. We address this with MCTS-based approach, producing diverse orchestration trajectories, extracting per-node single-turn samples, and optimizing the orchestrator with GRPO-style training. On a 240-question test set spanning SGI-Reasoning and Scientists' First Exam, SciOrch reaches 56.66% average accuracy, outperforming the strongest single commercial model by 3.74% and the strongest multi-agent baseline by 3.33%. It also attains the best accuracy on both SGI and SFE with less than half the API cost of typical multi-agent methods.