SciOrch : Apprendre à orchestrer des LLMs experts pour résoudre des tâches de raisonnement scientifique multimodal de pointe

Résumé

Le raisonnement scientifique de pointe demeure un défi majeur pour les grands modèles de langage (LLM), où même les systèmes commerciaux les plus performants n'atteignent pas le niveau d'expertise attendu. Un examen plus attentif du comportement des modèles révèle une complémentarité substantielle que l'évaluation d'un seul modèle masque : différents modèles de pointe excellent sur différents types de questions, et aucun modèle unique ne capture l'intégralité du tableau. Nous présentons SciOrch, un cadre qui entraîne un modèle léger de 8B à orchestrer les LLM de pointe pour le raisonnement scientifique. L'orchestrateur décompose chaque question, délègue les sous-problèmes à des modèles commerciaux sélectionnés via des appels API, et synthétise une réponse finale. Entraîner un tel orchestrateur est fondamentalement plus difficile que l'apprentissage par renforcement agentique classique : chaque action déclenche un appel API qui est coûteux à la fois en termes de coût monétaire et de latence, rendant les déploiements en ligne standard irréalisables. Nous abordons cela avec une approche basée sur MCTS, produisant des trajectoires d'orchestration diverses, extrayant des échantillons par nœud à un seul tour, et optimisant l'orchestrateur avec un entraînement de type GRPO. Sur un ensemble de test de 240 questions couvrant SGI-Reasoning et Scientists' First Exam, SciOrch atteint une précision moyenne de 56,66 %, surpassant le meilleur modèle commercial unique de 3,74 % et la meilleure baseline multi-agent de 3,33 %. Il atteint également la meilleure précision à la fois sur SGI et SFE avec moins de la moitié du coût API des méthodes multi-agents typiques.

English

Frontier scientific reasoning remains a major challenge for large language models (LLMs), where even the strongest commercial systems fall short of expert-level performance. A closer look at model behavior reveals substantial complementarity that single-model evaluation hides: different frontier models excel on different question types, and no single model captures the full picture. We present SciOrch, a framework that trains a lightweight 8B model to orchestrate frontier LLMs for scientific reasoning. The orchestrator decomposes each question, delegates sub-problems to selected commercial models through API calls, and synthesizes a final answer. Training such an orchestrator is fundamentally harder than conventional agentic RL: each action triggers an API call that is expensive in both dollar cost and latency, making standard online rollouts infeasible. We address this with MCTS-based approach, producing diverse orchestration trajectories, extracting per-node single-turn samples, and optimizing the orchestrator with GRPO-style training. On a 240-question test set spanning SGI-Reasoning and Scientists' First Exam, SciOrch reaches 56.66% average accuracy, outperforming the strongest single commercial model by 3.74% and the strongest multi-agent baseline by 3.33%. It also attains the best accuracy on both SGI and SFE with less than half the API cost of typical multi-agent methods.