SciOrch: Aprendiendo a Orquestar LLMs Expertos para Resolver Tareas de Razonamiento Científico Multimodal de Frontera

Resumen

El razonamiento científico de frontera sigue siendo un desafío importante para los modelos de lenguaje de gran escala (LLMs), donde incluso los sistemas comerciales más potentes quedan por debajo del rendimiento a nivel experto. Un examen más detallado del comportamiento de los modelos revela una complementariedad sustancial que la evaluación con un solo modelo oculta: distintos modelos de frontera destacan en diferentes tipos de preguntas, y ningún modelo por sí solo capta la imagen completa. Presentamos SciOrch, un marco que entrena un modelo ligero de 8B para orquestar LLMs de frontera en el razonamiento científico. El orquestador descompone cada pregunta, delega subproblemas a modelos comerciales seleccionados a través de llamadas a la API y sintetiza una respuesta final. Entrenar un orquestador de este tipo es fundamentalmente más difícil que el RL agéntico convencional: cada acción desencadena una llamada a la API que es costosa tanto en términos de dinero como de latencia, lo que hace inviables los despliegues en línea estándar. Abordamos esto con un enfoque basado en MCTS, que genera trayectorias de orquestación diversas, extrae muestras de un solo nodo por nodo y optimiza el orquestador con entrenamiento de tipo GRPO. En un conjunto de prueba de 240 preguntas que abarca SGI-Reasoning y el Primer Examen de Científicos (Scientists' First Exam), SciOrch alcanza una precisión promedio del 56,66%, superando al mejor modelo comercial individual en un 3,74% y a la mejor línea base multiagente en un 3,33%. También obtiene la mejor precisión tanto en SGI como en SFE con menos de la mitad del costo de API de los métodos multiagente típicos.

English

Frontier scientific reasoning remains a major challenge for large language models (LLMs), where even the strongest commercial systems fall short of expert-level performance. A closer look at model behavior reveals substantial complementarity that single-model evaluation hides: different frontier models excel on different question types, and no single model captures the full picture. We present SciOrch, a framework that trains a lightweight 8B model to orchestrate frontier LLMs for scientific reasoning. The orchestrator decomposes each question, delegates sub-problems to selected commercial models through API calls, and synthesizes a final answer. Training such an orchestrator is fundamentally harder than conventional agentic RL: each action triggers an API call that is expensive in both dollar cost and latency, making standard online rollouts infeasible. We address this with MCTS-based approach, producing diverse orchestration trajectories, extracting per-node single-turn samples, and optimizing the orchestrator with GRPO-style training. On a 240-question test set spanning SGI-Reasoning and Scientists' First Exam, SciOrch reaches 56.66% average accuracy, outperforming the strongest single commercial model by 3.74% and the strongest multi-agent baseline by 3.33%. It also attains the best accuracy on both SGI and SFE with less than half the API cost of typical multi-agent methods.