MOOSE-Star: Desbloqueando el Entrenamiento Tratable para el Descubrimiento Científico al Superar la Barrera de la Complejidad

Resumen

Si bien los modelos de lenguaje grandes (LLM) muestran potencial para el descubrimiento científico, la investigación existente se centra en la inferencia o el entrenamiento guiado por retroalimentación, dejando sin explorar el modelado directo del proceso de razonamiento generativo, P(h|b). Demostramos que entrenar directamente P(h|b) es matemáticamente intratable debido a la complejidad combinatoria (O(N^k)) inherente a recuperar y componer inspiraciones de una vasta base de conocimiento. Para superar esta barrera, presentamos MOOSE-Star, un marco unificado que permite un entrenamiento manejable y una inferencia escalable. En el mejor de los casos, MOOSE-Star reduce la complejidad de exponencial a logarítmica (O(log N)) mediante (1) el entrenamiento en subtareas descompuestas derivadas de la ecuación probabilística del descubrimiento, (2) el empleo de una búsqueda jerárquica guiada por motivación para permitir una recuperación logarítmica y podar subespacios irrelevantes, y (3) la utilización de una composición acotada para robustez frente al ruido en la recuperación. Para facilitar esto, publicamos TOMATO-Star, un conjunto de datos de 108,717 artículos descompuestos (38,400 horas de GPU) para entrenamiento. Además, mostramos que, mientras el muestreo por fuerza bruta topa con un "muro de complejidad", MOOSE-Star exhibe un escalado continuo en tiempo de prueba.

English

While large language models (LLMs) show promise in scientific discovery, existing research focuses on inference or feedback-driven training, leaving the direct modeling of the generative reasoning process, P(hypothesis|background) (P(h|b)), unexplored. We demonstrate that directly training P(h|b) is mathematically intractable due to the combinatorial complexity (O(N^k)) inherent in retrieving and composing inspirations from a vast knowledge base. To break this barrier, we introduce MOOSE-Star, a unified framework enabling tractable training and scalable inference. In the best case, MOOSE-Star reduces complexity from exponential to logarithmic (O(log N)) by (1) training on decomposed subtasks derived from the probabilistic equation of discovery, (2) employing motivation-guided hierarchical search to enable logarithmic retrieval and prune irrelevant subspaces, and (3) utilizing bounded composition for robustness against retrieval noise. To facilitate this, we release TOMATO-Star, a dataset of 108,717 decomposed papers (38,400 GPU hours) for training. Furthermore, we show that while brute-force sampling hits a ''complexity wall,'' MOOSE-Star exhibits continuous test-time scaling.

MOOSE-Star: Desbloqueando el Entrenamiento Tratable para el Descubrimiento Científico al Superar la Barrera de la Complejidad

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

Resumen

Support