MOOSE-Star : Libérer l'entraînement traitable pour la découverte scientifique en franchissant la barrière de la complexité

Résumé

Bien que les grands modèles de langage (LLM) montrent un potentiel prometteur pour la découverte scientifique, les recherches existantes se concentrent sur l'inférence ou l'apprentissage par rétroaction, laissant la modélisation directe du processus de raisonnement génératif, P(hypothèse|contexte) (P(h|c)), inexplorée. Nous démontrons qu'entraîner directement P(h|c) est mathématement intraitable en raison de la complexité combinatoire (O(N^k)) inhérente à la récupération et à la composition d'inspirations à partir d'une vaste base de connaissances. Pour franchir cette barrière, nous présentons MOOSE-Star, un cadre unifié permettant un apprentissage traitable et une inférence scalable. Dans le meilleur des cas, MOOSE-Star réduit la complexité d'exponentielle à logarithmique (O(log N)) en (1) s'entraînant sur des sous-tâches décomposées dérivées de l'équation probabiliste de la découverte, (2) employant une recherche hiérarchique guidée par la motivation pour permettre une récupération logarithmique et élaguer les sous-espaces non pertinents, et (3) utilisant une composition bornée pour la robustesse face au bruit de récupération. Pour faciliter cela, nous publions TOMATO-Star, un jeu de données de 108 717 articles décomposés (38 400 heures GPU) pour l'entraînement. De plus, nous montrons que si l'échantillonnage par force brute atteint un « mur de complexité », MOOSE-Star présente une scalabilité continue au moment du test.

English

While large language models (LLMs) show promise in scientific discovery, existing research focuses on inference or feedback-driven training, leaving the direct modeling of the generative reasoning process, P(hypothesis|background) (P(h|b)), unexplored. We demonstrate that directly training P(h|b) is mathematically intractable due to the combinatorial complexity (O(N^k)) inherent in retrieving and composing inspirations from a vast knowledge base. To break this barrier, we introduce MOOSE-Star, a unified framework enabling tractable training and scalable inference. In the best case, MOOSE-Star reduces complexity from exponential to logarithmic (O(log N)) by (1) training on decomposed subtasks derived from the probabilistic equation of discovery, (2) employing motivation-guided hierarchical search to enable logarithmic retrieval and prune irrelevant subspaces, and (3) utilizing bounded composition for robustness against retrieval noise. To facilitate this, we release TOMATO-Star, a dataset of 108,717 decomposed papers (38,400 GPU hours) for training. Furthermore, we show that while brute-force sampling hits a ''complexity wall,'' MOOSE-Star exhibits continuous test-time scaling.

MOOSE-Star : Libérer l'entraînement traitable pour la découverte scientifique en franchissant la barrière de la complexité

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

Résumé

Support