MOOSE-Star: Desbloqueando o Treinamento Tratável para a Descoberta Científica ao Superar a Barreira da Complexidade

Resumo

Embora os grandes modelos de linguagem (LLMs) mostrem potencial na descoberta científica, as pesquisas existentes concentram-se em inferência ou treinamento orientado por feedback, deixando inexplorada a modelagem direta do processo de raciocínio generativo, P(hipótese|contexto) (P(h|b)). Demonstramos que treinar diretamente P(h|b) é matematicamente intratável devido à complexidade combinatória (O(N^k)) inerente à recuperação e composição de inspirações a partir de uma vasta base de conhecimento. Para superar esta barreira, introduzimos o MOOSE-Star, uma estrutura unificada que possibilita treinamento tratável e inferência escalável. No melhor caso, o MOOSE-Star reduz a complexidade de exponencial para logarítmica (O(log N)) ao (1) treinar em subtarefas decompostas derivadas da equação probabilística da descoberta, (2) empregar busca hierárquica guiada por motivação para permitir recuperação logarítmica e podar subespaços irrelevantes, e (3) utilizar composição limitada para robustez contra ruídos de recuperação. Para viabilizar isto, disponibilizamos o TOMATO-Star, um conjunto de dados com 108.717 artigos decompostos (38.400 horas de GPU) para treinamento. Adicionalmente, mostramos que, enquanto a amostragem por força bruta atinge uma "parede de complexidade", o MOOSE-Star exibe escalabilidade contínua em tempo de teste.

English

While large language models (LLMs) show promise in scientific discovery, existing research focuses on inference or feedback-driven training, leaving the direct modeling of the generative reasoning process, P(hypothesis|background) (P(h|b)), unexplored. We demonstrate that directly training P(h|b) is mathematically intractable due to the combinatorial complexity (O(N^k)) inherent in retrieving and composing inspirations from a vast knowledge base. To break this barrier, we introduce MOOSE-Star, a unified framework enabling tractable training and scalable inference. In the best case, MOOSE-Star reduces complexity from exponential to logarithmic (O(log N)) by (1) training on decomposed subtasks derived from the probabilistic equation of discovery, (2) employing motivation-guided hierarchical search to enable logarithmic retrieval and prune irrelevant subspaces, and (3) utilizing bounded composition for robustness against retrieval noise. To facilitate this, we release TOMATO-Star, a dataset of 108,717 decomposed papers (38,400 GPU hours) for training. Furthermore, we show that while brute-force sampling hits a ''complexity wall,'' MOOSE-Star exhibits continuous test-time scaling.

MOOSE-Star: Desbloqueando o Treinamento Tratável para a Descoberta Científica ao Superar a Barreira da Complexidade

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

Resumo

Support