LongCat-Flash-Prover: Развитие нативного формального верифицирующего доказательства посредством агентного инструментально-интегрированного обучения с подкреплением

Аннотация

Мы представляем LongCat-Flash-Prover — флагманскую открытую модель Mixture-of-Experts (MoE) с 560 миллиардами параметров, которая развивает нативное формальное рассуждение в Lean4 за счёт агентного рассуждения с интеграцией инструментов (Tool-Integrated Reasoning, TIR). Мы декомпозируем задачу нативного формального рассуждения на три независимые формальные способности: автоформализацию, создание эскизов (скетчинг) и доказательство. Для поддержки этих способностей мы предлагаем Гибридный экспертный итерационный фреймворк (Hybrid-Experts Iteration Framework) для расширения высококачественных траекторий задач, включая генерацию формального утверждения по заданной неформальной проблеме, создание полного доказательства непосредственно из утверждения или леммо-подобного эскиза. В ходе агентного обучения с подкреплением (RL) мы представляем алгоритм Иерархической оптимизации стратегии с важностным взвешиванием (Hierarchical Importance Sampling Policy Optimization, HisPO), направленный на стабилизацию обучения MoE-модели на таких задачах с длинным горизонтом. Он использует стратегию маскирования градиентов, учитывающую устаревание стратегии и присущие расхождения между механизмами обучения и вывода на уровне как последовательности, так и отдельных токенов. Кроме того, мы также внедряем механизмы проверки согласованности теорем и корректности для устранения проблем взлома функции вознаграждения (reward hacking). Обширные оценки показывают, что наша модель LongCat-Flash-Prover устанавливает новое state-of-the-art значение для моделей с открытыми весами как в автоформализации, так и в доказательстве теорем. Продемонстрировав выдающуюся эффективность по выборке, она достигает 97.1% успешных решений на MiniF2F-Test, используя всего 72 шага вывода на задачу. На более сложных бенчмарках модель решает 70.8% задач ProverBench и 41.5% задач PutnamBench, делая не более 220 попыток на задачу, что значительно превосходит существующие открытые базовые модели.

English

We introduce LongCat-Flash-Prover, a flagship 560-billion-parameter open-source Mixture-of- Experts (MoE) model that advances Native Formal Reasoning in Lean4 through agentic tool-integrated reasoning (TIR). We decompose the native formal reasoning task into three independent formal capabilities, i.e., auto-formalization, sketching, and proving. To facilitate these capabilities, we propose a Hybrid-Experts Iteration Framework to expand high-quality task trajectories, including generating a formal statement based on a given informal problem, producing a whole-proof directly from the statement, or a lemma-style sketch. During agentic RL, we present a Hierarchical Importance Sampling Policy Optimization (HisPO) algorithm, which aims to stabilize the MoE model training on such long-horizon tasks. It employs a gradient masking strategy that accounts for the policy staleness and the inherent train-inference engine discrepancies at both sequence and token levels. Additionally, we also incorporate theorem consistency and legality detection mechanisms to eliminate reward hacking issues. Extensive evaluations show that our LongCat-Flash-Prover sets a new state-of-the-art for open-weights models in both auto-formalization and theorem proving. Demonstrating remarkable sample efficiency, it achieves a 97.1% pass rate on MiniF2F-Test using only 72 inference budget per problem. On more challenging benchmarks, it solves 70.8% of ProverBench and 41.5% of PutnamBench with no more than 220 attempts per problem, significantly outperforming existing open-weights baselines.

LongCat-Flash-Prover: Развитие нативного формального верифицирующего доказательства посредством агентного инструментально-интегрированного обучения с подкреплением

LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning

Аннотация

Support