Re:Form -- Réduction des préjugés humains dans la vérification formelle logicielle évolutive avec l'apprentissage par renforcement dans les LLM : Une étude préliminaire sur Dafny

papers.abstract

Les grands modèles de langage (LLMs) existants basés sur le langage informel (par exemple, le langage humain) et entraînés par apprentissage par renforcement (RL) font face à un défi majeur : leurs processus de vérification, qui fournissent des signaux d’entraînement cruciaux, ne sont ni fiables ni évolutifs. En effet, les grands modèles propriétaires prédominants peinent à générer des programmes vérifiables. Une alternative prometteuse mais encore largement inexplorée est le raisonnement basé sur le langage formel. Ancrer les LLMs dans des systèmes formels rigoureux, où les modèles génératifs opèrent dans des espaces de langage formel (par exemple, Dafny), permet la vérification automatique et mathématiquement prouvable de leurs processus de raisonnement et de leurs résultats. Cette capacité est essentielle pour réaliser une vérification formelle de logiciels à grande échelle et fiable. Il est courant d’utiliser des chaînes de pensée annotées par des humains et d’autres connaissances a priori humaines pour induire les capacités de raisonnement et de codage des LLMs. Malheureusement, fournir de telles connaissances a priori pour superviser des tâches de programmation complexes devient inacceptablement chronophage. Dans ce travail, nous explorons systématiquement des moyens de réduire les connaissances a priori humaines en utilisant le langage formel Dafny comme environnement principal pour notre étude pilote. Notre pipeline repose principalement sur l’introduction d’un processus de curation de données automatique et évolutif, ainsi que sur des conceptions soignées de RL intégrant les retours du vérificateur de langage formel. Nous présentons DafnyComp, un benchmark de programmes formels compositionnels avec des spécifications auto-formalisées pour le raisonnement sur les spécifications. Notre étape de fine-tuning supervisé (SFT) permet même à de petits modèles (par exemple, 0,5 milliard de paramètres) de générer du code Dafny syntaxiquement valide et vérifiable, surpassant les modèles propriétaires. Le RL avec régularisation améliore encore les performances, obtenant une meilleure généralisation pour les tâches hors domaine et surpassant toutes les bases de référence solides sur le benchmark difficile de DafnyComp.

English

Existing informal language-based (e.g., human language) Large Language Models (LLMs) trained with Reinforcement Learning (RL) face a significant challenge: their verification processes, which provide crucial training signals, are neither reliable nor scalable. In fact, the prevalent large proprietary models could hardly generate verifiable programs. A promising yet largely uncharted alternative is formal language-based reasoning. Grounding LLMs in rigorous formal systems where generative models operate in formal language spaces (e.g., Dafny) enables the automatic and mathematically provable verification of their reasoning processes and outcomes. This capability is pivotal for achieving large-scale, reliable formal software verification. It is a common practice to employ human-annotated chain-of-thought and other human priors to induce the reasoning and coding capabilities of LLMs. Unfortunately, it becomes unacceptably all-consuming to provide such priors for supervising complex programming tasks. In this work, we systematically explore ways to reduce human priors with the formal language, Dafny, as the main environment for our pilot study. Our pipeline mainly relies on introducing an automatic and scalable data curation pipeline, and careful RL designs integrated with feedback from the formal language verifier. We introduce DafnyComp, a benchmark of compositional formal programs with auto-formalized specifications for specification reasoning. Our supervised fine-tuning (SFT) stage enables even small models (e.g., 0.5B) to generate syntactically valid and verifiable Dafny code, surpassing proprietary models. RL with regularization further improves performance, achieving stronger generalization to out-of-domain tasks and outperforming all strong baselines on the challenging DafnyComp benchmark.

Re:Form -- Réduction des préjugés humains dans la vérification formelle logicielle évolutive avec l'apprentissage par renforcement dans les LLM : Une étude préliminaire sur Dafny

Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny

papers.abstract

Support