Pensez à l'intérieur du JSON : Stratégie de renforcement pour une adhésion stricte au schéma des LLM
Think Inside the JSON: Reinforcement Strategy for Strict LLM Schema Adherence
February 18, 2025
Auteurs: Bhavik Agarwal, Ishan Joshi, Viktoria Rojkova
cs.AI
Résumé
Dans cet article, nous abordons le défi de l'application stricte de schémas dans la génération de modèles de langage à grande échelle (LLM) en exploitant leurs capacités de raisonnement. En nous appuyant sur le cadre d'apprentissage par renforcement DeepSeek R1, notre approche entraîne les compétences de raisonnement structuré d'un modèle de 1,5 milliard de paramètres à travers un pipeline innovant qui combine la construction d'un ensemble de données de raisonnement synthétique avec des fonctions de récompense personnalisées sous l'optimisation de politique relative par groupe (GRPO). Plus précisément, nous effectuons d'abord un apprentissage par renforcement R1 sur un ensemble de données de 20 000 échantillons passant de non structuré à structuré, reflétant les méthodes originales de DeepSeek R1, pour établir les capacités de raisonnement de base. Ensuite, nous avons réalisé un affinage supervisé sur un ensemble de données distinct de 10 000 échantillons de raisonnement, en nous concentrant sur l'amélioration de l'adhérence au schéma pour les tâches en aval. Malgré une portée de formation relativement modeste, nécessitant environ 20 heures sur un cluster GPU 8xH100 pour l'entraînement GRPO et 3 heures sur 1xA100 pour l'affinage supervisé (SFT), notre modèle démontre une performance robuste dans l'application de la cohérence des schémas. Nous comparons notre approche ThinkJSON à l'original DeepSeek R1 (671B), aux versions distillées de DeepSeek R1 (Qwen-1.5B et Qwen-7B), et à Gemini 2.0 Flash (70B), mettant en évidence son efficacité dans des applications réelles. Nos résultats soulignent l'utilité pratique d'un cadre efficace en termes de ressources pour la génération de texte contraint par des schémas.
English
In this paper, we address the challenge of enforcing strict schema adherence
in large language model (LLM) generation by leveraging LLM reasoning
capabilities. Building on the DeepSeek R1 reinforcement learning framework, our
approach trains structured reasoning skills of a 1.5B parameter model through a
novel pipeline that combines synthetic reasoning dataset construction with
custom reward functions under Group Relative Policy Optimization (GRPO).
Specifically, we first perform R1 reinforcement learning on a 20K sample
unstructured-to-structured dataset, mirroring the original DeepSeek R1 methods,
to establish core reasoning abilities. Subsequently, we performed supervised
fine-tuning on a separate 10K reasoning sample dataset, focusing on refining
schema adherence for downstream tasks. Despite the relatively modest training
scope, requiring approximately 20 hours on an 8xH100 GPU cluster for GRPO
training and 3 hours on 1xA100 for SFT, our model demonstrates robust
performance in enforcing schema consistency. We compare our ThinkJSON approach
against the original DeepSeek R1 (671B), distilled versions of DeepSeek R1
(Qwen-1.5B and Qwen-7B), and Gemini 2.0 Flash (70B), showcasing its
effectiveness in real-world applications. Our results underscore the practical
utility of a resource-efficient framework for schema-constrained text
generation.Summary
AI-Generated Summary