ChatPaper.aiChatPaper

Denk Binnen de JSON: Versterkingsstrategie voor Strikte LLM-schema Naleving

Think Inside the JSON: Reinforcement Strategy for Strict LLM Schema Adherence

February 18, 2025
Auteurs: Bhavik Agarwal, Ishan Joshi, Viktoria Rojkova
cs.AI

Samenvatting

In dit artikel gaan we de uitdaging aan om strikte schema-naleving af te dwingen bij de generatie van grote taalmodellen (LLM's) door gebruik te maken van de redeneercapaciteiten van LLM's. Op basis van het DeepSeek R1 reinforcement learning-framework traint onze aanpak de gestructureerde redeneervaardigheden van een model met 1,5 miljard parameters via een nieuwe pijplijn die synthetische constructie van redeneerdatasets combineert met aangepaste beloningsfuncties onder Group Relative Policy Optimization (GRPO). Specifiek voeren we eerst R1 reinforcement learning uit op een dataset van 20K ongestructureerde-naar-gestructureerde voorbeelden, in lijn met de oorspronkelijke DeepSeek R1-methoden, om kernredeneervaardigheden te ontwikkelen. Vervolgens voeren we supervised fine-tuning uit op een aparte dataset van 10K redeneervoorbeelden, met de focus op het verfijnen van schema-naleving voor downstream taken. Ondanks de relatief bescheiden trainingsomvang, die ongeveer 20 uur op een 8xH100 GPU-cluster voor GRPO-training en 3 uur op 1xA100 voor SFT vereist, toont ons model robuuste prestaties in het afdwingen van schema-consistentie. We vergelijken onze ThinkJSON-aanpak met de originele DeepSeek R1 (671B), gedistilleerde versies van DeepSeek R1 (Qwen-1.5B en Qwen-7B), en Gemini 2.0 Flash (70B), en demonstreren de effectiviteit ervan in real-world toepassingen. Onze resultaten benadrukken de praktische bruikbaarheid van een resource-efficiënt framework voor schema-gebonden tekstgeneratie.
English
In this paper, we address the challenge of enforcing strict schema adherence in large language model (LLM) generation by leveraging LLM reasoning capabilities. Building on the DeepSeek R1 reinforcement learning framework, our approach trains structured reasoning skills of a 1.5B parameter model through a novel pipeline that combines synthetic reasoning dataset construction with custom reward functions under Group Relative Policy Optimization (GRPO). Specifically, we first perform R1 reinforcement learning on a 20K sample unstructured-to-structured dataset, mirroring the original DeepSeek R1 methods, to establish core reasoning abilities. Subsequently, we performed supervised fine-tuning on a separate 10K reasoning sample dataset, focusing on refining schema adherence for downstream tasks. Despite the relatively modest training scope, requiring approximately 20 hours on an 8xH100 GPU cluster for GRPO training and 3 hours on 1xA100 for SFT, our model demonstrates robust performance in enforcing schema consistency. We compare our ThinkJSON approach against the original DeepSeek R1 (671B), distilled versions of DeepSeek R1 (Qwen-1.5B and Qwen-7B), and Gemini 2.0 Flash (70B), showcasing its effectiveness in real-world applications. Our results underscore the practical utility of a resource-efficient framework for schema-constrained text generation.

Summary

AI-Generated Summary

PDF92February 24, 2025