Denken Sie im JSON: Verstärkungsstrategie für strikte LLM-Schemaeinhaltung
Think Inside the JSON: Reinforcement Strategy for Strict LLM Schema Adherence
February 18, 2025
Autoren: Bhavik Agarwal, Ishan Joshi, Viktoria Rojkova
cs.AI
Zusammenfassung
In dieser Arbeit adressieren wir die Herausforderung, strikte Schemaeinhaltung bei der Generierung durch große Sprachmodelle (LLMs) durch die Nutzung ihrer Fähigkeiten zum logischen Schlussfolgern zu gewährleisten. Aufbauend auf dem DeepSeek R1 Reinforcement-Learning-Framework trainiert unser Ansatz die strukturierten Denkfähigkeiten eines Modells mit 1,5 Milliarden Parametern durch eine neuartige Pipeline, die die Konstruktion synthetischer Datensätze für logisches Schlussfolgern mit maßgeschneiderten Belohnungsfunktionen im Rahmen von Group Relative Policy Optimization (GRPO) kombiniert. Konkret führen wir zunächst R1 Reinforcement Learning auf einem Datensatz mit 20.000 Beispielen von unstrukturierten zu strukturierten Daten durch, analog zu den ursprünglichen DeepSeek R1-Methoden, um grundlegende Fähigkeiten zum logischen Schlussfolgern zu etablieren. Anschließend führen wir ein überwachtes Fein-Tuning auf einem separaten Datensatz mit 10.000 Beispielen für logisches Schlussfolgern durch, wobei der Fokus auf der Verbesserung der Schemaeinhaltung für nachgelagerte Aufgaben liegt. Trotz des relativ bescheidenen Trainingsumfangs, der etwa 20 Stunden auf einem 8xH100-GPU-Cluster für das GRPO-Training und 3 Stunden auf einer 1xA100-GPU für das SFT erfordert, zeigt unser Modell eine robuste Leistung bei der Durchsetzung von Schema-Konsistenz. Wir vergleichen unseren ThinkJSON-Ansatz mit dem ursprünglichen DeepSeek R1 (671B), destillierten Versionen von DeepSeek R1 (Qwen-1,5B und Qwen-7B) und Gemini 2.0 Flash (70B) und demonstrieren dessen Effektivität in realen Anwendungen. Unsere Ergebnisse unterstreichen den praktischen Nutzen eines ressourceneffizienten Frameworks für die schema-beschränkte Textgenerierung.
English
In this paper, we address the challenge of enforcing strict schema adherence
in large language model (LLM) generation by leveraging LLM reasoning
capabilities. Building on the DeepSeek R1 reinforcement learning framework, our
approach trains structured reasoning skills of a 1.5B parameter model through a
novel pipeline that combines synthetic reasoning dataset construction with
custom reward functions under Group Relative Policy Optimization (GRPO).
Specifically, we first perform R1 reinforcement learning on a 20K sample
unstructured-to-structured dataset, mirroring the original DeepSeek R1 methods,
to establish core reasoning abilities. Subsequently, we performed supervised
fine-tuning on a separate 10K reasoning sample dataset, focusing on refining
schema adherence for downstream tasks. Despite the relatively modest training
scope, requiring approximately 20 hours on an 8xH100 GPU cluster for GRPO
training and 3 hours on 1xA100 for SFT, our model demonstrates robust
performance in enforcing schema consistency. We compare our ThinkJSON approach
against the original DeepSeek R1 (671B), distilled versions of DeepSeek R1
(Qwen-1.5B and Qwen-7B), and Gemini 2.0 Flash (70B), showcasing its
effectiveness in real-world applications. Our results underscore the practical
utility of a resource-efficient framework for schema-constrained text
generation.Summary
AI-Generated Summary