ChatPaper.aiChatPaper

Pense Dentro do JSON: Estratégia de Reforço para a Adesão Rigorosa ao Esquema de LLM

Think Inside the JSON: Reinforcement Strategy for Strict LLM Schema Adherence

February 18, 2025
Autores: Bhavik Agarwal, Ishan Joshi, Viktoria Rojkova
cs.AI

Resumo

Neste artigo, abordamos o desafio de impor a adesão estrita a esquemas na geração de modelos de linguagem de grande escala (LLM) ao aproveitar as capacidades de raciocínio desses modelos. Com base no framework de aprendizado por reforço DeepSeek R1, nossa abordagem treina habilidades de raciocínio estruturado de um modelo com 1,5 bilhão de parâmetros por meio de um pipeline inovador que combina a construção de um conjunto de dados sintético de raciocínio com funções de recompensa personalizadas sob a Otimização de Política Relativa de Grupo (GRPO). Especificamente, primeiro realizamos o aprendizado por reforço R1 em um conjunto de dados de 20 mil amostras não estruturadas para estruturadas, refletindo os métodos originais do DeepSeek R1, para estabelecer habilidades centrais de raciocínio. Em seguida, realizamos o ajuste fino supervisionado em um conjunto de dados separado de 10 mil amostras de raciocínio, com foco em refinar a adesão ao esquema para tarefas subsequentes. Apesar do escopo de treinamento relativamente modesto, exigindo aproximadamente 20 horas em um cluster de GPUs 8xH100 para o treinamento GRPO e 3 horas em 1xA100 para o ajuste fino supervisionado (SFT), nosso modelo demonstra um desempenho robusto na imposição da consistência de esquemas. Comparamos nossa abordagem ThinkJSON com o DeepSeek R1 original (671B), versões destiladas do DeepSeek R1 (Qwen-1.5B e Qwen-7B) e o Gemini 2.0 Flash (70B), destacando sua eficácia em aplicações do mundo real. Nossos resultados reforçam a utilidade prática de um framework eficiente em recursos para a geração de texto restrita a esquemas.
English
In this paper, we address the challenge of enforcing strict schema adherence in large language model (LLM) generation by leveraging LLM reasoning capabilities. Building on the DeepSeek R1 reinforcement learning framework, our approach trains structured reasoning skills of a 1.5B parameter model through a novel pipeline that combines synthetic reasoning dataset construction with custom reward functions under Group Relative Policy Optimization (GRPO). Specifically, we first perform R1 reinforcement learning on a 20K sample unstructured-to-structured dataset, mirroring the original DeepSeek R1 methods, to establish core reasoning abilities. Subsequently, we performed supervised fine-tuning on a separate 10K reasoning sample dataset, focusing on refining schema adherence for downstream tasks. Despite the relatively modest training scope, requiring approximately 20 hours on an 8xH100 GPU cluster for GRPO training and 3 hours on 1xA100 for SFT, our model demonstrates robust performance in enforcing schema consistency. We compare our ThinkJSON approach against the original DeepSeek R1 (671B), distilled versions of DeepSeek R1 (Qwen-1.5B and Qwen-7B), and Gemini 2.0 Flash (70B), showcasing its effectiveness in real-world applications. Our results underscore the practical utility of a resource-efficient framework for schema-constrained text generation.

Summary

AI-Generated Summary

PDF92February 24, 2025