Ajustar Fino um Modelo de Linguagem Pequeno ou Solicitar um Modelo de Linguagem Grande? O Caso da Geração de Fluxos de Trabalho de Baixo Código

Resumo

Modelos de Linguagem de Grande Escala (LLMs), como o GPT-4o, são capazes de lidar com uma ampla gama de tarefas complexas quando recebem o prompt adequado. À medida que os custos por token são reduzidos, as vantagens de ajustar finamente Modelos de Linguagem de Pequena Escala (SLMs) para aplicações do mundo real — como inferência mais rápida e custos menores — podem não ser mais tão evidentes. Neste trabalho, apresentamos evidências de que, para tarefas específicas de domínio que exigem saídas estruturadas, os SLMs ainda possuem uma vantagem em termos de qualidade. Comparamos o ajuste fino de um SLM com a técnica de prompting em LLMs na tarefa de gerar fluxos de trabalho de baixo código em formato JSON. Observamos que, embora um bom prompt possa produzir resultados razoáveis, o ajuste fino melhora a qualidade em média 10%. Também realizamos uma análise sistemática de erros para revelar as limitações dos modelos.

English

Large Language Models (LLMs) such as GPT-4o can handle a wide range of complex tasks with the right prompt. As per token costs are reduced, the advantages of fine-tuning Small Language Models (SLMs) for real-world applications -- faster inference, lower costs -- may no longer be clear. In this work, we present evidence that, for domain-specific tasks that require structured outputs, SLMs still have a quality advantage. We compare fine-tuning an SLM against prompting LLMs on the task of generating low-code workflows in JSON form. We observe that while a good prompt can yield reasonable results, fine-tuning improves quality by 10% on average. We also perform systematic error analysis to reveal model limitations.

Ajustar Fino um Modelo de Linguagem Pequeno ou Solicitar um Modelo de Linguagem Grande? O Caso da Geração de Fluxos de Trabalho de Baixo Código

Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows

Resumo

Support