Fine-tunen van een SLM of prompten van een LLM? De casus van het genereren van low-code workflows

Samenvatting

Grote Taalmodellen (LLMs) zoals GPT-4o kunnen een breed scala aan complexe taken aan met de juiste prompt. Naarmate de tokenkosten worden verlaagd, zijn de voordelen van het finetunen van Kleine Taalmodellen (SLMs) voor real-world toepassingen — snellere inferentie, lagere kosten — mogelijk niet langer duidelijk. In dit werk presenteren we bewijs dat, voor domeinspecifieke taken die gestructureerde outputs vereisen, SLMs nog steeds een kwaliteitsvoordeel hebben. We vergelijken het finetunen van een SLM met het prompten van LLMs voor de taak van het genereren van low-code workflows in JSON-formaat. We observeren dat, hoewel een goede prompt redelijke resultaten kan opleveren, finetunen de kwaliteit gemiddeld met 10% verbetert. We voeren ook een systematische foutenanalyse uit om de beperkingen van de modellen te onthullen.

English

Large Language Models (LLMs) such as GPT-4o can handle a wide range of complex tasks with the right prompt. As per token costs are reduced, the advantages of fine-tuning Small Language Models (SLMs) for real-world applications -- faster inference, lower costs -- may no longer be clear. In this work, we present evidence that, for domain-specific tasks that require structured outputs, SLMs still have a quality advantage. We compare fine-tuning an SLM against prompting LLMs on the task of generating low-code workflows in JSON form. We observe that while a good prompt can yield reasonable results, fine-tuning improves quality by 10% on average. We also perform systematic error analysis to reveal model limitations.

Fine-tunen van een SLM of prompten van een LLM? De casus van het genereren van low-code workflows

Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows

Samenvatting

Support