Einen SLM feinabstimmen oder einen LLM prompten? Der Fall der Generierung von Low-Code-Workflows

papers.abstract

Große Sprachmodelle (LLMs) wie GPT-4o können eine Vielzahl komplexer Aufgaben bewältigen, wenn sie mit dem richtigen Prompt versehen werden. Da die Kosten pro Token sinken, könnten die Vorteile des Feinabstimmens kleiner Sprachmodelle (SLMs) für reale Anwendungen – schnellere Inferenz, geringere Kosten – nicht mehr eindeutig sein. In dieser Arbeit präsentieren wir Belege dafür, dass SLMs bei domänenspezifischen Aufgaben, die strukturierte Ausgaben erfordern, immer noch einen Qualitätsvorteil haben. Wir vergleichen das Feinabstimmen eines SLM mit dem Prompting von LLMs bei der Aufgabe, Low-Code-Workflows in JSON-Form zu generieren. Wir beobachten, dass ein guter Prompt zwar vernünftige Ergebnisse liefern kann, das Feinabstimmen die Qualität jedoch durchschnittlich um 10 % verbessert. Außerdem führen wir eine systematische Fehleranalyse durch, um die Grenzen der Modelle aufzuzeigen.

English

Large Language Models (LLMs) such as GPT-4o can handle a wide range of complex tasks with the right prompt. As per token costs are reduced, the advantages of fine-tuning Small Language Models (SLMs) for real-world applications -- faster inference, lower costs -- may no longer be clear. In this work, we present evidence that, for domain-specific tasks that require structured outputs, SLMs still have a quality advantage. We compare fine-tuning an SLM against prompting LLMs on the task of generating low-code workflows in JSON form. We observe that while a good prompt can yield reasonable results, fine-tuning improves quality by 10% on average. We also perform systematic error analysis to reveal model limitations.

Einen SLM feinabstimmen oder einen LLM prompten? Der Fall der Generierung von Low-Code-Workflows

Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows

papers.abstract

Support