Affiner un modèle de langage spécialisé ou solliciter un modèle de langage généraliste ? Le cas de la génération de workflows low-code.
Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows
May 30, 2025
Auteurs: Orlando Marquez Ayala, Patrice Bechard, Emily Chen, Maggie Baird, Jingfei Chen
cs.AI
Résumé
Les grands modèles de langage (LLMs) tels que GPT-4o sont capables de gérer un large éventail de tâches complexes avec un bon prompt. À mesure que les coûts par token diminuent, les avantages du fine-tuning des petits modèles de langage (SLMs) pour des applications réelles — inférence plus rapide, coûts réduits — pourraient ne plus être évidents. Dans ce travail, nous présentons des preuves que, pour des tâches spécifiques à un domaine nécessitant des sorties structurées, les SLMs conservent un avantage en termes de qualité. Nous comparons le fine-tuning d'un SLM à l'utilisation de prompts sur des LLMs pour la génération de workflows low-code sous forme JSON. Nous observons que, bien qu'un bon prompt puisse donner des résultats raisonnables, le fine-tuning améliore la qualité de 10 % en moyenne. Nous effectuons également une analyse systématique des erreurs pour révéler les limites des modèles.
English
Large Language Models (LLMs) such as GPT-4o can handle a wide range of
complex tasks with the right prompt. As per token costs are reduced, the
advantages of fine-tuning Small Language Models (SLMs) for real-world
applications -- faster inference, lower costs -- may no longer be clear. In
this work, we present evidence that, for domain-specific tasks that require
structured outputs, SLMs still have a quality advantage. We compare fine-tuning
an SLM against prompting LLMs on the task of generating low-code workflows in
JSON form. We observe that while a good prompt can yield reasonable results,
fine-tuning improves quality by 10% on average. We also perform systematic
error analysis to reveal model limitations.