¿Ajustar un SLM o utilizar un LLM con indicaciones? El caso de la generación de flujos de trabajo de bajo código.
Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows
May 30, 2025
Autores: Orlando Marquez Ayala, Patrice Bechard, Emily Chen, Maggie Baird, Jingfei Chen
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) como GPT-4o pueden manejar una amplia gama de tareas complejas con el estímulo adecuado. A medida que se reducen los costos por token, las ventajas de ajustar finamente Modelos de Lenguaje Pequeños (SLMs, por sus siglas en inglés) para aplicaciones del mundo real —inferencia más rápida, costos más bajos— pueden dejar de ser evidentes. En este trabajo, presentamos evidencia de que, para tareas específicas de un dominio que requieren salidas estructuradas, los SLMs aún mantienen una ventaja en calidad. Comparamos el ajuste fino de un SLM con el estímulo de LLMs en la tarea de generar flujos de trabajo de bajo código en formato JSON. Observamos que, aunque un buen estímulo puede producir resultados razonables, el ajuste fino mejora la calidad en un 10% en promedio. También realizamos un análisis sistemático de errores para revelar las limitaciones del modelo.
English
Large Language Models (LLMs) such as GPT-4o can handle a wide range of
complex tasks with the right prompt. As per token costs are reduced, the
advantages of fine-tuning Small Language Models (SLMs) for real-world
applications -- faster inference, lower costs -- may no longer be clear. In
this work, we present evidence that, for domain-specific tasks that require
structured outputs, SLMs still have a quality advantage. We compare fine-tuning
an SLM against prompting LLMs on the task of generating low-code workflows in
JSON form. We observe that while a good prompt can yield reasonable results,
fine-tuning improves quality by 10% on average. We also perform systematic
error analysis to reveal model limitations.