¿Ajustar un SLM o utilizar un LLM con indicaciones? El caso de la generación de flujos de trabajo de bajo código.

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) como GPT-4o pueden manejar una amplia gama de tareas complejas con el estímulo adecuado. A medida que se reducen los costos por token, las ventajas de ajustar finamente Modelos de Lenguaje Pequeños (SLMs, por sus siglas en inglés) para aplicaciones del mundo real —inferencia más rápida, costos más bajos— pueden dejar de ser evidentes. En este trabajo, presentamos evidencia de que, para tareas específicas de un dominio que requieren salidas estructuradas, los SLMs aún mantienen una ventaja en calidad. Comparamos el ajuste fino de un SLM con el estímulo de LLMs en la tarea de generar flujos de trabajo de bajo código en formato JSON. Observamos que, aunque un buen estímulo puede producir resultados razonables, el ajuste fino mejora la calidad en un 10% en promedio. También realizamos un análisis sistemático de errores para revelar las limitaciones del modelo.

English

Large Language Models (LLMs) such as GPT-4o can handle a wide range of complex tasks with the right prompt. As per token costs are reduced, the advantages of fine-tuning Small Language Models (SLMs) for real-world applications -- faster inference, lower costs -- may no longer be clear. In this work, we present evidence that, for domain-specific tasks that require structured outputs, SLMs still have a quality advantage. We compare fine-tuning an SLM against prompting LLMs on the task of generating low-code workflows in JSON form. We observe that while a good prompt can yield reasonable results, fine-tuning improves quality by 10% on average. We also perform systematic error analysis to reveal model limitations.

¿Ajustar un SLM o utilizar un LLM con indicaciones? El caso de la generación de flujos de trabajo de bajo código.

Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows

Resumen

Support