UltraIF: Avanzando en la Instrucción a Seguir desde lo Salvaje

Resumen

La capacidad de seguir instrucciones ha convertido a los modernos modelos de lenguaje de gran escala (LLM) en asistentes útiles. Sin embargo, el secreto para controlar a los LLM en instrucciones complejas sigue siendo un misterio, ya que existen brechas enormes entre los modelos entrenados por la comunidad de código abierto y aquellos entrenados por empresas líderes. Para cerrar esta brecha, proponemos un enfoque simple y escalable llamado UltraIF para construir LLM que puedan seguir instrucciones complejas utilizando datos de código abierto. UltraIF descompone primero las solicitudes de usuarios del mundo real en consultas más simples, restricciones y preguntas de evaluación correspondientes para las restricciones. Luego, entrenamos un UltraComposer para componer solicitudes asociadas a restricciones con preguntas de evaluación. Este compositor de solicitudes nos permite sintetizar instrucciones complicadas y filtrar respuestas con preguntas de evaluación. En nuestro experimento, por primera vez, logramos alinear LLaMA-3.1-8B-Base con su versión instructiva en 5 bancos de pruebas de seguimiento de instrucciones sin ninguna información de referencia, utilizando solo el modelo de 8B como generador y evaluador de respuestas. El modelo alineado también obtuvo puntuaciones competitivas en otros bancos de pruebas. Además, demostramos que UltraIF podría mejorar aún más LLaMA-3.1-8B-Instruct a través de la autoalineación, lo que fomenta casos de uso más amplios para el método. Nuestro código estará disponible en https://github.com/kkk-an/UltraIF.

English

Instruction-following made modern large language models (LLMs) helpful assistants. However, the key to taming LLMs on complex instructions remains mysterious, for that there are huge gaps between models trained by open-source community and those trained by leading companies. To bridge the gap, we propose a simple and scalable approach UltraIF for building LLMs that can follow complex instructions with open-source data. UltraIF first decomposes real-world user prompts into simpler queries, constraints, and corresponding evaluation questions for the constraints. Then, we train an UltraComposer to compose constraint-associated prompts with evaluation questions. This prompt composer allows us to synthesize complicated instructions as well as filter responses with evaluation questions. In our experiment, for the first time, we successfully align LLaMA-3.1-8B-Base to catch up with its instruct version on 5 instruction-following benchmarks without any benchmark information, using only 8B model as response generator and evaluator. The aligned model also achieved competitive scores on other benchmarks. Moreover, we also show that UltraIF could further improve LLaMA-3.1-8B-Instruct through self-alignment, motivating broader use cases for the method. Our code will be available at https://github.com/kkk-an/UltraIF.

UltraIF: Avanzando en la Instrucción a Seguir desde lo Salvaje

UltraIF: Advancing Instruction Following from the Wild

Resumen

Support