UltraIF: Avanzando en la Instrucción a Seguir desde lo Salvaje
UltraIF: Advancing Instruction Following from the Wild
February 6, 2025
Autores: Kaikai An, Li Sheng, Ganqu Cui, Shuzheng Si, Ning Ding, Yu Cheng, Baobao Chang
cs.AI
Resumen
La capacidad de seguir instrucciones ha convertido a los modernos modelos de lenguaje de gran escala (LLM) en asistentes útiles. Sin embargo, el secreto para controlar a los LLM en instrucciones complejas sigue siendo un misterio, ya que existen brechas enormes entre los modelos entrenados por la comunidad de código abierto y aquellos entrenados por empresas líderes. Para cerrar esta brecha, proponemos un enfoque simple y escalable llamado UltraIF para construir LLM que puedan seguir instrucciones complejas utilizando datos de código abierto. UltraIF descompone primero las solicitudes de usuarios del mundo real en consultas más simples, restricciones y preguntas de evaluación correspondientes para las restricciones. Luego, entrenamos un UltraComposer para componer solicitudes asociadas a restricciones con preguntas de evaluación. Este compositor de solicitudes nos permite sintetizar instrucciones complicadas y filtrar respuestas con preguntas de evaluación. En nuestro experimento, por primera vez, logramos alinear LLaMA-3.1-8B-Base con su versión instructiva en 5 bancos de pruebas de seguimiento de instrucciones sin ninguna información de referencia, utilizando solo el modelo de 8B como generador y evaluador de respuestas. El modelo alineado también obtuvo puntuaciones competitivas en otros bancos de pruebas. Además, demostramos que UltraIF podría mejorar aún más LLaMA-3.1-8B-Instruct a través de la autoalineación, lo que fomenta casos de uso más amplios para el método. Nuestro código estará disponible en https://github.com/kkk-an/UltraIF.
English
Instruction-following made modern large language models (LLMs) helpful
assistants. However, the key to taming LLMs on complex instructions remains
mysterious, for that there are huge gaps between models trained by open-source
community and those trained by leading companies. To bridge the gap, we propose
a simple and scalable approach UltraIF for building LLMs that can follow
complex instructions with open-source data. UltraIF first decomposes real-world
user prompts into simpler queries, constraints, and corresponding evaluation
questions for the constraints. Then, we train an UltraComposer to compose
constraint-associated prompts with evaluation questions. This prompt composer
allows us to synthesize complicated instructions as well as filter responses
with evaluation questions. In our experiment, for the first time, we
successfully align LLaMA-3.1-8B-Base to catch up with its instruct version on 5
instruction-following benchmarks without any benchmark information, using only
8B model as response generator and evaluator. The aligned model also achieved
competitive scores on other benchmarks. Moreover, we also show that UltraIF
could further improve LLaMA-3.1-8B-Instruct through self-alignment, motivating
broader use cases for the method. Our code will be available at
https://github.com/kkk-an/UltraIF.Summary
AI-Generated Summary