Artículos de investigación en IA seleccionados diariamente con traducciones
Evaluar modelos de lenguaje de gran escala (LLMs) en escenarios de respuesta abierta es un desafío, ya que los puntos de referencia y métricas existentes no pueden medirlos de manera integral. Para abordar este problema, proponemos ajustar finamente LLMs como jueces escalables (JudgeLM) para evaluar LLMs de manera eficiente y efectiva en puntos de referencia de respuesta abierta. Primero, proponemos un conjunto de datos completo, a gran escala y de alta calidad que contiene semillas de tareas, respuestas generadas por LLMs y juicios generados por GPT-4 para ajustar finamente jueces de alto rendimiento, así como un nuevo punto de referencia para evaluar a los jueces. Entrenamos JudgeLM en diferentes escalas, desde 7B, 13B hasta 33B parámetros, y realizamos un análisis sistemático de sus capacidades y comportamientos. Luego, analizamos los sesgos clave al ajustar finamente un LLM como juez, considerándolos como sesgo de posición, sesgo de conocimiento y sesgo de formato. Para abordar estos problemas, JudgeLM introduce un conjunto de técnicas que incluyen aumento por intercambio, soporte de referencia y eliminación de referencia, las cuales mejoran claramente el rendimiento del juez. JudgeLM obtiene el rendimiento de juez más avanzado tanto en el punto de referencia existente PandaLM como en nuestro nuevo punto de referencia propuesto. Nuestro JudgeLM es eficiente y el JudgeLM-7B solo necesita 3 minutos para juzgar 5K muestras con 8 GPUs A100. JudgeLM alcanza un alto acuerdo con el juez maestro, logrando un acuerdo superior al 90% que incluso supera el acuerdo humano-humano. JudgeLM también demuestra capacidades extendidas como juez de respuestas únicas, modelos multimodales, múltiples respuestas y chats de múltiples turnos.
Presentamos HyperFields, un método para generar Campos de Radiancia Neural (NeRFs) condicionados por texto con un único paso hacia adelante y (opcionalmente) algún ajuste fino. Clave en nuestro enfoque son: (i) un hiperred dinámico, que aprende un mapeo suave desde las incrustaciones de tokens de texto al espacio de NeRFs; (ii) el entrenamiento de destilación de NeRF, que destila escenas codificadas en NeRFs individuales en un hiperred dinámico. Estas técnicas permiten que una única red se ajuste a más de cien escenas únicas. Además, demostramos que HyperFields aprende un mapeo más general entre texto y NeRFs, y en consecuencia es capaz de predecir escenas novedosas dentro y fuera de la distribución, ya sea de manera inmediata (zero-shot) o con unos pocos pasos de ajuste fino. El ajuste fino de HyperFields se beneficia de una convergencia acelerada gracias al mapeo general aprendido, y es capaz de sintetizar escenas novedosas de 5 a 10 veces más rápido que los métodos basados en optimización neural existentes. Nuestros experimentos de ablación muestran que tanto la arquitectura dinámica como la destilación de NeRF son críticas para la expresividad de HyperFields.
Proponemos decodificación controlada (CD, por sus siglas en inglés), un novedoso método de aprendizaje por refuerzo fuera de política para controlar la generación autoregresiva de modelos de lenguaje hacia resultados de alta recompensa. CD resuelve un problema de aprendizaje por refuerzo fuera de política mediante una función de valor para la recompensa, a la que denominamos evaluador de prefijos. Este evaluador de prefijos se utiliza en tiempo de inferencia para guiar la generación hacia resultados de mayor recompensa. Demostramos que el evaluador de prefijos puede entrenarse con datos (posiblemente) fuera de política para predecir la recompensa esperada cuando la decodificación continúa a partir de una respuesta parcialmente decodificada. Empíricamente, mostramos que CD es efectivo como mecanismo de control en el corpus de conversaciones de Reddit. También demostramos que la modularidad del diseño de CD permite controlar múltiples recompensas, resolviendo eficazmente un problema de aprendizaje por refuerzo multiobjetivo sin complejidad adicional. Finalmente, mostramos que CD puede aplicarse de manera novedosa en bloques durante la inferencia, nuevamente sin necesidad de cambios en el entrenamiento, cerrando esencialmente la brecha entre la popular estrategia de mejor-de-K y el aprendizaje por refuerzo a nivel de tokens. Esto convierte a CD en un enfoque prometedor para la alineación de modelos de lenguaje.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) con cientos de miles de millones de parámetros han impulsado una nueva ola de aplicaciones emocionantes en IA. Sin embargo, estos modelos son computacionalmente costosos durante la inferencia. La esparsidad es un enfoque natural para reducir este costo, pero los métodos existentes requieren un costoso reentrenamiento, sacrifican la capacidad de aprendizaje en contexto de los LLMs o no logran acelerar el tiempo real en hardware moderno. Planteamos la hipótesis de que la esparsidad contextual, que consiste en conjuntos pequeños y dependientes de la entrada de cabezas de atención y parámetros MLP que producen aproximadamente la misma salida que el modelo denso para una entrada dada, puede abordar estos problemas. Demostramos que la esparsidad contextual existe, que puede predecirse con precisión y que podemos aprovecharla para acelerar la inferencia de LLMs en tiempo real sin comprometer la calidad del modelo ni su capacidad de aprendizaje en contexto. Basándonos en estas ideas, proponemos DejaVu, un sistema que utiliza un algoritmo de bajo costo para predecir la esparsidad contextual sobre la marcha según las entradas de cada capa, junto con una implementación asíncrona y consciente del hardware que acelera la inferencia de LLMs. Validamos que DejaVu puede reducir la latencia de inferencia de OPT-175B en más de 2X en comparación con el estado del arte FasterTransformer, y en más de 6X en comparación con la implementación ampliamente utilizada de Hugging Face, sin comprometer la calidad del modelo. El código está disponible en https://github.com/FMInference/DejaVu.