Artículos de investigación en IA seleccionados diariamente con traducciones
Imaginen un desarrollador que solo puede cambiar la última línea de su código, ¿con qué frecuencia tendría que empezar a escribir una función desde cero antes de que sea correcta? Los modelos auto-regresivos para la generación de código a partir de lenguaje natural tienen una limitación similar: no permiten reconsiderar fácilmente los tokens generados anteriormente. Presentamos CodeFusion, un modelo preentrenado de generación de código basado en difusión que aborda esta limitación al desruir iterativamente un programa completo condicionado por el lenguaje natural codificado. Evaluamos CodeFusion en la tarea de generación de código a partir de lenguaje natural para Bash, Python y reglas de formato condicional (CF) de Microsoft Excel. Los experimentos muestran que CodeFusion (75M parámetros) tiene un rendimiento comparable con los sistemas auto-regresivos más avanzados (350M-175B parámetros) en precisión top-1 y los supera en precisión top-3 y top-5 debido a su mejor equilibrio entre diversidad y calidad.
En este artículo, exploramos los formatos de datos de baja precisión FP8 para el entrenamiento eficiente de modelos de lenguaje grandes (LLMs). Nuestra idea clave es que la mayoría de las variables, como los gradientes y los estados del optimizador, en el entrenamiento de LLMs pueden emplear formatos de datos de baja precisión sin comprometer la precisión del modelo y sin requerir cambios en los hiperparámetros. Específicamente, proponemos un nuevo marco de precisión mixta automática FP8 para el entrenamiento de LLMs. Este marco ofrece tres niveles de utilización de FP8 para optimizar la precisión mixta y el entrenamiento paralelo distribuido para LLMs. Incorpora gradualmente gradientes de 8 bits, estados del optimizador y aprendizaje distribuido de manera incremental. Los resultados experimentales muestran que, durante el entrenamiento del modelo GPT-175B en la plataforma GPU H100, nuestro marco de entrenamiento de precisión mixta FP8 no solo logró una notable reducción del 42% en el uso real de memoria, sino que también funcionó un 64% más rápido que el marco BF16 ampliamente adoptado (es decir, Megatron-LM), superando la velocidad de Nvidia Transformer Engine en un 17%. Esto reduce en gran medida los costos de entrenamiento para modelos base grandes. Además, nuestra metodología de entrenamiento de precisión mixta FP8 es genérica. Puede aplicarse sin problemas a otras tareas, como el ajuste de instrucciones de LLMs y el aprendizaje por refuerzo con retroalimentación humana, ofreciendo ahorros en los gastos de ajuste fino. Nuestro marco de entrenamiento de baja precisión FP8 es de código abierto en {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
Presentamos ControlLLM, un marco novedoso que permite a los modelos de lenguaje de gran escala (LLMs) utilizar herramientas multimodales para resolver tareas complejas del mundo real. A pesar del rendimiento notable de los LLMs, estos aún enfrentan dificultades con la invocación de herramientas debido a indicaciones ambiguas del usuario, selección y parametrización imprecisa de herramientas, y programación ineficiente de las mismas. Para superar estos desafíos, nuestro marco consta de tres componentes clave: (1) un descomponedor de tareas que divide una tarea compleja en subtareas claras con entradas y salidas bien definidas; (2) un paradigma de Pensamientos-en-Grafo (ToG) que busca la ruta de solución óptima en un grafo de herramientas preconstruido, el cual especifica las relaciones de parámetros y dependencias entre diferentes herramientas; y (3) un motor de ejecución con un conjunto de herramientas rico que interpreta la ruta de solución y ejecuta las herramientas de manera eficiente en diferentes dispositivos computacionales. Evaluamos nuestro marco en diversas tareas que involucran procesamiento de imágenes, audio y video, demostrando su precisión, eficiencia y versatilidad superiores en comparación con los métodos existentes.
El aprendizaje en el dispositivo y el ajuste fino eficiente permiten una personalización continua y que preserva la privacidad (por ejemplo, ajustar localmente modelos de lenguaje grandes con datos personalizados). Sin embargo, los marcos de entrenamiento existentes están diseñados para servidores en la nube con aceleradores potentes (por ejemplo, GPUs, TPUs) y carecen de optimizaciones para el aprendizaje en el edge, que enfrenta desafíos de limitaciones de recursos y diversidad de hardware en el edge. Presentamos PockEngine: un motor pequeño, disperso y eficiente que permite el ajuste fino en diversos dispositivos edge. PockEngine soporta retropropagación dispersa: poda el gráfico de retropropagación y actualiza el modelo de manera dispersa, logrando ahorros de memoria y reducción de latencia medidos, mientras mantiene la calidad del modelo. En segundo lugar, PockEngine es "compilación primero": todo el gráfico de entrenamiento (incluyendo los pasos de avance, retropropagación y optimización) se deriva en tiempo de compilación, lo que reduce la sobrecarga en tiempo de ejecución y abre oportunidades para transformaciones del gráfico. PockEngine también integra un conjunto rico de optimizaciones del gráfico de entrenamiento, lo que permite acelerar aún más el costo del entrenamiento, incluyendo reordenamiento de operadores y cambio de backends. PockEngine soporta diversas aplicaciones, frontends y backends de hardware: compila y ajusta de manera flexible modelos definidos en PyTorch/TensorFlow/Jax y despliega binarios a CPU/GPU/DSPs móviles. Evaluamos PockEngine tanto en modelos de visión como en modelos de lenguaje grandes. PockEngine logra hasta 15 veces más velocidad que TensorFlow estándar (Raspberry Pi) y un ahorro de memoria en retropropagación de 5.6 veces (Jetson AGX Orin). Notablemente, PockEngine permite ajustar fino LLaMav2-7B en NVIDIA Jetson AGX Orin a 550 tokens/s, 7.9 veces más rápido que PyTorch.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) muestran potencial para tareas de lenguaje natural, pero enfrentan dificultades cuando se aplican directamente a dominios complejos como las finanzas. Los LLMs tienen problemas para razonar e integrar toda la información relevante. Proponemos un enfoque centrado en los datos para permitir que los LLMs manejen mejor las tareas financieras. Nuestra idea clave es que, en lugar de sobrecargar el LLM con todo a la vez, es más efectivo preprocesar y precomprender los datos. Creamos un LLM financiero (FLLM) utilizando un ajuste fino basado en indicaciones multitarea para lograr el preprocesamiento y la precomprensión de los datos. Sin embargo, los datos etiquetados son escasos para cada tarea. Para superar los costos de anotación manual, empleamos el razonamiento de aumento abductivo (AAR, por sus siglas en inglés) para generar automáticamente datos de entrenamiento modificando las etiquetas pseudo generadas a partir de las propias salidas del FLLM. Los experimentos muestran que nuestro FLLM centrado en datos con AAR supera sustancialmente a los LLMs financieros de referencia diseñados para texto sin procesar, logrando un rendimiento de vanguardia en tareas de análisis e interpretación financiera. También publicamos un nuevo punto de referencia de código abierto para el análisis e interpretación financiera. Nuestra metodología proporciona un camino prometedor para desbloquear el potencial de los LLMs en dominios complejos del mundo real.
Presentamos un marco para la medición automatizada de métricas de IA responsable (RAI) en modelos de lenguaje grandes (LLMs) y en los productos y servicios asociados. Nuestro marco para medir automáticamente los daños causados por LLMs se basa en conocimientos técnicos y sociotécnicos existentes y aprovecha las capacidades de LLMs de última generación, como GPT-4. Utilizamos este marco para analizar varios estudios de caso que investigan cómo diferentes LLMs pueden violar una variedad de principios relacionados con la RAI. Este marco puede emplearse junto con experiencia sociotécnica específica del dominio para crear mediciones en nuevas áreas de daño en el futuro. Al implementar este marco, nuestro objetivo es permitir esfuerzos más avanzados en la medición de daños y fomentar el uso responsable de los LLMs.
Presentamos ZeroNVS, un modelo de difusión 3D para la síntesis de nuevas vistas a partir de una sola imagen en escenas del mundo real. Mientras que los métodos existentes están diseñados para objetos individuales con fondos enmascarados, proponemos nuevas técnicas para abordar los desafíos que presentan las escenas del mundo real con múltiples objetos y fondos complejos. Específicamente, entrenamos un prior generativo en una mezcla de fuentes de datos que capturan escenas centradas en objetos, interiores y exteriores. Para abordar problemas derivados de la mezcla de datos, como la ambigüedad en la escala de profundidad, proponemos una nueva parametrización y esquema de normalización para el condicionamiento de la cámara. Además, observamos que el Muestreo por Destilación de Puntuaciones (SDS) tiende a truncar la distribución de fondos complejos durante la destilación de escenas de 360 grados, y proponemos el "anclaje SDS" para mejorar la diversidad de las nuevas vistas sintetizadas. Nuestro modelo establece un nuevo estado del arte en LPIPS en el conjunto de datos DTU en un escenario de cero disparos, superando incluso a métodos entrenados específicamente en DTU. También adaptamos el desafiante conjunto de datos Mip-NeRF 360 como un nuevo punto de referencia para la síntesis de nuevas vistas a partir de una sola imagen, y demostramos un rendimiento sólido en este escenario. Nuestro código y datos están disponibles en http://kylesargent.github.io/zeronvs/.
Los Campos de Radiancia Neural (NeRFs, por sus siglas en inglés) han demostrado ser representaciones 3D potentes, capaces de sintetizar vistas novedosas de alta calidad en escenas complejas. Aunque los NeRFs se han aplicado en gráficos, visión y robótica, los problemas de velocidad de renderizado lenta y los artefactos visuales característicos impiden su adopción en muchos casos de uso. En este trabajo, investigamos la combinación de un autocodificador (AE) con un NeRF, en el cual se renderizan características latentes (en lugar de colores) que luego se decodifican convolucionalmente. El NeRF en espacio latente resultante puede producir vistas novedosas con mayor calidad que los NeRFs estándar en espacio de color, ya que el AE puede corregir ciertos artefactos visuales, mientras que el renderizado es más de tres veces más rápido. Nuestro trabajo es ortogonal a otras técnicas para mejorar la eficiencia de los NeRFs. Además, podemos controlar el equilibrio entre eficiencia y calidad de imagen reduciendo la arquitectura del AE, logrando un renderizado más de 13 veces más rápido con solo una pequeña disminución en el rendimiento. Esperamos que nuestro enfoque pueda formar la base de una representación de escenas 3D eficiente y de alta fidelidad para tareas posteriores, especialmente cuando es útil mantener la diferenciabilidad, como en muchos escenarios de robótica que requieren aprendizaje continuo.
Demostramos que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) pueden adaptarse para convertirse en políticas generalizables para tareas visuales corporizadas. Nuestro enfoque, denominado Política de Aprendizaje por Refuerzo con Modelos de Lenguaje de Gran Escala (LLaRP, por sus siglas en inglés), adapta un LLM preentrenado y congelado para que tome como entrada instrucciones textuales y observaciones visuales egocéntricas, y genere acciones directamente en el entorno. Utilizando aprendizaje por refuerzo, entrenamos a LLaRP para ver y actuar únicamente a través de interacciones con el entorno. Mostramos que LLaRP es robusto frente a paráfrasis complejas de las instrucciones de las tareas y puede generalizar a nuevas tareas que requieren comportamientos óptimos novedosos. En particular, en 1,000 tareas no vistas, logra una tasa de éxito del 42%, 1.7 veces la tasa de éxito de otras líneas base aprendidas comunes o aplicaciones zero-shot de LLMs. Finalmente, para ayudar a la comunidad en el estudio de problemas de IA corporizada masivamente multitarea condicionada por lenguaje, publicamos un nuevo benchmark, Reorganización de Lenguaje, que consta de 150,000 tareas de entrenamiento y 1,000 tareas de prueba para la reorganización condicionada por lenguaje. Ejemplos en video de LLaRP en instrucciones no vistas de Reorganización de Lenguaje están disponibles en https://llm-rl.github.io.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) se entrenan con grandes cantidades de texto proveniente de internet, el cual contiene tanto información factual como engañosa sobre el mundo. ¿Pueden estos modelos de lenguaje discernir la verdad de la falsedad en estos datos contradictorios? Partiendo de la idea de que los LLMs pueden modelar diferentes agentes que producen los corpus, planteamos la hipótesis de que pueden agrupar texto veraz al modelar una persona veraz: un grupo de agentes que probablemente produzcan texto veraz y compartan características similares. Por ejemplo, fuentes confiables como Wikipedia y Science suelen utilizar estilos de escritura formal y hacer afirmaciones consistentes. Al modelar esta persona, los LLMs pueden generalizar la veracidad más allá de los contextos específicos en los que cada agente generó el texto de entrenamiento. Por ejemplo, el modelo puede inferir que el agente "Wikipedia" se comportará de manera veraz en temas que solo fueron generados por "Science", ya que comparten una persona. Primero, mostramos evidencia de la hipótesis de la persona mediante dos observaciones: (1) podemos sondear si la respuesta de un modelo será veraz antes de que se genere; (2) ajustar un modelo en un conjunto de hechos mejora su veracidad en temas no vistos. Luego, utilizando la aritmética como un entorno sintético, demostramos que los modelos de lenguaje pueden separar afirmaciones verdaderas y falsas, y generalizar la veracidad entre agentes; pero solo si los agentes en los datos de entrenamiento comparten un proceso generativo veraz que permita la creación de una persona veraz. En general, nuestros hallazgos sugieren que los modelos pueden explotar estructuras jerárquicas en los datos para aprender conceptos abstractos como la veracidad.