Artículos de investigación en IA seleccionados diariamente con traducciones
A medida que los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) adquieren una importancia creciente en diversos dominios, persisten desafíos sin resolver en la aceleración de la inferencia de LLM: (1) Actualización sincronizada del softmax parcial. La operación de softmax requiere una actualización sincronizada entre cada resultado parcial de softmax, lo que genera un sobrecosto de ~20% en el cálculo de atención en los LLM. (2) Subutilización del cálculo en GEMM plano. La forma de las matrices que realizan GEMM en la inferencia de LLM es plana, lo que resulta en una subutilización del cálculo y una pérdida de rendimiento >50% tras rellenar con ceros en diseños previos. (3) Pérdida de rendimiento debido al flujo de datos estático. El rendimiento del kernel en LLM depende de características variadas de los datos de entrada, configuraciones de hardware, etc. Un flujo de datos único y estático puede generar una pérdida de rendimiento del 50.25% en GEMM de diferentes formas durante la inferencia de LLM. Presentamos FlashDecoding++, un motor de inferencia de LLM rápido que soporta modelos principales de LLM y back-ends de hardware. Para abordar los desafíos mencionados, FlashDecoding++ propone de manera creativa: (1) Softmax asincronizado con valor máximo unificado. FlashDecoding++ introduce una técnica de valor máximo unificado para diferentes cálculos parciales de softmax, evitando la sincronización. (2) Optimización de GEMM plano con doble buffer. FlashDecoding++ señala que los GEMM planos con diferentes formas enfrentan cuellos de botella variados. Luego, se introducen técnicas como el doble buffer. (3) Flujo de datos heurístico con adaptación a recursos de hardware. FlashDecoding++ optimiza heurísticamente el flujo de datos utilizando diferentes recursos de hardware, considerando la dinámica de la entrada. Gracias a la versatilidad de las optimizaciones en FlashDecoding++, este puede lograr una aceleración de hasta 4.86x y 2.18x en GPUs de NVIDIA y AMD, respectivamente, en comparación con las implementaciones de Hugging Face. Además, FlashDecoding++ alcanza una aceleración promedio de 1.37x frente a los motores de inferencia de LLM más avanzados en modelos principales de LLM.
Presentamos RoboGen, un agente robótico generativo que aprende automáticamente diversas habilidades robóticas a gran escala mediante simulación generativa. RoboGen aprovecha los últimos avances en modelos fundacionales y generativos. En lugar de utilizar o adaptar directamente estos modelos para producir políticas o acciones de bajo nivel, proponemos un esquema generativo que emplea estos modelos para generar automáticamente tareas, escenarios y supervisiones de entrenamiento diversificados, escalando así el aprendizaje de habilidades robóticas con supervisión humana mínima. Nuestro enfoque equipa a un agente robótico con un ciclo autoguiado de proponer-generar-aprender: el agente primero propone tareas y habilidades interesantes para desarrollar, luego genera entornos de simulación correspondientes al poblar objetos y activos pertinentes con configuraciones espaciales adecuadas. Posteriormente, el agente descompone la tarea de alto nivel propuesta en subtareas, selecciona el enfoque de aprendizaje óptimo (aprendizaje por refuerzo, planificación de movimientos u optimización de trayectorias), genera la supervisión de entrenamiento requerida y luego aprende políticas para adquirir la habilidad propuesta. Nuestro trabajo intenta extraer el conocimiento extenso y versátil incrustado en modelos a gran escala y transferirlo al campo de la robótica. Nuestra canalización completamente generativa puede consultarse repetidamente, produciendo un flujo interminable de demostraciones de habilidades asociadas con diversas tareas y entornos.
Proponemos un nuevo enfoque para el modelado generativo basado en entrenar una red neuronal para que sea idempotente. Un operador idempotente es aquel que puede aplicarse secuencialmente sin cambiar el resultado más allá de la aplicación inicial, es decir, f(f(z))=f(z). El modelo propuesto f se entrena para mapear una distribución de origen (por ejemplo, ruido gaussiano) a una distribución objetivo (por ejemplo, imágenes realistas) utilizando los siguientes objetivos: (1) Las instancias de la distribución objetivo deben mapearse a sí mismas, es decir, f(x)=x. Definimos la variedad objetivo como el conjunto de todas las instancias que f mapea a sí mismas. (2) Las instancias que forman la distribución de origen deben mapearse a la variedad objetivo definida. Esto se logra optimizando el término de idempotencia, f(f(z))=f(z), lo que fomenta que el rango de f(z) esté en la variedad objetivo. Bajo supuestos ideales, dicho proceso converge de manera demostrable a la distribución objetivo. Esta estrategia resulta en un modelo capaz de generar una salida en un solo paso, manteniendo un espacio latente consistente, mientras también permite aplicaciones secuenciales para refinamiento. Además, encontramos que al procesar entradas de ambas distribuciones, objetivo y de origen, el modelo proyecta hábilmente datos corrompidos o modificados de vuelta a la variedad objetivo. Este trabajo es un primer paso hacia un "proyector global" que permita proyectar cualquier entrada en una distribución de datos objetivo.
Proponemos Easy End-to-End Diffusion-based Text to Speech (E3 TTS), un modelo simple y eficiente de conversión de texto a voz basado en difusión. E3 TTS toma directamente texto plano como entrada y genera una forma de onda de audio a través de un proceso de refinamiento iterativo. A diferencia de muchos trabajos previos, E3 TTS no depende de representaciones intermedias como características de espectrograma o información de alineación. En su lugar, E3 TTS modela la estructura temporal de la forma de onda mediante el proceso de difusión. Sin depender de información de condicionamiento adicional, E3 TTS puede soportar una estructura latente flexible dentro del audio dado. Esto permite que E3 TTS se adapte fácilmente a tareas de zero-shot, como la edición, sin necesidad de entrenamiento adicional. Los experimentos muestran que E3 TTS puede generar audio de alta fidelidad, acercándose al rendimiento de un sistema de conversión de texto a voz neuronal de última generación. Las muestras de audio están disponibles en https://e3tts.github.io.
El cambio distribucional es un desafío central en el despliegue de modelos de aprendizaje automático, ya que estos pueden estar mal preparados para datos del mundo real. Esto es particularmente evidente en la generación de texto a audio, donde las representaciones codificadas se ven fácilmente comprometidas por instrucciones no vistas, lo que lleva a la degradación del audio generado. El conjunto limitado de pares texto-audio sigue siendo insuficiente para la generación condicional de audio en entornos reales, ya que las instrucciones de los usuarios suelen estar subespecificadas. En particular, observamos una degradación consistente en la calidad del audio generado con instrucciones de usuarios, en comparación con las instrucciones del conjunto de entrenamiento. Para abordar esto, presentamos un marco de edición de instrucciones en contexto basado en recuperación, que aprovecha las descripciones de entrenamiento como ejemplos demostrativos para revisar las instrucciones de los usuarios. Demostramos que este marco mejoró la calidad del audio en el conjunto de instrucciones de usuarios recopiladas, las cuales fueron editadas tomando como referencia las descripciones de entrenamiento como ejemplos.
Presentamos un esquema escalable, de abajo hacia arriba e intrínsecamente diverso para la recopilación de datos que puede utilizarse para razonamiento de alto nivel con horizontes largos y medios, y que tiene un rendimiento 2.2 veces mayor en comparación con los métodos tradicionales de recopilación estrecha y paso a paso de arriba hacia abajo. Recopilamos datos realistas al ejecutar cualquier solicitud de los usuarios en la totalidad de 3 edificios de oficinas y utilizando múltiples encarnaciones de robots y humanos. Con estos datos, demostramos que los modelos entrenados con todas las encarnaciones superan a los entrenados únicamente con datos de robots, incluso cuando se evalúan exclusivamente en episodios de robots. Descubrimos que, para un presupuesto fijo de recopilación, es beneficioso aprovechar la recopilación más económica con humanos junto con la recopilación con robots. Publicamos un conjunto de datos grande y altamente diverso (29,520 instrucciones únicas) llamado RoboVQA, que contiene 829,502 pares (video, texto) para tareas de respuesta visual a preguntas enfocadas en robótica. También demostramos cómo la evaluación de experimentos con robots reales mediante un mecanismo de intervención permite completar tareas, haciéndolo implementable con supervisión humana incluso si es imperfecto, al mismo tiempo que proporciona una única métrica de rendimiento. Demostramos un único modelo condicionado por video llamado RoboVQA-VideoCoCa, entrenado con nuestro conjunto de datos, que es capaz de realizar una variedad de tareas de razonamiento de alto nivel en entornos realistas amplios, con una tasa de intervención cognitiva un 46% menor que el modelo de lenguaje visual (VLM) de última generación en modo zero-shot, y que es capaz de guiar robots reales en tareas de horizonte largo. La brecha de rendimiento con los modelos de última generación en modo zero-shot indica que aún queda mucha información fundamentada por recopilar para su implementación en el mundo real, lo que enfatiza la necesidad crítica de enfoques escalables para la recopilación de datos. Finalmente, demostramos que los VLM basados en video superan significativamente a los VLM basados en una sola imagen, con una reducción promedio en la tasa de error del 19% en todas las tareas de VQA. Los datos y videos están disponibles en https://robovqa.github.io.