Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos generativos de lenguaje a gran escala (LLMs, por sus siglas en inglés) han abierto numerosas posibilidades novedosas, pero debido a sus significativos requisitos computacionales, su uso generalizado sigue siendo un desafío. Algunas de las aplicaciones más útiles requieren procesar grandes cantidades de muestras simultáneamente y utilizar contextos extensos, lo que aumenta considerablemente la carga de comunicación de memoria de los modelos. Presentamos SparQ Attention, una técnica para aumentar el rendimiento de inferencia de los LLMs al reducir los requisitos de ancho de banda de memoria dentro de los bloques de atención mediante la recuperación selectiva del historial almacenado en caché. Nuestra técnica propuesta puede aplicarse directamente a LLMs estándar durante la inferencia, sin necesidad de modificar la configuración de preentrenamiento ni realizar ajustes adicionales. Demostramos cómo SparQ Attention puede disminuir los requisitos de ancho de banda de memoria en la atención hasta ocho veces sin pérdida de precisión, evaluando los modelos Llama 2 y Pythia en una amplia gama de tareas posteriores.
En este artículo, presentamos DreaMoving, un marco de generación de videos controlable basado en difusión para producir videos personalizados de alta calidad de bailes humanos. Específicamente, dados una identidad objetivo y secuencias de posturas, DreaMoving puede generar un video de la identidad objetivo bailando en cualquier lugar guiado por las secuencias de posturas. Para ello, proponemos un Video ControlNet para el control del movimiento y un Content Guider para la preservación de la identidad. El modelo propuesto es fácil de usar y puede adaptarse a la mayoría de los modelos de difusión estilizados para generar resultados diversos. La página del proyecto está disponible en https://dreamoving.github.io/dreamoving.
La mayoría de las investigaciones sobre generación 3D se centran en proyectar modelos fundamentales 2D al espacio 3D, ya sea minimizando la pérdida de Muestreo de Distilación de Puntaje 2D (SDS) o ajustando finamente en conjuntos de datos multivista. Sin priores 3D explícitos, estos métodos suelen generar anomalías geométricas e inconsistencias multivista. Recientemente, los investigadores han intentado mejorar la autenticidad de los objetos 3D entrenando directamente en conjuntos de datos 3D, aunque a costa de una generación de texturas de baja calidad debido a la diversidad limitada de texturas en estos conjuntos. Para aprovechar las ventajas de ambos enfoques, proponemos Difusión Bidireccional (BiDiff), un marco unificado que incorpora tanto un proceso de difusión 3D como uno 2D, preservando respectivamente la fidelidad 3D y la riqueza de texturas 2D. Además, dado que una combinación simple podría generar resultados inconsistentes, los conectamos mediante una guía bidireccional novedosa. Adicionalmente, nuestro método puede usarse como inicialización para modelos basados en optimización, mejorando aún más la calidad del modelo 3D y la eficiencia de la optimización, reduciendo el proceso de generación de 3.4 horas a 20 minutos. Los resultados experimentales muestran que nuestro modelo logra una generación 3D de alta calidad, diversa y escalable. Sitio del proyecto: https://bidiff.github.io/.
Presentamos un enfoque para aumentar los modelos de generación de texto a video con movimientos personalizados, ampliando sus capacidades más allá de los movimientos representados en los datos de entrenamiento originales. Al aprovechar algunos ejemplos de video que demuestran movimientos específicos como entrada, nuestro método aprende y generaliza los patrones de movimiento de entrada para diversos escenarios especificados por texto. Nuestras contribuciones son tres. Primero, para lograr nuestros resultados, ajustamos un modelo existente de texto a video para aprender un mapeo novedoso entre el movimiento representado en los ejemplos de entrada y un nuevo token único. Para evitar el sobreajuste al nuevo movimiento personalizado, introducimos un enfoque de regularización sobre los videos. Segundo, al aprovechar los conocimientos previos de movimiento en un modelo preentrenado, nuestro método puede producir videos novedosos que muestran a múltiples personas realizando el movimiento personalizado, y puede invocar el movimiento en combinación con otros movimientos. Además, nuestro enfoque se extiende a la personalización multimodal del movimiento y la apariencia de sujetos individualizados, permitiendo la generación de videos que presentan personajes únicos y movimientos distintivos. Tercero, para validar nuestro método, introducimos un enfoque para evaluar cuantitativamente el movimiento personalizado aprendido y realizamos un estudio sistemático de ablación. Demostramos que nuestro método supera significativamente los enfoques previos de personalización basados en apariencia cuando se extienden a la tarea de personalización de movimiento.
Con los recientes avances en los modelos de lenguaje de gran escala, métodos como el prompting de cadena de pensamiento para elicitar cadenas de razonamiento han demostrado mejorar los resultados en tareas de razonamiento. Sin embargo, las tareas que requieren múltiples pasos de razonamiento aún representan desafíos significativos para los modelos de última generación. Inspirándonos en el algoritmo de búsqueda en haz, proponemos PathFinder, un enfoque de generación de rutas de razonamiento basado en búsqueda en árbol. Este método mejora la diversidad de ramificación y el razonamiento multi-hop mediante la integración de decodificación dinámica, habilitada por métodos y parámetros de muestreo variables. Utilizando razonamiento restringido, PathFinder integra nuevas restricciones de calidad, poda y métodos de exploración para mejorar la eficiencia y la calidad de la generación. Además, incluye funciones de puntuación y clasificación para mejorar la selección de candidatos. Nuestro enfoque supera a los baselines competitivos en tres tareas complejas de razonamiento aritmético y de sentido común en un 6% en promedio. Nuestro modelo generaliza bien a cadenas de razonamiento más largas y no vistas, reflejando complejidades similares a la búsqueda en haz con grandes factores de ramificación.
Los modelos de difusión para eliminación de ruido han demostrado resultados sobresalientes en la generación de imágenes 2D, pero sigue siendo un desafío replicar su éxito en la generación de formas 3D. En este artículo, proponemos aprovechar la profundidad multivista, que representa formas 3D complejas en un formato de datos 2D fácil de desruidificar. Emparejamos esta representación con un modelo de difusión, MVDD, capaz de generar nubes de puntos densas de alta calidad con más de 20K puntos y detalles finos. Para garantizar la consistencia 3D en la profundidad multivista, introducimos una atención a segmentos de línea epipolar que condiciona el paso de desruidificación de una vista en función de sus vistas vecinas. Además, se incorpora un módulo de fusión de profundidad en los pasos de difusión para asegurar aún más la alineación de los mapas de profundidad. Cuando se complementa con reconstrucción de superficies, MVDD también puede producir mallas 3D de alta calidad. Asimismo, MVDD destaca en otras tareas como la completación de profundidad y puede servir como un previo 3D, potenciando significativamente muchas tareas posteriores, como la inversión de GAN. Los resultados de vanguardia obtenidos en experimentos exhaustivos demuestran la excelente capacidad de MVDD en la generación de formas 3D, la completación de profundidad y su potencial como previo 3D para tareas posteriores.
Presentamos EE-LLM, un marco para el entrenamiento e inferencia a gran escala de modelos de lenguaje grandes (LLMs) con salida temprana. Si bien trabajos recientes han mostrado evidencia preliminar de la eficacia de la salida temprana para acelerar la inferencia de LLMs, EE-LLM da un paso fundamental hacia la escalabilidad de LLMs con salida temprana al soportar su entrenamiento e inferencia con paralelismo 3D masivo. Basado en Megatron-LM, EE-LLM implementa una variedad de innovaciones algorítmicas y optimizaciones de rendimiento específicas para la salida temprana, incluyendo un método ligero que facilita la retropropagación para el objetivo de entrenamiento con salida temprana en paralelismo de tuberías, técnicas que aprovechan los recursos inactivos en el plan original de la tubería para cálculos relacionados con las capas de salida temprana, y dos enfoques de inferencia con salida temprana compatibles con el almacenamiento en caché de KV para la generación autoregresiva. Nuestro estudio analítico y empírico muestra que EE-LLM logra una gran eficiencia en el entrenamiento con un sobrecosto computacional insignificante en comparación con el entrenamiento estándar de LLMs, así como una aceleración sobresaliente en la inferencia sin comprometer la calidad de la salida. Para facilitar futuras investigaciones y su adopción, publicamos EE-LLM en https://github.com/pan-x-c/EE-LLM.
Los modelos de visión y lenguaje (VL) que siguen instrucciones ofrecen una interfaz flexible que admite una amplia gama de tareas multimodales de manera zero-shot. Sin embargo, las interfaces que operan sobre imágenes completas no permiten directamente al usuario "señalar" y acceder a regiones específicas dentro de las imágenes. Esta capacidad es importante no solo para respaldar benchmarks de VL basados en referencias, sino también para aplicaciones prácticas que requieren un razonamiento preciso dentro de la imagen. Desarrollamos modelos de Sentido Común Visual Localizado, que permiten a los usuarios especificar (múltiples) regiones como entrada. Entrenamos nuestro modelo muestreando conocimiento de sentido común localizado a partir de un modelo de lenguaje grande (LLM): específicamente, solicitamos a un LLM que recopile conocimiento de sentido común dado una descripción literal global de la imagen y una descripción literal local de la región generada automáticamente por un conjunto de modelos VL. Con un modelo crítico entrenado por separado que selecciona ejemplos de alta calidad, encontramos que el entrenamiento en el corpus de sentido común localizado puede destilar con éxito modelos VL existentes para admitir una interfaz de referencia como entrada. Los resultados empíricos y las evaluaciones humanas en una configuración zero-shot demuestran que nuestro método de destilación produce modelos VL de razonamiento más precisos en comparación con una línea base que pasa una expresión de referencia generada a un LLM.