Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje Grandes (LLMs) se distinguen por sus enormes recuentos de parámetros, que generalmente resultan en una redundancia significativa. Este trabajo presenta MaskLLM, un método de poda aprendible que establece una Esparsidad Semiestructurada (o "N:M") en LLMs, con el objetivo de reducir la sobrecarga computacional durante la inferencia. En lugar de desarrollar un nuevo criterio de importancia, MaskLLM modela explícitamente patrones N:M como una distribución aprendible a través de muestreo Gumbel Softmax. Este enfoque facilita el entrenamiento de extremo a extremo en conjuntos de datos a gran escala y ofrece dos ventajas notables: 1) Máscaras de alta calidad: nuestro método escala eficazmente a conjuntos de datos grandes y aprende máscaras precisas; 2) Transferibilidad: la modelización probabilística de la distribución de máscaras permite el aprendizaje de transferencia de la esparsidad entre dominios o tareas. Evaluamos MaskLLM utilizando una esparsidad de 2:4 en varios LLMs, incluidos LLaMA-2, Nemotron-4 y GPT-3, con tamaños que van desde 843M hasta 15B parámetros, y nuestros resultados empíricos muestran mejoras sustanciales sobre los métodos de vanguardia. Por ejemplo, en Wikitext, enfoques líderes logran una perplejidad (PPL) de 10 o más en comparación con el 5.12 PPL del modelo denso, pero MaskLLM logra un PPL significativamente menor de 6.72 únicamente aprendiendo las máscaras con pesos congelados. Además, la naturaleza aprendible de MaskLLM permite máscaras personalizadas para la aplicación sin pérdida de una esparsidad de 2:4 en tareas o dominios posteriores. El código está disponible en https://github.com/NVlabs/MaskLLM.
GPT-4o, un modelo omni-modal que permite conversaciones vocales con diversas emociones y tonos, marca un hito para los modelos fundamentales omni-modales. Sin embargo, capacitar a los Modelos de Lenguaje Grandes para percibir y generar imágenes, textos y discursos de extremo a extremo con datos disponibles públicamente sigue siendo un desafío en la comunidad de código abierto. Los modelos existentes de visión-lenguaje dependen de herramientas externas para el procesamiento del habla, mientras que los modelos de habla-lenguaje aún sufren de habilidades limitadas o incluso carecen de comprensión de la visión. Para abordar esta brecha, proponemos EMOVA (Asistente de Voz Emocionalmente Omnipresente), para habilitar a los Modelos de Lenguaje Grandes con capacidades de habla de extremo a extremo manteniendo el rendimiento líder en visión-lenguaje. Con un tokenizador de habla desacoplado semántico-acústico, notamos sorprendentemente que la alineación omni-modal puede mejorar aún más las habilidades de visión-lenguaje y habla en comparación con los contrapartes alineados bi-modales correspondientes. Además, se propone un módulo de estilo ligero para controles flexibles de estilo de habla (por ejemplo, emociones y tonos). Por primera vez, EMOVA logra un rendimiento de vanguardia tanto en los benchmarks de visión-lenguaje como de habla, y al mismo tiempo, soporta diálogos hablados omni-modales con emociones vívidas.
Los recientes avances en los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) han mejorado considerablemente su eficacia en tareas de comprensión visual 2D, permitiéndoles procesar y entender imágenes y videos de manera efectiva. Sin embargo, el desarrollo de LMMs con conciencia 3D para comprensión de escenas 3D se ha visto obstaculizado por la falta de conjuntos de datos de visión-lenguaje a gran escala en 3D y codificadores 3D potentes. En este documento, presentamos un marco simple pero efectivo llamado LLaVA-3D. Aprovechando los sólidos conocimientos previos de comprensión 2D de LLaVA, nuestro LLaVA-3D adapta eficientemente LLaVA para la comprensión de escenas 3D sin comprometer las capacidades de comprensión 2D. Para lograr esto, empleamos una representación simple pero efectiva, Parche 3D, que conecta las características de parches CLIP 2D con sus posiciones correspondientes en el espacio 3D. Al integrar los Parches 3D en LMMs 2D y utilizar ajuste conjunto de instrucciones de visión-lenguaje 2D y 3D, establecemos una arquitectura unificada para la comprensión de imágenes 2D y la comprensión de escenas 3D. Los resultados experimentales muestran que LLaVA-3D converge 3.5 veces más rápido que los LMMs 3D existentes cuando se entrenan con conjuntos de datos de visión-lenguaje 3D. Además, LLaVA-3D no solo logra un rendimiento de vanguardia en diversas tareas 3D, sino que también mantiene capacidades comparables de comprensión de imágenes 2D y conversación de visión-lenguaje con LLaVA.
Aprovechar los conocimientos visuales previos de los modelos de difusión texto-imagen pre-entrenados ofrece una solución prometedora para mejorar la generalización de cero disparos en tareas de predicción densa. Sin embargo, los métodos existentes a menudo utilizan de manera acrítica la formulación de difusión original, lo cual puede no ser óptimo debido a las diferencias fundamentales entre la predicción densa y la generación de imágenes. En este documento, proporcionamos un análisis sistemático de la formulación de difusión para la predicción densa, centrándonos en la calidad y la eficiencia. Descubrimos que el tipo de parametrización original para la generación de imágenes, que aprende a predecir ruido, es perjudicial para la predicción densa; el proceso de difusión de ruido/desruido de múltiples pasos también es innecesario y difícil de optimizar. Basándonos en estos conocimientos, presentamos Lotus, un modelo de base visual basado en difusión con un protocolo de adaptación simple pero efectivo para la predicción densa. Específicamente, Lotus se entrena para predecir directamente anotaciones en lugar de ruido, evitando así la varianza perjudicial. También reformulamos el proceso de difusión en un procedimiento de un solo paso, simplificando la optimización y aumentando significativamente la velocidad de inferencia. Además, introducimos una estrategia de ajuste novedosa llamada preservador de detalles, que logra predicciones más precisas y detalladas. Sin escalar los datos de entrenamiento o la capacidad del modelo, Lotus logra un rendimiento de última generación en la estimación de profundidad y normales de cero disparos en diversos conjuntos de datos. También mejora significativamente la eficiencia, siendo cientos de veces más rápido que la mayoría de los métodos basados en difusión existentes.
Ajustar instrucciones comúnmente implica afinar un modelo de lenguaje en pares de instrucción-respuesta. Descubrimos dos formas de adaptación (ajuste) que son deficientes en comparación con el ajuste de instrucciones, pero aún así producen seguimiento de instrucciones; a esto lo llamamos ajuste de instrucciones implícito. Encontramos primero que los pares de instrucción-respuesta no son necesarios: entrenar únicamente en respuestas, sin instrucciones correspondientes, produce seguimiento de instrucciones. Esto sugiere que los modelos preentrenados tienen un mapeo de instrucción-respuesta que se revela al enseñar al modelo la distribución deseada de respuestas. Sin embargo, luego descubrimos que no es necesario enseñar la distribución deseada de respuestas: el entrenamiento de instrucción-respuesta en datos de dominio estrecho como la poesía aún conduce a un comportamiento amplio de seguimiento de instrucciones como la generación de recetas. En particular, cuando las instrucciones son muy diferentes de las del dominio de ajuste estrecho, las respuestas de los modelos no se adhieren al estilo del dominio de ajuste. Para comenzar a explicar el ajuste de instrucciones implícito, postulamos que cambios muy simples en la distribución de un modelo de lenguaje producen seguimiento de instrucciones. Apoyamos esto escribiendo a mano un modelo de lenguaje basado en reglas que produce seguimiento de instrucciones en un producto de expertos con un modelo preentrenado. Las reglas consisten en aumentar lentamente la probabilidad de finalizar la secuencia, penalizar la repetición y cambiar uniformemente las probabilidades de 15 palabras. En resumen, las adaptaciones realizadas sin estar diseñadas para producir seguimiento de instrucciones pueden hacerlo de forma implícita.
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han demostrado capacidades notables en el manejo de entradas de contexto largo, pero esto conlleva un aumento en los recursos computacionales y la latencia. Nuestra investigación introduce un enfoque novedoso para el cuello de botella del contexto largo con el fin de acelerar la inferencia de LLM y reducir el consumo de memoria de la GPU. Nuestra investigación demuestra que los LLM pueden identificar tokens relevantes en las capas iniciales antes de generar respuestas a una consulta. Aprovechando esta perspicacia, proponemos un algoritmo que utiliza las capas iniciales de un LLM como filtros para seleccionar y comprimir tokens de entrada, reduciendo significativamente la longitud del contexto para el procesamiento posterior. Nuestro método, GemFilter, muestra mejoras sustanciales tanto en velocidad como en eficiencia de memoria en comparación con técnicas existentes, como la atención estándar y SnapKV/H2O. Destacadamente, logra una aceleración de 2.4 veces y una reducción del 30\% en el uso de memoria de la GPU en comparación con los métodos de estado del arte. La evaluación en la tarea de "Encontrar una Aguja en un Pajar" muestra que GemFilter supera significativamente a la atención estándar, SnapKV y demuestra un rendimiento comparable en el desafío LongBench. GemFilter es simple, no requiere entrenamiento y es ampliamente aplicable en diferentes LLMs. Esencialmente, proporciona interpretabilidad al permitir a los humanos inspeccionar la secuencia de entrada seleccionada. Estos hallazgos no solo ofrecen beneficios prácticos para la implementación de LLM, sino que también mejoran nuestra comprensión de los mecanismos internos de los LLM, allanando el camino para futuras optimizaciones en el diseño e inferencia de LLM. Nuestro código está disponible en https://github.com/SalesforceAIResearch/GemFilter.
Los modelos de difusión latente (LDMs) han logrado avances significativos en el campo de la generación de imágenes en los últimos años. Una ventaja importante de los LDMs es su capacidad para operar en un espacio latente comprimido, lo que permite un entrenamiento y despliegue más eficientes. Sin embargo, a pesar de estas ventajas, aún persisten desafíos con los LDMs. Por ejemplo, se ha observado que los LDMs a menudo generan detalles de alta frecuencia y composiciones complejas de manera imperfecta. Hipotetizamos que una razón de estas deficiencias se debe a que todo el pre y post-entrenamiento de los LDMs se realiza en el espacio latente, que suele tener una resolución espacial 8 veces menor que las imágenes de salida. Para abordar este problema, proponemos agregar supervisión en el espacio de píxeles en el proceso de post-entrenamiento para preservar mejor los detalles de alta frecuencia. Experimentalmente, demostramos que agregar un objetivo en el espacio de píxeles mejora significativamente tanto la calidad supervisada del ajuste fino como el post-entrenamiento basado en preferencias en un amplio margen en modelos de transformadores DiT y difusión U-Net de última generación, tanto en calidad visual como en métricas de defectos visuales, manteniendo al mismo tiempo la misma calidad de alineación de texto.
En la era de los grandes modelos de lenguaje (LLMs), se acumulará una vasta cantidad de registros de conversaciones gracias a la rápida tendencia de desarrollo de interfaces de lenguaje. El Análisis de Conversación (CA) se esfuerza por descubrir y analizar información crítica a partir de datos de conversaciones, agilizando procesos manuales y respaldando perspectivas de negocio y toma de decisiones. La necesidad de que el CA extraiga percepciones accionables y potencie el empoderamiento está volviéndose cada vez más prominente y atrayendo una atención generalizada. Sin embargo, la falta de un alcance claro para el CA conduce a una dispersión de diversas técnicas, lo que dificulta la formación de una sinergia técnica sistemática para potenciar aplicaciones empresariales. En este documento, realizamos una revisión exhaustiva y sistematizamos la tarea de CA para resumir los trabajos relacionados existentes. Específicamente, definimos formalmente la tarea de CA para enfrentar el panorama fragmentado y caótico en este campo, y derivamos cuatro pasos clave del CA desde la reconstrucción de escenas de conversación, hasta el análisis de atribución en profundidad, y luego realizar un entrenamiento dirigido, generando finalmente conversaciones basadas en el entrenamiento específico para lograr objetivos concretos. Además, mostramos los benchmarks relevantes, discutimos desafíos potenciales y señalamos direcciones futuras tanto en la industria como en la academia. A la luz de los avances actuales, es evidente que la mayoría de los esfuerzos aún se concentran en el análisis de elementos de conversación superficiales, lo que presenta una brecha considerable entre la investigación y el negocio, y con la ayuda de los LLMs, trabajos recientes han mostrado una tendencia hacia la investigación sobre causalidad y tareas estratégicas que son sofisticadas y de alto nivel. Las experiencias e ideas analizadas tendrán inevitablemente un valor de aplicación más amplio en operaciones comerciales que se centran en registros de conversaciones.
Presentamos Disco4D, un novedoso marco de Splatting Gaussiano para la generación y animación humana en 4D a partir de una sola imagen. A diferencia de los métodos existentes, Disco4D desentraña de manera distintiva la ropa (con modelos Gaussianos) del cuerpo humano (con el modelo SMPL-X), mejorando significativamente los detalles de generación y la flexibilidad. Presenta las siguientes innovaciones técnicas. 1) Disco4D aprende a ajustar eficientemente las Gaussiana de la ropa sobre las Gaussiana de SMPL-X. 2) Adopta modelos de difusión para mejorar el proceso de generación en 3D, por ejemplo, modelando partes ocultas no visibles en la imagen de entrada. 3) Aprende una codificación de identidad para cada Gaussiana de ropa para facilitar la separación y extracción de activos de ropa. Además, Disco4D soporta de forma natural la animación humana en 4D con dinámicas vívidas. Experimentos extensos demuestran la superioridad de Disco4D en tareas de generación y animación humana en 4D. Nuestras visualizaciones se pueden encontrar en https://disco-4d.github.io/.
En los últimos años, los métodos de recuperación multi-vector, liderados por ColBERT, se han convertido en un enfoque cada vez más popular para la Recuperación de Información Neuronal. Al almacenar representaciones a nivel de token en lugar de a nivel de documento, estos métodos han demostrado un rendimiento de recuperación muy sólido, especialmente en entornos fuera del dominio. Sin embargo, los requisitos de almacenamiento y memoria necesarios para almacenar el gran número de vectores asociados siguen siendo una importante desventaja, obstaculizando la adopción práctica. En este documento, presentamos un enfoque simple de agrupamiento basado en token pooling para reducir agresivamente el número de vectores que deben ser almacenados. Este método puede reducir la huella de espacio y memoria de los índices de ColBERT en un 50% prácticamente sin degradación del rendimiento de recuperación. Este método también permite reducciones adicionales, disminuyendo el recuento de vectores en un 66% al 75%, con una degradación que permanece por debajo del 5% en la gran mayoría de conjuntos de datos. Es importante destacar que este enfoque no requiere cambios arquitectónicos ni procesamiento en tiempo de consulta, y puede utilizarse como una simple incorporación durante la indexación con cualquier modelo similar a ColBERT.
Los humanos pueden aprender a manipular nuevos objetos simplemente observando a otros; proporcionar a los robots la capacidad de aprender a partir de tales demostraciones permitiría una interfaz natural para especificar nuevos comportamientos. Este trabajo desarrolla Robot See Robot Do (RSRD), un método para imitar la manipulación articulada de objetos a partir de una única demostración humana RGB monocromática estática de múltiples vistas. Primero proponemos Modelos de Partes Diferenciables en 4D (4D-DPM), un método para recuperar el movimiento de partes en 3D a partir de un video monocromático con renderizado diferenciable. Este enfoque de análisis por síntesis utiliza campos de características centradas en partes en una optimización iterativa que permite el uso de regularizadores geométricos para recuperar movimientos en 3D a partir de un único video. Dada esta reconstrucción en 4D, el robot replica las trayectorias de los objetos planificando movimientos de brazos bimanuales que inducen el movimiento de partes del objeto demostrado. Al representar las demostraciones como trayectorias centradas en partes, RSRD se enfoca en replicar el comportamiento previsto en la demostración considerando los límites morfológicos del robot, en lugar de intentar reproducir el movimiento de la mano. Evaluamos la precisión del seguimiento en 3D de 4D-DPM en trayectorias de partes en 3D anotadas como verdad de terreno y el rendimiento de ejecución física de RSRD en 9 objetos a lo largo de 10 intentos cada uno en un robot bimanual YuMi. Cada fase de RSRD logra una tasa de éxito promedio del 87%, para una tasa de éxito total de extremo a extremo del 60% a lo largo de 90 intentos. Destacadamente, esto se logra utilizando solo campos de características destilados de modelos de visión preentrenados a gran escala, sin ningún entrenamiento específico de tarea, ajuste fino, colección de datos o anotación. Página del proyecto: https://robot-see-robot-do.github.io
Extraer ideas significativas de conjuntos de datos grandes y complejos plantea desafíos importantes, especialmente en garantizar la precisión y relevancia de la información recuperada. Los métodos tradicionales de recuperación de datos, como la búsqueda secuencial y la recuperación basada en índices, a menudo fallan al manejar estructuras de datos intrincadas e interconectadas, lo que resulta en salidas incompletas o engañosas. Para superar estas limitaciones, presentamos Structured-GraphRAG, un marco versátil diseñado para mejorar la recuperación de información en conjuntos de datos estructurados en consultas de lenguaje natural. Structured-GraphRAG utiliza múltiples grafos de conocimiento, que representan datos en un formato estructurado y capturan relaciones complejas entre entidades, lo que permite una recuperación de información más matizada y completa. Este enfoque basado en grafos reduce el riesgo de errores en las salidas del modelo de lenguaje al fundamentar las respuestas en un formato estructurado, mejorando así la fiabilidad de los resultados. Demostramos la eficacia de Structured-GraphRAG al comparar su rendimiento con el de un método publicado recientemente que utiliza generación aumentada por recuperación tradicional. Nuestros hallazgos muestran que Structured-GraphRAG mejora significativamente la eficiencia del procesamiento de consultas y reduce los tiempos de respuesta. Si bien nuestro estudio de caso se centra en datos de fútbol, el diseño del marco es ampliamente aplicable, ofreciendo una herramienta potente para el análisis de datos y mejorando las aplicaciones de modelos de lenguaje en diversos dominios estructurados.