Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos un informe exhaustivo sobre la compresión de los modelos Llama 3.1 8B y Mistral NeMo 12B a parámetros de 4B y 8B, respectivamente, utilizando poda y destilación. Exploramos dos estrategias de poda distintas: (1) poda de profundidad y (2) poda conjunta de capas ocultas/atención/MLP (ancho), y evaluamos los resultados en bancos de pruebas comunes del LM Evaluation Harness. Luego, los modelos se alinean con NeMo Aligner y se prueban en versiones ajustadas a instrucciones. Este enfoque produce un modelo convincente de 4B a partir de Llama 3.1 8B y un modelo de vanguardia Mistral-NeMo-Minitron-8B (MN-Minitron-8B para abreviar) a partir de Mistral NeMo 12B. Descubrimos que, sin acceso a los datos originales, es beneficioso ajustar ligeramente los modelos maestros en el conjunto de datos de destilación. Publicamos los pesos de nuestro modelo base en Hugging Face con una licencia permisiva.
En este trabajo, discutimos la evaluación de modelos fundamentales de video de manera justa y robusta. A diferencia de los modelos fundamentales de lenguaje o imagen, muchos modelos fundamentales de video se evalúan con parámetros diferentes (como la tasa de muestreo, el número de fotogramas, pasos de preentrenamiento, etc.), lo que dificulta las comparaciones justas y robustas. Por lo tanto, presentamos un marco de evaluación cuidadosamente diseñado para medir dos capacidades fundamentales de comprensión de video: apariencia y comprensión del movimiento. Nuestros hallazgos revelan que los modelos fundamentales de video existentes, ya sea supervisados por texto como UMT o InternVideo2, o auto-supervisados como V-JEPA, presentan limitaciones en al menos una de estas capacidades. Como alternativa, presentamos TWLV-I, un nuevo modelo fundamental de video que construye representaciones visuales robustas tanto para videos basados en movimiento como en apariencia. Basándonos en la precisión promedio de las mejores 1 predicciones en cinco bancos de pruebas de reconocimiento de acciones, preentrenado solo en conjuntos de datos de acceso público, nuestro modelo muestra una mejora del 4.6%p en comparación con V-JEPA (ViT-L) y una mejora del 7.7%p en comparación con UMT (ViT-L). Incluso en comparación con modelos mucho más grandes, nuestro modelo demuestra una mejora del 7.2%p en comparación con DFN (ViT-H), una mejora del 2.7%p en comparación con V-JEPA (ViT-H) y una mejora del 2.8%p en comparación con InternVideo2 (ViT-g). Proporcionamos vectores de incrustación obtenidos por TWLV-I de videos de varios bancos de pruebas de video comúnmente utilizados, junto con el código fuente de evaluación que puede utilizar directamente estas incrustaciones. El código está disponible en "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".
Potenciar a los LLMs con la capacidad de utilizar información útil de un contexto largo es crucial para muchas aplicaciones posteriores. Sin embargo, lograr longitudes de contexto extensas con la arquitectura transformadora convencional requiere recursos sustanciales de entrenamiento e inferencia. En este documento, presentamos FocusLLM, un marco diseñado para ampliar la longitud del contexto de cualquier LLM solo decodificador, permitiendo que el modelo se enfoque en información relevante de secuencias muy largas. FocusLLM procesa entradas de texto largo dividiéndolas en fragmentos basados en la longitud de contexto original del modelo para aliviar el problema de distracción de atención. Luego, añade el contexto local a cada fragmento como un estímulo para extraer información esencial de cada fragmento basado en un mecanismo novedoso de decodificación paralela, e integra finalmente la información extraída en el contexto local. FocusLLM destaca por su gran eficiencia de entrenamiento y versatilidad: entrenado con una longitud de entrada de 8K con un costo de entrenamiento mucho menor que los métodos anteriores, FocusLLM muestra un rendimiento superior en tareas posteriores de largo contexto y mantiene una sólida capacidad de modelado del lenguaje al manejar textos largos extensos, incluso hasta 400K tokens. Nuestro código está disponible en https://github.com/leezythu/FocusLLM.
En los últimos años, se ha logrado un progreso sustancial en la generación de videos controlables basada en difusión. Sin embargo, lograr un control preciso en escenarios complejos, que incluyen partes de objetos detalladas, trayectorias de movimiento sofisticadas y movimiento de fondo coherente, sigue siendo un desafío. En este artículo, presentamos TrackGo, un enfoque novedoso que aprovecha máscaras y flechas de forma libre para la generación condicional de videos. Este método ofrece a los usuarios un mecanismo flexible y preciso para manipular el contenido de video. También proponemos TrackAdapter para la implementación de control, un adaptador eficiente y ligero diseñado para integrarse perfectamente en las capas temporales de autoatención de un modelo preentrenado de generación de videos. Este diseño se basa en nuestra observación de que el mapa de atención de estas capas puede activar con precisión las regiones correspondientes al movimiento en los videos. Nuestros resultados experimentales demuestran que nuestro nuevo enfoque, mejorado por TrackAdapter, logra un rendimiento de vanguardia en métricas clave como FVD, FID y puntuaciones de ObjMC. La página del proyecto TrackGo se puede encontrar en: https://zhtjtcz.github.io/TrackGo-Page/
Los modelos multimodales grandes (LMMs) han demostrado habilidades en diversas tareas visuales. Aunque existen numerosos benchmarks conocidos para evaluar el rendimiento de los modelos, cada vez presentan una capacidad limitada. Por lo tanto, hay una necesidad apremiante de una nueva generación de benchmarks lo suficientemente desafiantes para la próxima generación de LMMs. Un área en la que los LMMs muestran potencial es el análisis de grafos, específicamente, las tareas que un analista podría realizar típicamente al interpretar figuras, como estimar la media, intercepciones o correlaciones de funciones y series de datos. En este trabajo, presentamos GRAB, un benchmark de análisis de grafos, adecuado para los LMMs actuales y futuros de vanguardia. Nuestro benchmark es completamente sintético, garantizando preguntas de alta calidad y libres de ruido. GRAB consta de 2170 preguntas, que abarcan cuatro tareas y 23 propiedades de grafos. Evaluamos 20 LMMs en GRAB, encontrando que es un benchmark desafiante, con el modelo de mejor rendimiento alcanzando solo un 21.7% de puntuación. Finalmente, realizamos varias ablaciones para investigar dónde los modelos tienen éxito y encuentran dificultades. Publicamos GRAB para fomentar el progreso en este importante y creciente dominio.
Los modelos de difusión texto-a-imagen (T2I) han demostrado capacidades impresionantes en la generación de imágenes de alta calidad dada una indicación de texto. Sin embargo, garantizar la alineación entre la indicación y la imagen sigue siendo un desafío considerable, es decir, generar imágenes que se alineen fielmente con la semántica de la indicación. Trabajos recientes intentan mejorar la fidelidad optimizando el código latente, lo cual potencialmente podría llevar al código latente a salir de la distribución y así producir imágenes poco realistas. En este documento, proponemos FRAP, un enfoque simple pero efectivo basado en ajustar de forma adaptativa los pesos de la indicación por token para mejorar la alineación entre la indicación y la imagen, así como la autenticidad de las imágenes generadas. Diseñamos un algoritmo en línea para actualizar de forma adaptativa el coeficiente de peso de cada token, logrado mediante la minimización de una función objetivo unificada que fomenta la presencia de objetos y la unión de pares objeto-modificador. A través de evaluaciones exhaustivas, demostramos que FRAP genera imágenes con una alineación significativamente mayor entre la indicación y las indicaciones de conjuntos de datos complejos, al tiempo que tiene una latencia promedio más baja en comparación con los métodos recientes de optimización de código latente, por ejemplo, 4 segundos más rápido que D&B en el conjunto de datos COCO-Subject. Además, a través de comparaciones visuales y evaluaciones en la métrica CLIP-IQA-Real, mostramos que FRAP no solo mejora la alineación entre la indicación y la imagen, sino que también genera imágenes más auténticas con apariencias realistas. También exploramos la combinación de FRAP con LLM de reescritura de indicaciones para recuperar su alineación degradada entre la indicación y la imagen, donde observamos mejoras tanto en la alineación entre la indicación y la imagen como en la calidad de la imagen.
Los sistemas modernos de aprendizaje automático dependen de conjuntos de datos extensos para lograr una generalización amplia, lo cual a menudo plantea un desafío en el aprendizaje de robots, donde cada plataforma y tarea robótica pueden tener solo un conjunto de datos pequeño. Al entrenar una única política en varios tipos de robots diferentes, un método de aprendizaje de robots puede aprovechar conjuntos de datos mucho más amplios y diversos, lo que a su vez puede llevar a una mejor generalización y robustez. Sin embargo, entrenar una única política en datos de múltiples robots es desafiante porque los robots pueden tener sensores, actuadores y frecuencias de control muy variables. Proponemos CrossFormer, una política basada en transformers escalable y flexible que puede procesar datos de cualquier representación. Entrenamos CrossFormer en el conjunto de datos más grande y diverso hasta la fecha, con 900K trayectorias a través de 20 representaciones de robots diferentes. Demostramos que los mismos pesos de red pueden controlar robots muy diferentes, incluyendo sistemas de manipulación de un solo y doble brazo, robots con ruedas, cuadricópteros y cuadrúpedos. A diferencia de trabajos anteriores, nuestro modelo no requiere alineación manual de los espacios de observación o acción. Experimentos extensos en el mundo real muestran que nuestro método iguala el rendimiento de políticas especializadas adaptadas para cada representación, al mismo tiempo que supera significativamente el estado del arte previo en el aprendizaje entre representaciones.
Abordamos un desafío persistente en los modelos de texto a imagen: generar con precisión un número especificado de objetos. Los modelos actuales, que aprenden a partir de pares imagen-texto, tienen dificultades inherentes con el conteo, ya que los datos de entrenamiento no pueden representar todos los posibles números de objetos para cualquier objeto dado. Para resolver esto, proponemos optimizar la imagen generada en función de una pérdida de conteo derivada de un modelo de conteo que agrega el potencial de un objeto. Utilizar un modelo de conteo listo para usar es desafiante por dos razones: primero, el modelo requiere un hiperparámetro de escala para la agregación de potencial que varía según el punto de vista de los objetos, y segundo, las técnicas de guía de clasificación requieren modelos modificados que operen en pasos de difusión intermedia ruidosos. Para abordar estos desafíos, proponemos un modo de entrenamiento en línea iterativo que mejora la precisión de las imágenes inferidas al alterar el embedding de condicionamiento de texto y ajustar dinámicamente los hiperparámetros. Nuestro método ofrece tres ventajas clave: (i) puede considerar técnicas de conteo no derivables basadas en modelos de detección, (ii) es una solución plug-and-play de cero disparos que facilita cambios rápidos en las técnicas de conteo y los métodos de generación de imágenes, y (iii) el token de conteo optimizado puede reutilizarse para generar imágenes precisas sin optimización adicional. Evaluamos la generación de varios objetos y mostramos mejoras significativas en precisión. La página del proyecto está disponible en https://ozzafar.github.io/count_token.
Detectar datos fuera de distribución (OOD) es crucial en aplicaciones de aprendizaje automático para mitigar el riesgo de sobreconfianza del modelo, mejorando así la fiabilidad y seguridad de los sistemas implementados. La mayoría de los métodos existentes de detección de OOD abordan predominantemente entradas unimodales, como imágenes o textos. En el contexto de documentos multimodales, existe una notable falta de investigación extensiva sobre el rendimiento de estos métodos, que han sido desarrollados principalmente con un enfoque en tareas de visión por computadora. Proponemos una metodología novedosa denominada enmascaramiento de cabezales de atención (AHM) para tareas OOD multimodales en sistemas de clasificación de documentos. Nuestros resultados empíricos demuestran que el método AHM propuesto supera a todos los enfoques de vanguardia y disminuye significativamente la tasa de falsos positivos (FPR) en comparación con las soluciones existentes hasta un 7.5\%. Esta metodología generaliza bien a datos multimodales, como documentos, donde la información visual y textual se modela bajo la misma arquitectura Transformer. Para abordar la escasez de conjuntos de datos de documentos públicamente disponibles de alta calidad y fomentar una mayor investigación sobre la detección de OOD para documentos, presentamos FinanceDocs, un nuevo conjunto de datos de IA para documentos. Nuestro código y conjunto de datos están disponibles públicamente.
Los sistemas de recuperación visual enfrentan desafíos significativos al actualizar modelos con representaciones mejoradas debido a desalineaciones entre las representaciones antiguas y nuevas. El costoso y intensivo proceso de rellenado implica recalcular vectores de características para imágenes en el conjunto de galería cada vez que se introduce un nuevo modelo. Para abordar esto, investigaciones previas han explorado métodos de entrenamiento retrocompatibles que permiten comparaciones directas entre las nuevas y antiguas representaciones sin rellenado. A pesar de estos avances, lograr un equilibrio entre la retrocompatibilidad y el rendimiento de modelos entrenados de forma independiente sigue siendo un problema abierto. En este documento, lo abordamos expandiendo el espacio de representación con dimensiones adicionales y aprendiendo una transformación ortogonal para lograr compatibilidad con los modelos antiguos y, al mismo tiempo, integrar nueva información. Esta transformación preserva la geometría del espacio de características original, asegurando que nuestro modelo se alinee con las versiones anteriores y al mismo tiempo aprenda nuevos datos. Nuestro enfoque Alinado Compatible Ortogonal (OCA) elimina la necesidad de reindexar durante las actualizaciones del modelo y garantiza que las características puedan compararse directamente a través de diferentes actualizaciones del modelo sin funciones de mapeo adicionales. Los resultados experimentales en CIFAR-100 e ImageNet-1k demuestran que nuestro método no solo mantiene la compatibilidad con modelos anteriores, sino que también logra una precisión de vanguardia, superando a varios métodos existentes.
Los Modelos de Lenguaje de Gran Tamaño (LLMs) son propensos a heredar y amplificar sesgos sociales incrustados en sus datos de entrenamiento, potencialmente reforzando estereotipos dañinos relacionados con género, ocupación y otras categorías sensibles. Este problema se vuelve particularmente problemático, ya que los LLMs sesgados pueden tener consecuencias de gran alcance, llevando a prácticas injustas y exacerbando las desigualdades sociales en diversos ámbitos, como contratación, moderación de contenido en línea o incluso en el sistema de justicia penal. Aunque investigaciones previas se han centrado en detectar sesgos en LLMs utilizando conjuntos de datos especializados diseñados para resaltar sesgos intrínsecos, ha habido una notable falta de investigación sobre cómo estos hallazgos se correlacionan con conjuntos de datos autorizados, como los del Buró Nacional de Estadísticas Laborales de EE. UU. (NBLS). Para abordar esta brecha, llevamos a cabo una investigación empírica que evalúa LLMs en un entorno de "sesgo-sin-modificación", analizando cómo las salidas generadas se comparan con las distribuciones encontradas en los datos del NBLS. Además, proponemos un mecanismo de des sesgo sencillo pero efectivo que incorpora directamente instancias del NBLS para mitigar el sesgo dentro de los LLMs. Nuestro estudio abarca siete LLMs diferentes, incluidos modelos instructables, base y de mezcla de expertos, y revela niveles significativos de sesgo que a menudo son pasados por alto por las técnicas existentes de detección de sesgos. Es importante destacar que nuestro método de des sesgo, que no depende de conjuntos de datos externos, demuestra una reducción sustancial en los puntajes de sesgo, resaltando la eficacia de nuestro enfoque en la creación de LLMs más justos y confiables.
Como parte de las tareas compartidas de la Iniciativa de Datos de Lenguaje Abierto, hemos ampliado el conjunto de evaluación FLORES+ para incluir Emakhuwa, un idioma de recursos limitados ampliamente hablado en Mozambique. Tradujimos los conjuntos dev y devtest del portugués al Emakhuwa, y detallamos el proceso de traducción y las medidas de garantía de calidad utilizadas. Nuestra metodología involucró varios controles de calidad, incluyendo edición posterior y evaluaciones de adecuación. Los conjuntos de datos resultantes consisten en múltiples oraciones de referencia para cada origen. Presentamos resultados base de entrenar un sistema de Traducción Automática Neural y ajustar modelos de traducción multilingüe existentes. Nuestros hallazgos sugieren que las inconsistencias de ortografía siguen siendo un desafío en Emakhuwa. Además, los modelos base tuvieron un rendimiento inferior en este conjunto de evaluación, subrayando la necesidad de más investigaciones para mejorar la calidad de la traducción automática para Emakhuwa. Los datos están disponibles públicamente en https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.