Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje grandes con capacidades de visión (VLMs), por ejemplo, GPT-4o y Gemini 1.5 Pro, están impulsando innumerables aplicaciones de imágenes y texto, y obteniendo altas puntuaciones en muchos benchmarks de comprensión visual. Sin embargo, encontramos que los VLMs fallan en 7 tareas visuales absurdamente fáciles para los humanos, como identificar (a) si dos círculos se superponen; (b) si dos líneas se intersectan; (c) qué letra está siendo rodeada en una palabra; y (d) contar el número de círculos en un logotipo similar al de los Juegos Olímpicos. El rendimiento sorprendentemente pobre de cuatro VLMs de última generación sugiere que su visión es, en el mejor de los casos, como la de una persona con miopía que ve los detalles finos borrosos, y en el peor de los casos, como la de una persona inteligente que está ciega y hace suposiciones educadas. El código está disponible en: https://vlmsareblind.github.io/
Los datos sintéticos están adquiriendo una importancia creciente para acelerar el desarrollo de modelos de lenguaje, tanto grandes como pequeños. A pesar de varios casos de uso exitosos, los investigadores también han planteado preocupaciones sobre el colapso del modelo y las desventajas de imitar a otros modelos. Esta discrepancia puede atribuirse al hecho de que los datos sintéticos varían en calidad y diversidad. El uso efectivo de datos sintéticos generalmente requiere un esfuerzo humano significativo en la curación de los datos. Nos enfocamos en el uso de datos sintéticos para el post-entrenamiento, específicamente creando datos mediante modelos potentes para enseñar una nueva habilidad o comportamiento a otro modelo, a lo que nos referimos como Enseñanza Generativa. Presentamos AgentInstruct, un marco agente extensible para crear automáticamente grandes cantidades de datos sintéticos diversos y de alta calidad. AgentInstruct puede crear tanto las indicaciones como las respuestas, utilizando únicamente fuentes de datos en bruto como documentos de texto y archivos de código como semillas. Demostramos la utilidad de AgentInstruct creando un conjunto de datos de post-entrenamiento de 25M pares para enseñar a los modelos de lenguaje diferentes habilidades, como edición de texto, escritura creativa, uso de herramientas, codificación, comprensión de lectura, etc. El conjunto de datos se puede utilizar para ajustar la instrucción de cualquier modelo base. Post-entrenamos Mistral-7b con los datos. Al comparar el modelo resultante Orca-3 con Mistral-7b-Instruct (que utiliza el mismo modelo base), observamos mejoras significativas en muchos puntos de referencia. Por ejemplo, una mejora del 40% en AGIEval, del 19% en MMLU, del 54% en GSM8K, del 38% en BBH y del 45% en AlpacaEval. Además, supera consistentemente a otros modelos como LLAMA-8B-instruct y GPT-3.5-turbo.
El rápido avance de los modelos de lenguaje grandes (LLMs) ha allanado el camino para el desarrollo de agentes autónomos altamente capaces. Sin embargo, los marcos de trabajo multiagente existentes a menudo tienen dificultades para integrar diversos agentes de terceros capaces debido a la dependencia de agentes definidos dentro de sus propios ecosistemas. También enfrentan desafíos para simular entornos distribuidos, ya que la mayoría de los marcos de trabajo están limitados a configuraciones de un solo dispositivo. Además, estos marcos de trabajo a menudo se basan en canalizaciones de comunicación codificadas, lo que limita su adaptabilidad a los requisitos dinámicos de las tareas. Inspirados en el concepto de Internet, proponemos el Internet de Agentes (IoA), un marco de trabajo novedoso que aborda estas limitaciones al proporcionar una plataforma flexible y escalable para la colaboración multiagente basada en LLM. IoA introduce un protocolo de integración de agentes, un diseño de arquitectura similar a la mensajería instantánea y mecanismos dinámicos para la formación de equipos de agentes y el control del flujo de conversación. A través de experimentos extensos en tareas de asistente general, tareas de IA encarnada y referencias de generación aumentada por recuperación, demostramos que IoA supera consistentemente a las líneas de base de vanguardia, mostrando su capacidad para facilitar la colaboración efectiva entre agentes heterogéneos. IoA representa un paso hacia la vinculación de diversos agentes en un entorno similar a Internet, donde los agentes pueden colaborar sin problemas para lograr una mayor inteligencia y capacidades. Nuestro código fuente se ha publicado en https://github.com/OpenBMB/IoA.
El rendimiento de los Modelos de Lenguaje de Visión Amplia (LVLMs) depende del tamaño y la calidad de sus conjuntos de datos de entrenamiento. Los conjuntos de datos de ajuste de instrucciones de video existentes carecen de diversidad, ya que se derivan al incitar a los grandes modelos de lenguaje con subtítulos de video para generar pares de preguntas y respuestas, siendo en su mayoría descriptivos. Mientras tanto, existen muchos conjuntos de datos de video etiquetados con etiquetas y supervisión diversas; sin embargo, encontramos que su integración en LVLMs es no trivial. En este documento, presentamos Video Self-Training con Razonamiento aumentado (Video-STaR), el primer enfoque de autoentrenamiento de video. Video-STaR permite la utilización de cualquier conjunto de datos de video etiquetado para el ajuste de instrucciones de video. En Video-STaR, un LVLM alterna entre la generación de instrucciones y el ajuste fino, lo cual demostramos (I) mejora la comprensión general de video y (II) adapta los LVLMs a tareas novedosas con supervisión existente. Durante la generación, se le solicita a un LVLM que proponga una respuesta. Luego, las respuestas se filtran solo a aquellas que contienen las etiquetas originales del video, y luego el LVLM se vuelve a entrenar en el conjunto de datos generado. Al entrenar solo con respuestas generadas que contienen las etiquetas de video correctas, Video-STaR utiliza estas etiquetas de video existentes como supervisión débil para el ajuste de instrucciones de video. Nuestros resultados demuestran que los LVLMs mejorados con Video-STaR muestran un rendimiento mejorado en (I) preguntas y respuestas de video generales, donde el rendimiento de TempCompass mejoró en un 10%, y (II) en tareas posteriores, donde Video-STaR mejoró la precisión de Kinetics700-QA en un 20% y la evaluación de calidad de acción en FineDiving en un 15%.
Presentamos RodinHD, que puede generar avatares 3D de alta fidelidad a partir de una imagen de retrato. Los métodos existentes no logran capturar detalles intrincados como peinados, los cuales abordamos en este documento. Identificamos primero un problema pasado por alto de olvido catastrófico que surge al ajustar triplanos secuencialmente en muchos avatares, causado por el esquema de compartición del decodificador MLP. Para superar este problema, proponemos una novedosa estrategia de programación de datos y un término de regularización de consolidación de pesos, que mejora la capacidad del decodificador para renderizar detalles más nítidos. Además, optimizamos el efecto guía de la imagen de retrato mediante el cálculo de una representación jerárquica más detallada que captura ricas señales de textura 2D, e inyectándolas en el modelo de difusión 3D en múltiples capas a través de la atención cruzada. Cuando se entrena con 46K avatares con un programa de ruido optimizado para triplanos, el modelo resultante puede generar avatares 3D con detalles notablemente mejores que los métodos anteriores y puede generalizar a entradas de retratos en entornos naturales.
Entrenar modelos de lenguaje grandes (LLMs) en idiomas de recursos limitados como el hebreo plantea desafíos únicos. En este documento, presentamos DictaLM2.0 y DictaLM2.0-Instruct, dos LLMs derivados del modelo Mistral, entrenados en un corpus sustancial de aproximadamente 200 mil millones de tokens en hebreo e inglés. Adaptar un modelo pre-entrenado a un nuevo idioma implica técnicas especializadas que difieren significativamente de entrenar un modelo desde cero o de continuar el entrenamiento de modelos existentes en idiomas bien dotados como el inglés. Detallamos estas metodologías de entrenamiento novedosas, que facilitan el aprendizaje efectivo y la adaptación a las propiedades lingüísticas del hebreo. Además, afinamos DictaLM2.0-Instruct en un conjunto de datos instructivo exhaustivo para mejorar su rendimiento en instrucciones específicas de tareas. Para evaluar rigurosamente nuestros modelos, presentamos una nueva suite de pruebas de referencia para la evaluación de LLM en hebreo, que abarca una variedad de tareas que incluyen Respuesta a Preguntas, Análisis de Sentimientos, Desafío de Esquemas de Winograd, Traducción y Resumen. Nuestro trabajo no solo aborda las complejidades de entrenar LLMs en idiomas de recursos limitados, sino que también propone un marco que puede ser aprovechado para adaptar otros LLMs a varios idiomas no ingleses, contribuyendo al campo más amplio de PNL multilingüe.
La intensidad de movimiento alta y los videos largos consistentes de Sora han impactado significativamente en el campo de la generación de videos, atrayendo una atención sin precedentes. Sin embargo, los conjuntos de datos públicamente disponibles existentes son inadecuados para generar videos similares a los de Sora, ya que principalmente contienen videos cortos con baja intensidad de movimiento y breves leyendas. Para abordar estos problemas, proponemos MiraData, un conjunto de datos de video de alta calidad que supera a los anteriores en duración de video, detalle de leyendas, fuerza de movimiento y calidad visual. Curamos MiraData a partir de diversas fuentes seleccionadas manualmente y procesamos meticulosamente los datos para obtener clips semánticamente consistentes. Se emplea GPT-4V para anotar leyendas estructuradas, proporcionando descripciones detalladas desde cuatro perspectivas diferentes junto con una leyenda densa resumida. Para evaluar mejor la consistencia temporal y la intensidad de movimiento en la generación de videos, presentamos MiraBench, que mejora los benchmarks existentes al agregar métricas de consistencia 3D y fuerza de movimiento basada en seguimiento. MiraBench incluye 150 indicaciones de evaluación y 17 métricas que abarcan consistencia temporal, fuerza de movimiento, consistencia 3D, calidad visual, alineación texto-video y similitud de distribución. Para demostrar la utilidad y efectividad de MiraData, realizamos experimentos utilizando nuestro modelo de generación de video basado en DiT, MiraDiT. Los resultados experimentales en MiraBench demuestran la superioridad de MiraData, especialmente en la fuerza de movimiento.
Presentamos BM25S, una implementación eficiente basada en Python de BM25 que solo depende de Numpy y Scipy. BM25S logra hasta 500 veces más velocidad en comparación con el framework basado en Python más popular al calcular ávidamente las puntuaciones de BM25 durante la indexación y almacenarlas en matrices dispersas. También logra mejoras significativas en velocidad en comparación con implementaciones en Java altamente optimizadas, que son utilizadas por productos comerciales populares. Finalmente, BM25S reproduce la implementación exacta de cinco variantes de BM25 basadas en Kamphuis et al. (2020) al extender el cálculo ávido a variantes no dispersas utilizando un novedoso método de desplazamiento de puntuaciones. El código se puede encontrar en https://github.com/xhluca/bm25s.
Cuando se les pide resumir artículos o responder preguntas dadas un pasaje, los modelos de lenguaje grandes (LLMs) pueden alucinar detalles y responder con respuestas no fundamentadas que son inexactas con respecto al contexto de entrada. Este artículo describe un enfoque simple para detectar tales alucinaciones contextuales. Hipotetizamos que las alucinaciones contextuales están relacionadas con la medida en que un LLM presta atención a la información en el contexto proporcionado versus sus propias generaciones. Basándonos en esta intuición, proponemos un modelo de detección de alucinaciones simple cuyas características de entrada vienen dadas por la proporción de pesos de atención en el contexto versus los tokens recién generados (para cada cabeza de atención). Descubrimos que un clasificador lineal basado en estas características de proporción de revisión es tan efectivo como un detector más completo que utiliza todos los estados ocultos de un LLM o un modelo de inferencia basado en texto. Se encontró que el detector basado en la proporción de revisión, denominado Lente de Revisión, se transfiere entre tareas e incluso modelos, lo que permite que un detector entrenado en un modelo de 7B se aplique (sin necesidad de volver a entrenar) a un modelo más grande de 13B. Además, aplicamos este detector para mitigar las alucinaciones contextuales, y descubrimos que un enfoque de decodificación guiado por un clasificador simple puede reducir la cantidad de alucinaciones, por ejemplo, en un 9.6% en la tarea de resumen XSum.
Demostrar teoremas matemáticos utilizando lenguajes formales verificables por computadora como Lean impacta significativamente el razonamiento matemático. Un enfoque para la demostración formal de teoremas implica generar pruebas completas utilizando Modelos de Lenguaje Grande (LLMs) basados en pruebas de Lenguaje Natural (NL). Métodos similares han mostrado resultados prometedores en la generación de código. Sin embargo, la mayoría de los LLMs modernos muestran un rendimiento subóptimo debido a la escasez de datos alineados de demostración de teoremas en Lenguaje Natural (NL) y Lenguaje Formal (FL). Esta escasez resulta en una falta de metodologías para entrenar LLMs y técnicas para aprovechar completamente sus capacidades en la composición de pruebas formales. Para abordar los desafíos, este artículo propone **TheoremLlama**, un marco de trabajo de extremo a extremo para entrenar un LLM de propósito general para convertirse en un experto en Lean4. Este marco abarca métodos de generación de conjuntos de datos alineados NL-FL, enfoques de entrenamiento para el demostrador formal de teoremas LLM y técnicas para la escritura de pruebas Lean4 de LLM. Utilizando el método de generación de conjuntos de datos, proporcionamos *Teoremas Iniciales Abiertos* (OBT), un conjunto de datos alineado NL-FL y de arranque. Una innovación clave en este marco es el método de arranque NL-FL, donde las pruebas de NL se integran en el código Lean4 para conjuntos de datos de entrenamiento, aprovechando la capacidad de razonamiento de NL de los LLMs para el razonamiento formal. El marco **TheoremLlama** logra precisión acumulativa del 36.48% y 33.61% en los conjuntos de datos MiniF2F-Valid y Test respectivamente, superando la línea base de GPT-4 del 22.95% y 25.41%. También hemos hecho públicos nuestros puntos de control de modelo y el conjunto de datos generado, y pronto haremos que todo el código esté disponible públicamente.
Los modelos pre-entrenados producen representaciones genéricas sólidas que pueden ser adaptadas mediante el ajuste fino. La diferencia de peso aprendida en relación al modelo pre-entrenado, conocida como vector de tarea, caracteriza la dirección y paso del ajuste fino. La importancia de los vectores de tarea es tal que operaciones aritméticas simples sobre ellos pueden ser utilizadas para combinar representaciones diversas de diferentes dominios. Este artículo se basa en estas propiedades de los vectores de tarea y tiene como objetivo responder a (1) si los componentes de los vectores de tarea, en particular los bloques de parámetros, exhiben características similares, y (2) cómo dichos bloques pueden ser utilizados para mejorar la composición y transferencia de conocimiento. Con este fin, presentamos aTLAS, un algoritmo que combina linealmente bloques de parámetros con diferentes coeficientes aprendidos, resultando en un escalado anisotrópico a nivel del vector de tarea. Mostramos que tales combinaciones lineales explotan explícitamente la baja dimensionalidad intrínseca de los modelos pre-entrenados, con solo unos pocos coeficientes siendo los parámetros aprendibles. Además, la composición de bloques de parámetros aprovecha las representaciones ya aprendidas, reduciendo así la dependencia de grandes cantidades de datos. Demostramos la efectividad de nuestro método en aritmética de tareas, reconocimiento de pocos ejemplos y adaptación en tiempo de prueba, con objetivos supervisados o no supervisados. En particular, mostramos que (1) el escalado anisotrópico aprendido permite que los vectores de tarea estén más desentrelazados, causando menos interferencia en la composición; (2) la composición de vectores de tarea sobresale con datos escasos o sin etiquetar y es menos propensa al cambio de dominio, lo que conduce a una mejor generalización; (3) mezclar los bloques de parámetros más informativos entre diferentes vectores de tarea antes del entrenamiento puede reducir la huella de memoria y mejorar la flexibilidad de la transferencia de conocimiento. Además, mostramos el potencial de aTLAS como un método PEFT, especialmente con menos datos, y demostramos su escalabilidad.
Los humanos describen escenas complejas con composicionalidad, utilizando descripciones de texto simples enriquecidas con enlaces y relaciones. Aunque la investigación en visión y lenguaje ha buscado desarrollar modelos con capacidades de comprensión composicional, esto aún no se refleja en los conjuntos de datos existentes que, en su mayoría, todavía utilizan texto plano para describir imágenes. En este trabajo, proponemos una nueva estrategia de anotación, la titulada "graph-based captioning" (GBC), que describe una imagen utilizando una estructura de grafo etiquetado, con nodos de varios tipos. Los nodos en GBC se crean utilizando, en una primera etapa, herramientas de detección de objetos y subtítulos densos anidados de forma recursiva para descubrir y describir nodos de entidad, que luego se vinculan en una segunda etapa resaltando, mediante nuevos tipos de nodos, composiciones y relaciones entre entidades. Dado que todos los nodos de GBC contienen descripciones de texto plano, GBC conserva la flexibilidad encontrada en el lenguaje natural, pero también puede codificar información jerárquica en sus aristas. Demostramos que GBC puede generarse automáticamente, utilizando modelos LLM multimodales listos para usar y modelos de detección de vocabulario abierto, mediante la creación de un nuevo conjunto de datos, GBC10M, que recopila anotaciones de GBC para alrededor de 10 millones de imágenes del conjunto de datos CC12M. Utilizamos GBC10M para mostrar la riqueza de las descripciones de nodos descubiertas por GBC, medida con el entrenamiento de CLIP. Mostramos que el uso de las anotaciones de los nodos de GBC, especialmente aquellos almacenados en nodos de composición y relación, resulta en un impulso significativo en el rendimiento de los modelos posteriores en comparación con otros formatos de conjuntos de datos. Para explorar aún más las oportunidades proporcionadas por GBC, también proponemos un nuevo mecanismo de atención que puede aprovechar todo el grafo de GBC, con resultados experimentales alentadores que muestran los beneficios adicionales de incorporar la estructura del grafo. Nuestros conjuntos de datos se encuentran disponibles en https://huggingface.co/graph-based-captions.
Los modelos existentes de difusión de texto a video se basan únicamente en codificadores de texto para su preentrenamiento. Esta limitación surge de la ausencia de conjuntos de datos de video multimodales a gran escala, lo que resulta en una falta de fundamentos visuales y restringe su versatilidad y aplicación en la integración multimodal. Para abordar esto, construimos un conjunto de datos multimodal de texto a video a gran escala mediante métodos de recuperación para emparejar ejemplos en contexto con los textos proporcionados y luego utilizamos una estrategia de entrenamiento de dos etapas para permitir diversas tareas de generación de video dentro del mismo modelo. En la primera etapa, proponemos un marco de generación de video condicional multimodal para el preentrenamiento en estos conjuntos de datos aumentados, estableciendo un modelo fundamental para la generación de video fundamentada. En segundo lugar, afinamos el modelo de la primera etapa en tres tareas de generación de video, incorporando instrucciones multimodales. Este proceso perfecciona aún más la capacidad del modelo para manejar entradas y tareas diversas, asegurando una integración fluida de la información multimodal. Después de este proceso de entrenamiento de dos etapas, VIMI demuestra capacidades de comprensión multimodal, produciendo videos contextualmente ricos y personalizados fundamentados en las entradas proporcionadas, como se muestra en la Figura 1. En comparación con los métodos anteriores de generación de video fundamentados visualmente, VIMI puede sintetizar videos consistentes y temporalmente coherentes con un gran movimiento, manteniendo el control semántico. Por último, VIMI también logra resultados de generación de texto a video de vanguardia en el banco de pruebas UCF101.
Los modelos de lenguaje grandes (LLMs) a menudo exhiben comportamientos no deseados, como alucinaciones y repeticiones de secuencias. Proponemos considerar estos comportamientos como fallbacks que los modelos muestran bajo incertidumbre, e investigar la conexión entre ellos. Categorizamos los comportamientos de fallback: repeticiones de secuencias, texto degenerado y alucinaciones, y los analizamos exhaustivamente en modelos de la misma familia que difieren en la cantidad de tokens de preentrenamiento, el recuento de parámetros o la inclusión de entrenamiento para seguir instrucciones. Nuestros experimentos revelan un orden claro y consistente de los comportamientos de fallback, a lo largo de todos estos ejes: cuanto más avanzado es un LLM (es decir, entrenado con más tokens, tiene más parámetros o está ajustado a instrucciones), su comportamiento de fallback cambia de repeticiones de secuencias, a texto degenerado y luego a alucinaciones. Además, se observa el mismo orden durante una sola generación, incluso para los modelos de mejor rendimiento; a medida que aumenta la incertidumbre, los modelos pasan de generar alucinaciones a producir texto degenerado y luego repeticiones de secuencias. Por último, demostramos que si bien técnicas comunes de decodificación, como el muestreo aleatorio, pueden aliviar algunos comportamientos no deseados como las repeticiones de secuencias, aumentan alucinaciones más difíciles de detectar.
Los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) se han convertido recientemente en la principal fuente de respuestas para las preguntas de los usuarios en línea. A pesar de su capacidad para ofrecer respuestas elocuentes, su precisión y confiabilidad pueden plantear un desafío significativo. Esto es especialmente cierto para dominios sensibles como la biomedicina, donde hay una mayor necesidad de respuestas factualmente correctas. Este documento presenta un sistema de generación aumentada por recuperación biomédica (RAG, por sus siglas en inglés) diseñado para mejorar la confiabilidad de las respuestas generadas. El sistema se basa en un LLM ajustado finamente para la recuperación de preguntas y respuestas, donde se recuperan resúmenes relevantes de PubMed que se pasan al contexto del LLM como entrada a través de un estímulo. Su salida es una respuesta basada en resúmenes de PubMed, donde cada afirmación está referenciada adecuadamente, permitiendo a los usuarios verificar la respuesta. Nuestro sistema de recuperación logra una mejora absoluta del 23% en comparación con el motor de búsqueda de PubMed. Basándonos en la evaluación manual en una muestra pequeña, nuestro componente LLM ajustado finamente logra resultados comparables a GPT-4 Turbo al referenciar resúmenes relevantes. Ponemos a disposición públicamente el conjunto de datos utilizado para ajustar finamente los modelos y los modelos ajustados basados en Mistral-7B-instruct-v0.1 y v0.2.
Los avances recientes en modelado de lenguaje han mostrado resultados prometedores al ser aplicados a datos de series temporales. En particular, el ajuste fino de modelos de lenguaje grandes pre-entrenados (LLMs, por sus siglas en inglés) para tareas de clasificación de series temporales ha logrado un rendimiento de estado del arte (SOTA) en benchmarks estándar. Sin embargo, estos modelos basados en LLM presentan una desventaja significativa debido al gran tamaño del modelo, con millones de parámetros entrenables. En este documento, proponemos un enfoque alternativo para aprovechar el éxito del modelado de lenguaje en el dominio de series temporales. En lugar de ajustar finamente LLMs, utilizamos un modelo de incrustación de lenguaje para incrustar series temporales y luego emparejamos las incrustaciones con una sencilla cabeza de clasificación compuesta por redes neuronales convolucionales (CNN) y perceptrón multicapa (MLP). Realizamos experimentos exhaustivos en conjuntos de datos de referencia bien establecidos para la clasificación de series temporales. Demostramos que LETS-C no solo supera la precisión de clasificación del SOTA actual, sino que también ofrece una solución ligera, utilizando solo el 14.5% de los parámetros entrenables en promedio en comparación con el modelo SOTA. Nuestros hallazgos sugieren que aprovechar los codificadores de lenguaje para incrustar datos de series temporales, combinado con una cabeza de clasificación simple pero efectiva, ofrece una dirección prometedora para lograr una clasificación de series temporales de alto rendimiento manteniendo una arquitectura de modelo ligera.