Artículos de investigación en IA seleccionados diariamente con traducciones
Los documentos empresariales, como formularios, facturas, recibos, informes, contratos y otros registros similares, suelen contener una semántica rica en la intersección de las modalidades textual y espacial. Las señales visuales que ofrecen sus diseños complejos desempeñan un papel crucial para comprender estos documentos de manera efectiva. En este artículo, presentamos DocLLM, una extensión ligera de los modelos de lenguaje grandes (LLMs) tradicionales para razonar sobre documentos visuales, teniendo en cuenta tanto la semántica textual como la disposición espacial. Nuestro modelo se diferencia de los LLMs multimodales existentes al evitar el uso de codificadores de imágenes costosos y centrarse exclusivamente en la información de las cajas delimitadoras para incorporar la estructura del diseño espacial. Específicamente, la alineación cruzada entre las modalidades textual y espacial se captura descomponiendo el mecanismo de atención en los transformadores clásicos en un conjunto de matrices desacopladas. Además, diseñamos un objetivo de preentrenamiento que aprende a rellenar segmentos de texto. Este enfoque nos permite abordar diseños irregulares y contenido heterogéneo que se encuentran frecuentemente en los documentos visuales. El modelo preentrenado se ajusta utilizando un conjunto de datos de instrucciones a gran escala, que cubre cuatro tareas principales de inteligencia documental. Demostramos que nuestra solución supera a los LLMs de última generación en 14 de 16 conjuntos de datos en todas las tareas, y generaliza bien en 4 de 5 conjuntos de datos previamente no vistos.
En este artículo, presentamos un método novedoso y sencillo para obtener embeddings de texto de alta calidad utilizando únicamente datos sintéticos y menos de 1,000 pasos de entrenamiento. A diferencia de los métodos existentes que suelen depender de un preentrenamiento intermedio en múltiples etapas con miles de millones de pares de texto débilmente supervisados, seguido de un ajuste fino con algunos conjuntos de datos etiquetados, nuestro método no requiere la construcción de complejas tuberías de entrenamiento ni depende de conjuntos de datos recopilados manualmente que a menudo están limitados por la diversidad de tareas y la cobertura lingüística. Aprovechamos modelos de lenguaje grandes (LLMs) propietarios para generar datos sintéticos diversos para cientos de miles de tareas de embedding de texto en casi 100 idiomas. Luego, ajustamos modelos LLMs de solo decodificación de código abierto en los datos sintéticos utilizando una función de pérdida contrastiva estándar. Los experimentos demuestran que nuestro método logra un rendimiento sólido en puntos de referencia altamente competitivos para embeddings de texto sin utilizar ningún dato etiquetado. Además, cuando se ajusta con una mezcla de datos sintéticos y etiquetados, nuestro modelo establece nuevos resultados de vanguardia en los benchmarks BEIR y MTEB.
Aprovechar el poder de los datos anotados por humanos mediante el Ajuste Fino Supervisado (SFT) es fundamental para avanzar en los Modelos de Lenguaje de Gran Escala (LLMs). En este artículo, exploramos la posibilidad de desarrollar un LLM robusto a partir de uno débil sin la necesidad de adquirir datos adicionales anotados por humanos. Proponemos un nuevo método de ajuste fino llamado Ajuste Fino de Autojuego (SPIN), que parte de un modelo ajustado fino de manera supervisada. En el núcleo de SPIN se encuentra un mecanismo de autojuego, donde el LLM refina su capacidad al enfrentarse a instancias de sí mismo. Más específicamente, el LLM genera sus propios datos de entrenamiento a partir de sus iteraciones anteriores, perfeccionando su política al discernir estas respuestas autogeneradas de las obtenidas de datos anotados por humanos. Nuestro método eleva progresivamente el LLM desde un modelo incipiente hasta uno formidable, desbloqueando todo el potencial de los datos de demostración anotados por humanos para el SFT. Teóricamente, demostramos que el óptimo global de la función objetivo de entrenamiento de nuestro método se alcanza solo cuando la política del LLM se alinea con la distribución de datos objetivo. Empíricamente, evaluamos nuestro método en varios conjuntos de datos de referencia, incluido el Tablero de Líderes de LLM Abiertos de HuggingFace, MT-Bench y conjuntos de datos de Big-Bench. Nuestros resultados muestran que SPIN puede mejorar significativamente el rendimiento del LLM en una variedad de benchmarks e incluso superar a los modelos entrenados mediante optimización directa de preferencias (DPO) complementada con datos adicionales de preferencias de GPT-4. Esto arroja luz sobre la promesa del autojuego, permitiendo alcanzar un rendimiento a nivel humano en LLMs sin la necesidad de oponentes expertos.
En los últimos tiempos, se han observado avances significativos en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), ejemplificados por ChatGPT, que demuestran una notable competencia en una variedad de tareas complejas. Sin embargo, muchos LLMs principales (por ejemplo, LLaMA) están preentrenados en corpus dominados por el inglés, lo que limita su rendimiento en otros idiomas no ingleses. En este artículo, nos centramos en cómo transferir efectivamente las capacidades de generación de lenguaje y seguimiento de instrucciones a un idioma no inglés. Para responder a esta pregunta, llevamos a cabo una extensa investigación empírica basada en LLaMA, acumulando más de 1440 horas de GPU. Analizamos el impacto de factores clave como la extensión del vocabulario, el preentrenamiento adicional y el ajuste de instrucciones en la transferencia. Para evaluar con precisión el nivel de conocimiento del modelo, empleamos cuatro pruebas estandarizadas ampliamente utilizadas: C-Eval, MMLU, AGI-Eval y GAOKAO-Bench. Además, se realiza una evaluación exhaustiva de la calidad de las respuestas del modelo, considerando aspectos como precisión, fluidez, informatividad, coherencia lógica y ausencia de daño, basada en LLM-Eval, un conjunto de tareas de instrucción de 17 categorías diversas. Nuestros resultados de evaluación demuestran que se puede lograr un rendimiento comparable al de los modelos de transferencia más avanzados con menos del 1% de los datos de preentrenamiento, tanto en términos de alineación de conocimiento como de calidad de respuesta. Además, los resultados experimentales en los trece idiomas de bajos recursos también muestran tendencias similares. Anticipamos que las conclusiones reveladas por los experimentos ayudarán a la comunidad en el desarrollo de LLMs no ingleses.
Las leyes de escalamiento de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) son fórmulas empíricas que estiman los cambios en la calidad del modelo como resultado del aumento en el número de parámetros y los datos de entrenamiento. Sin embargo, estas fórmulas, incluidas las populares leyes de escalamiento Chinchilla de DeepMind, no tienen en cuenta el costo de la inferencia. Modificamos las leyes de escalamiento Chinchilla para calcular el número óptimo de parámetros de un LLM y el tamaño de los datos de preentrenamiento necesarios para entrenar e implementar un modelo de una calidad y demanda de inferencia determinadas. Realizamos nuestro análisis tanto en términos de un presupuesto de cómputo como de costos del mundo real, y encontramos que los investigadores de LLM que esperan una demanda de inferencia razonablemente grande (~1B solicitudes) deberían entrenar modelos más pequeños y durante más tiempo que lo óptimo según Chinchilla.
Este trabajo explora la capacidad inherente de los LLMs para manejar contextos largos sin necesidad de ajustes finos. La longitud limitada de las secuencias de entrenamiento durante el proceso de aprendizaje puede restringir la aplicación de los Modelos de Lenguaje de Gran Escala (LLMs) en secuencias de entrada largas durante la inferencia. En este trabajo, argumentamos que los LLMs existentes ya poseen capacidades inherentes para manejar contextos extensos. Basándonos en este argumento, sugerimos extender la ventana de contexto de los LLMs por sí mismos para aprovechar al máximo esta capacidad inherente. Proponemos Self-Extend para estimular el potencial de los LLMs en el manejo de contextos largos. La idea básica es construir información de atención en dos niveles: el nivel de grupo y el nivel de vecindario. Ambos niveles se calculan mediante la auto-atención original del modelo, lo que significa que el método propuesto no requiere ningún entrenamiento adicional. Con solo cuatro líneas de código modificadas, el método propuesto puede extender sin esfuerzo la ventana de contexto de los LLMs existentes sin necesidad de ajustes finos. Realizamos experimentos exhaustivos y los resultados muestran que el método propuesto puede extender efectivamente la longitud de la ventana de contexto de los LLMs existentes.
El alto costo del ajuste fino de todos los parámetros (FFT) en los Modelos de Lenguaje de Gran Escala (LLMs) ha llevado al desarrollo de una serie de métodos de ajuste fino eficiente en parámetros (PEFT). Sin embargo, aún no está claro cuáles de estos métodos ofrecen el mejor equilibrio entre costo y rendimiento en diferentes escalas de modelos. Presentamos Astraios, un conjunto de 28 modelos OctoCoder ajustados mediante instrucciones, utilizando 7 métodos de ajuste y 4 tamaños de modelo de hasta 16 mil millones de parámetros. A través de investigaciones en 5 tareas y 8 conjuntos de datos diferentes que abarcan tanto tareas de comprensión como de generación de código, encontramos que el FFT generalmente conduce al mejor rendimiento en todas las escalas, y que los métodos PEFT difieren significativamente en su eficacia según la escala del modelo. LoRA suele ofrecer el equilibrio más favorable entre costo y rendimiento. Una investigación más profunda sobre los efectos de estos métodos en la robustez del modelo y la seguridad del código revela que los modelos más grandes tienden a mostrar una menor robustez y menos seguridad. Por último, exploramos las relaciones entre los parámetros actualizados, la pérdida de entropía cruzada y el rendimiento en las tareas. Encontramos que la efectividad del ajuste observada en modelos pequeños se generaliza bien a modelos más grandes, y que la pérdida de validación en el ajuste por instrucciones puede ser un indicador confiable del rendimiento general en tareas posteriores.
Las recientes innovaciones y avances en los modelos de difusión han ampliado significativamente las posibilidades de generar videos de alta calidad a partir de indicaciones dadas. La mayoría de los trabajos existentes abordan el escenario de una sola escena, donde solo ocurre un evento en un único fondo. Sin embargo, extender la generación a videos de múltiples escenas no es trivial y requiere gestionar adecuadamente la lógica entre ellas, manteniendo al mismo tiempo una apariencia visual consistente del contenido clave a lo largo de las escenas. En este artículo, proponemos un marco novedoso, denominado VideoDrafter, para la generación de videos de múltiples escenas con consistencia de contenido. Técnicamente, VideoDrafter aprovecha los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) para convertir la indicación de entrada en un guion detallado de múltiples escenas que se beneficia del conocimiento lógico aprendido por el LLM. El guion para cada escena incluye una descripción del evento, las entidades en primer plano/fondo, así como el movimiento de la cámara. VideoDrafter identifica las entidades comunes a lo largo del guion y solicita al LLM que detalle cada una de ellas. La descripción resultante de cada entidad se introduce en un modelo de texto a imagen para generar una imagen de referencia para cada entidad. Finalmente, VideoDrafter produce un video de múltiples escenas generando cada escena mediante un proceso de difusión que tiene en cuenta las imágenes de referencia, la descripción del evento y el movimiento de la cámara. El modelo de difusión incorpora las imágenes de referencia como condición y alineación para reforzar la consistencia de contenido en los videos de múltiples escenas. Experimentos exhaustivos demuestran que VideoDrafter supera a los modelos de generación de video más avanzados (SOTA) en términos de calidad visual, consistencia de contenido y preferencia del usuario.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades extraordinarias para comprender y generar texto que se asemeja estrechamente a la comunicación humana. Sin embargo, una limitación principal radica en las demandas computacionales significativas durante el entrenamiento, derivadas de su extensa parametrización. Este desafío se ve aún más intensificado por la naturaleza dinámica del mundo, lo que requiere actualizaciones frecuentes de los LLMs para corregir información obsoleta o integrar nuevos conocimientos, asegurando así su relevancia continua. Cabe destacar que muchas aplicaciones exigen ajustes continuos del modelo después del entrenamiento para abordar deficiencias o comportamientos no deseados. Existe un creciente interés en métodos eficientes y ligeros para realizar modificaciones del modelo sobre la marcha. En este sentido, en los últimos años ha surgido un auge en las técnicas de edición de conocimiento para LLMs, que buscan modificar eficientemente los comportamientos de los LLMs en dominios específicos mientras se preserva su rendimiento general en diversas entradas. En este artículo, primero definimos el problema de la edición de conocimiento y luego proporcionamos una revisión exhaustiva de los enfoques más avanzados. Inspirándonos en teorías de investigación educativa y cognitiva, proponemos un criterio de categorización unificado que clasifica los métodos de edición de conocimiento en tres grupos: recurrir a conocimiento externo, fusionar conocimiento en el modelo y editar conocimiento intrínseco. Además, presentamos un nuevo punto de referencia, KnowEdit, para una evaluación empírica integral de enfoques representativos de edición de conocimiento. Adicionalmente, ofrecemos un análisis en profundidad de la localización del conocimiento, lo que puede proporcionar una comprensión más profunda de las estructuras de conocimiento inherentes en los LLMs. Finalmente, discutimos varias aplicaciones potenciales de la edición de conocimiento, destacando sus implicaciones amplias y significativas.
En la evolución del preentrenamiento visión-lenguaje, el cambio desde la comprensión de textos cortos hacia la inclusión de contextos textuales extensos es fundamental. Modelos autoregresivos recientes de visión-lenguaje como Flamingo y PALME, que aprovechan la capacidad de contexto extenso de los Modelos de Lenguaje de Gran Escala (LLM), han destacado en tareas de generación de texto con pocos ejemplos, pero enfrentan desafíos en tareas de alineación. Para abordar esta brecha, introducimos la pérdida contrastiva en modelos de generación de texto, presentando el marco multimodal optimizado con contraste (\ModelName), que divide estratégicamente el modelo de lenguaje en componentes dedicados al procesamiento unimodal de texto y al manejo hábil de datos multimodales. \ModelName, nuestro marco unificado, combina elementos unimodales y multimodales, mejorando el rendimiento del modelo en tareas que involucran datos textuales y visuales, mientras reduce notablemente los parámetros entrenables. Sin embargo, estos modelos requieren extensos conjuntos de datos de texto largo, y la disponibilidad de conjuntos de datos de video con texto largo de alta calidad sigue siendo limitada. Para cerrar esta brecha, este trabajo introduce \VideoDatasetName, un conjunto de datos pionero de video-texto intercalado con descripciones completas, marcando un avance significativo. Demostrando su impacto, ilustramos cómo \ModelName mejora el rendimiento del modelo en tareas de imagen-texto. Con un 34% de parámetros entrenables y utilizando el 72% de los datos disponibles, nuestro modelo muestra una superioridad significativa sobre OpenFlamingo~openflamingo. Por ejemplo, en la tarea de subtitulado de Flickr con 4 ejemplos, el rendimiento mejora notablemente del 57.2% al 65.\%. Las contribuciones de \ModelName y \VideoDatasetName se destacan por mejoras notables en el rendimiento a través de 14 conjuntos de datos diversos que abarcan tareas de imagen-texto y video-texto.
En los enfoques recientes para la generación de texto a video (T2V), lograr controlabilidad en el video sintetizado suele ser un desafío. Normalmente, este problema se aborda proporcionando guías de bajo nivel por fotograma en forma de mapas de bordes, mapas de profundidad o un video existente que se desea modificar. Sin embargo, el proceso de obtener dichas guías puede ser laborioso. Este artículo se centra en mejorar la controlabilidad en la síntesis de video mediante el uso de simples cuadros delimitadores para guiar al sujeto de diversas maneras, todo sin necesidad de entrenamiento de redes neuronales, ajuste fino, optimización en tiempo de inferencia o el uso de videos preexistentes. Nuestro algoritmo, TrailBlazer, está construido sobre un modelo T2V preentrenado y es fácil de implementar. El sujeto es dirigido por un cuadro delimitador a través de la edición propuesta de mapas de atención espacial y temporal. Además, introducimos el concepto de fotogramas clave, permitiendo que la trayectoria del sujeto y su apariencia general sean guiadas tanto por un cuadro delimitador en movimiento como por indicaciones textuales correspondientes, sin necesidad de proporcionar una máscara detallada. El método es eficiente, con un cálculo adicional insignificante en relación con el modelo preentrenado subyacente. A pesar de la simplicidad de la guía mediante cuadros delimitadores, el movimiento resultante es sorprendentemente natural, con efectos emergentes que incluyen perspectiva y movimiento hacia la cámara virtual a medida que aumenta el tamaño del cuadro.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado avances significativos en el procesamiento del lenguaje natural y, al mismo tiempo, están extendiendo su capacidad lingüística a otras modalidades, como el habla y la visión. Sin embargo, la mayoría de los trabajos previos se han centrado en dotar a los LLMs de habilidades perceptivas, como la comprensión auditiva, mientras que el enfoque efectivo para mejorar los LLMs con capacidades de síntesis de voz sigue siendo ambiguo. En este artículo, realizamos una exploración empírica exhaustiva para potenciar los LLMs con la capacidad de generar habla, combinando el LLM preentrenado LLaMA/OPT y el modelo de síntesis de texto a voz VALL-E. Comparamos tres métodos de integración entre los LLMs y los modelos de síntesis de voz, que incluyen la fine-tuning directa de los LLMs, la superposición de capas de los LLMs y VALL-E, y el acoplamiento de los LLMs y VALL-E utilizando los LLMs como un potente codificador de texto. Los resultados experimentales muestran que el uso del método LoRA para fine-tunear directamente los LLMs con el fin de mejorar la capacidad de síntesis de voz no funciona bien, mientras que la superposición de los LLMs y VALL-E puede mejorar la calidad del habla generada tanto en la similitud del hablante como en la tasa de error de palabras (WER, por sus siglas en inglés). Entre estos tres métodos, los métodos acoplados que aprovechan los LLMs como codificador de texto logran el mejor rendimiento, superando a los modelos originales de síntesis de voz con una similitud del hablante consistentemente mejor y una reducción significativa (10,9%) en la WER.
El entrenamiento de modelos de lenguaje a gran escala es cada vez más crucial en diversos dominios, pero se ve obstaculizado por fallos frecuentes, lo que conlleva costos significativos de tiempo y económicos. Los métodos actuales de recuperación de fallos en entornos basados en la nube abordan de manera insuficiente los escenarios diversos y complejos que surgen, centrándose de manera limitada en eliminar el tiempo de inactividad para tareas individuales sin considerar el impacto general en los costos de un clúster. Presentamos Unicron, un gestor de cargas de trabajo diseñado para una autoreparación eficiente en el entrenamiento de modelos de lenguaje a gran escala. Unicron optimiza el proceso de entrenamiento minimizando los costos relacionados con fallos en múltiples tareas concurrentes dentro de un clúster. Sus características clave incluyen la detección de errores en banda para la identificación de errores en tiempo real sin sobrecarga adicional, un mecanismo dinámico de generación de planes consciente de los costos para una reconfiguración óptima, y una estrategia de transición eficiente para reducir el tiempo de inactividad durante los cambios de estado. Implementado en un clúster distribuido de 128 GPU, Unicron demuestra una mejora de hasta 1.9x en la eficiencia del entrenamiento en comparación con los métodos más avanzados, reduciendo significativamente los costos de recuperación de fallos y mejorando la confiabilidad del entrenamiento de modelos de lenguaje a gran escala.
Con la rápida evolución del modelo de Texto a Imagen (T2I) en los últimos años, sus resultados de generación insatisfactorios se han convertido en un desafío. Sin embargo, refinar de manera uniforme las Imágenes Generadas por IA (AIGIs) de diferentes calidades no solo limitó las capacidades de optimización para AIGIs de baja calidad, sino que también generó una optimización negativa para AIGIs de alta calidad. Para abordar este problema, se propone un refinador basado en calidad llamado Q-Refine. Basándose en la preferencia del Sistema Visual Humano (HVS), Q-Refine utiliza la métrica de Evaluación de Calidad de Imagen (IQA) para guiar el proceso de refinamiento por primera vez, y modifica imágenes de diferentes calidades a través de tres pipelines adaptativos. Los experimentos muestran que, para los modelos T2I principales, Q-Refine puede realizar una optimización efectiva en AIGIs de diferentes calidades. Puede ser un refinador general para optimizar AIGIs tanto en niveles de fidelidad como de calidad estética, ampliando así la aplicación de los modelos de generación T2I.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han alcanzado un enorme éxito debido a su conocimiento general y su capacidad para resolver una amplia gama de tareas en el procesamiento del lenguaje natural (NLP). Gracias a sus impresionantes habilidades, los LLMs han arrojado luz sobre posibles aplicaciones interdisciplinarias para fomentar descubrimientos científicos en un dominio específico mediante el uso de inteligencia artificial (IA para la ciencia, AI4S). Mientras tanto, la utilización de técnicas de NLP en la investigación y práctica de las geociencias es amplia y compleja, contribuyendo desde la extracción de conocimiento y la clasificación de documentos hasta la respuesta a preguntas y el descubrimiento de conocimiento. En este trabajo, damos el primer paso para aprovechar los LLMs para la ciencia, a través de un enfoque bastante directo. Intentamos especializar un LLM en geociencias, mediante un pre-entrenamiento adicional del modelo con una gran cantidad de textos en geociencias, así como un ajuste fino supervisado (SFT) del modelo resultante con nuestro conjunto de datos de ajuste de instrucciones recopilado de manera personalizada. Estos esfuerzos dan como resultado un modelo llamado GeoGalactica, que consta de 30 mil millones de parámetros. Hasta donde sabemos, es el modelo de lenguaje más grande para el dominio de las geociencias. Más específicamente, GeoGalactica se deriva de un pre-entrenamiento adicional de Galactica. Entrenamos GeoGalactica sobre un corpus de textos relacionados con geociencias que contiene 65 mil millones de tokens, curados a partir de extensas fuentes de datos en el proyecto de gran ciencia Deep-time Digital Earth (DDE), conservándose como el corpus de texto más grande específico para geociencias. Luego, ajustamos el modelo con 1 millón de pares de datos de ajuste de instrucciones que consisten en preguntas que requieren conocimiento profesional en geociencias para ser respondidas. En este informe técnico, ilustraremos en detalle todos los aspectos de GeoGalactica, incluyendo la recopilación de datos, la limpieza de datos, la selección del modelo base, el pre-entrenamiento, el SFT y la evaluación. Hemos liberado nuestras herramientas de curación de datos y los puntos de control de GeoGalactica durante los primeros 3/4 del pre-entrenamiento.
La destilación de puntuaciones ha surgido como uno de los enfoques más prevalentes para la síntesis de activos 3D a partir de texto. Esencialmente, la destilación de puntuaciones actualiza los parámetros 3D elevando y propagando hacia atrás puntuaciones promediadas sobre diferentes vistas. En este artículo, revelamos que la estimación del gradiente en la destilación de puntuaciones es inherentemente de alta varianza. A través de la lente de la reducción de varianza, la efectividad de SDS y VSD puede interpretarse como aplicaciones de varios variados de control al estimador de Monte Carlo de la puntuación destilada. Motivados por esta reconsideración y basándonos en la identidad de Stein, proponemos una solución más general para reducir la varianza en la destilación de puntuaciones, denominada Destilación de Puntuaciones de Stein (SSD). SSD incorpora variados de control construidos mediante la identidad de Stein, permitiendo funciones de línea base arbitrarias. Esto nos permite incluir guías previas flexibles y arquitecturas de red para optimizar explícitamente la reducción de varianza. En nuestros experimentos, la pipeline general, denominada SteinDreamer, se implementa instanciando el variado de control con un estimador de profundidad monocular. Los resultados sugieren que SSD puede reducir efectivamente la varianza de destilación y mejorar consistentemente la calidad visual tanto para la generación a nivel de objeto como de escena. Además, demostramos que SteinDreamer logra una convergencia más rápida que los métodos existentes debido a actualizaciones de gradiente más estables.