Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) han revolucionado el Procesamiento del Lenguaje Natural (NLP), mejorando el estado del arte en muchas tareas existentes y exhibiendo capacidades emergentes. Sin embargo, los LLM aún no se han aplicado con éxito en la extracción de información de documentos semiestructurados, que es fundamental en muchos flujos de trabajo de procesamiento de documentos y consiste en extraer entidades clave de un documento visualmente enriquecido (VRD, por sus siglas en inglés) dado un esquema objetivo predefinido. Los principales obstáculos para la adopción de LLM en esta tarea han sido la ausencia de codificación de diseño dentro de los LLM, crucial para una extracción de alta calidad, y la falta de un mecanismo de fundamentación que garantice que la respuesta no sea alucinada. En este artículo, presentamos la Extracción y Localización de Información en Documentos basada en Modelos de Lenguaje (LMDX, por sus siglas en inglés), una metodología para adaptar LLM arbitrarios para la extracción de información en documentos. LMDX puede realizar la extracción de entidades únicas, repetidas y jerárquicas, tanto con como sin datos de entrenamiento, mientras proporciona garantías de fundamentación y localiza las entidades dentro del documento. En particular, aplicamos LMDX al LLM PaLM 2-S y lo evaluamos en los benchmarks VRDU y CORD, estableciendo un nuevo estado del arte y mostrando cómo LMDX permite la creación de analizadores de alta calidad y eficientes en el uso de datos.
En este artículo, descubrimos el potencial no explotado de la U-Net de difusión, que sirve como un "beneficio gratuito" que mejora sustancialmente la calidad de generación sobre la marcha. Inicialmente, investigamos las contribuciones clave de la arquitectura U-Net al proceso de eliminación de ruido e identificamos que su columna vertebral principal contribuye principalmente a la eliminación de ruido, mientras que sus conexiones de salto introducen principalmente características de alta frecuencia en el módulo decodificador, lo que hace que la red pase por alto la semántica de la columna vertebral. Aprovechando este descubrimiento, proponemos un método simple pero efectivo, denominado "FreeU", que mejora la calidad de generación sin necesidad de entrenamiento adicional o ajuste fino. Nuestra idea clave es re-ponderar estratégicamente las contribuciones provenientes de las conexiones de salto y los mapas de características de la columna vertebral de la U-Net, para aprovechar las fortalezas de ambos componentes de la arquitectura U-Net. Los resultados prometedores en tareas de generación de imágenes y videos demuestran que nuestro FreeU puede integrarse fácilmente en modelos de difusión existentes, como Stable Diffusion, DreamBooth, ModelScope, Rerender y ReVersion, para mejorar la calidad de generación con solo unas pocas líneas de código. Todo lo que necesitas es ajustar dos factores de escala durante la inferencia. Página del proyecto: https://chenyangsi.top/FreeU/.
Este artículo presenta DreamLLM, un marco de aprendizaje que logra por primera vez Modelos de Lenguaje Multimodales (MLLMs) versátiles potenciados por la sinergia, frecuentemente pasada por alto, entre la comprensión y la creación multimodal. DreamLLM opera bajo dos principios fundamentales. El primero se centra en el modelado generativo de las distribuciones posteriores tanto del lenguaje como de las imágenes mediante muestreo directo en el espacio multimodal en bruto. Este enfoque evita las limitaciones y la pérdida de información inherentes a los extractores de características externos como CLIP, obteniendo así una comprensión multimodal más profunda. En segundo lugar, DreamLLM fomenta la generación de documentos intercalados en bruto, modelando tanto el contenido de texto como de imágenes, junto con diseños no estructurados. Esto permite que DreamLLM aprenda de manera efectiva todas las distribuciones multimodales condicionales, marginales y conjuntas. Como resultado, DreamLLM es el primer MLLM capaz de generar contenido intercalado de forma libre. Experimentos exhaustivos destacan el rendimiento superior de DreamLLM como un generalista multimodal de cero-shot, beneficiándose de la sinergia de aprendizaje mejorada.
Presentamos Kosmos-2.5, un modelo multimodal alfabetizado para la lectura automática de imágenes intensivas en texto. Preentrenado en grandes volúmenes de imágenes con alto contenido textual, Kosmos-2.5 destaca en dos tareas de transcripción distintas pero complementarias: (1) la generación de bloques de texto espacialmente conscientes, donde cada bloque de texto se asigna a sus coordenadas espaciales dentro de la imagen, y (2) la producción de salidas de texto estructurado que capturan estilos y estructuras en formato markdown. Esta capacidad multimodal alfabetizada unificada se logra mediante una arquitectura Transformer compartida, indicaciones específicas por tarea y representaciones de texto flexibles. Evaluamos Kosmos-2.5 en el reconocimiento de texto a nivel de documento de extremo a extremo y en la generación de texto de imagen a markdown. Además, el modelo puede adaptarse fácilmente para cualquier tarea de comprensión de imágenes intensivas en texto mediante ajustes supervisados con diferentes indicaciones, convirtiéndolo en una herramienta de propósito general para aplicaciones del mundo real que involucran imágenes ricas en texto. Este trabajo también allana el camino para la futura escalabilidad de modelos de lenguaje multimodal de gran escala.
La generación de información factual plausible pero incorrecta, denominada alucinación, es un problema no resuelto en los modelos de lenguaje de gran escala. Estudiamos la capacidad de los modelos de lenguaje para deliberar sobre las respuestas que dan con el fin de corregir sus errores. Desarrollamos el método Cadena-de-Verificación (CoVe, por sus siglas en inglés), mediante el cual el modelo primero (i) redacta una respuesta inicial; luego (ii) planifica preguntas de verificación para contrastar su borrador; (iii) responde esas preguntas de manera independiente para que las respuestas no estén sesgadas por otras respuestas; y (iv) genera su respuesta final verificada. En los experimentos, demostramos que CoVe reduce las alucinaciones en una variedad de tareas, desde preguntas basadas en listas de Wikidata, MultiSpanQA de libro cerrado y generación de texto extenso.
La comunidad de IA ha logrado avances significativos en el desarrollo de modelos base potentes, impulsados por conjuntos de datos multimodales a gran escala. Sin embargo, en la comunidad de aprendizaje de representaciones de audio, los actuales conjuntos de datos de audio y lenguaje presentan limitaciones como volumen insuficiente, contenido simplista y procedimientos de recopilación laboriosos. Para abordar estos desafíos, presentamos una innovadora y automática pipeline de generación de subtítulos de audio basada en una serie de herramientas o APIs públicas, y construimos un conjunto de datos de audio y lenguaje a gran escala y de alta calidad, denominado Auto-ACD, que comprende más de 1.9 millones de pares de audio-texto. Para demostrar la efectividad del conjunto de datos propuesto, entrenamos modelos populares en nuestro conjunto de datos y mostramos mejoras en el rendimiento en varias tareas posteriores, como la recuperación de audio-lenguaje, la generación de subtítulos de audio y la clasificación de entornos. Además, establecemos un nuevo conjunto de pruebas y proporcionamos un punto de referencia para tareas de audio-texto. El conjunto de datos propuesto se publicará en https://auto-acd.github.io/.
En los últimos años, los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han captado una atención significativa por parte de la comunidad investigadora debido a su excepcional rendimiento y capacidades de generalización. En este artículo, presentamos un método novedoso para contextualizar modelos de reconocimiento de voz incorporando LLMs. Nuestro enfoque plantea el reconocimiento de voz como una tarea de modelado de lenguaje multimodal basada en un LLM preentrenado. Proporcionamos características de audio, junto con tokens de texto opcionales como contexto, para entrenar al sistema a completar transcripciones de manera exclusivamente decodificadora. Como resultado, el sistema está implícitamente incentivado a aprender cómo aprovechar la información contextual no estructurada durante el entrenamiento. Nuestros resultados empíricos demuestran una mejora significativa en el rendimiento, con una reducción del 6% en la Tasa de Error de Palabras (WER) cuando se proporciona contexto textual adicional. Además, encontramos que nuestro método compite favorablemente y mejora en un 7.5% el WER general y en un 17% el WER en palabras raras, en comparación con un sistema RNN-T contextualizado de referencia que ha sido entrenado con un conjunto de datos de voz más de veinticinco veces mayor. En general, demostramos que, al añadir solo un pequeño número de parámetros entrenables mediante adaptadores, podemos desbloquear la capacidad de reconocimiento de voz contextualizado para el LLM preentrenado, manteniendo al mismo tiempo la funcionalidad de entrada exclusivamente textual.
La Cocina Languini funciona tanto como un colectivo de investigación como una base de código diseñada para empoderar a investigadores con recursos computacionales limitados para contribuir de manera significativa al campo del modelado del lenguaje. Introducimos un protocolo experimental que permite comparaciones de modelos basadas en un cómputo equivalente, medido en horas de acelerador. El número de tokens en los que se entrena un modelo está definido por el rendimiento del modelo y la clase de cómputo elegida. Cabe destacar que este enfoque evita restricciones en hiperparámetros críticos que afectan el número total de parámetros o las operaciones de punto flotante. Para la evaluación, preprocesamos un conjunto de datos existente, grande, diverso y de alta calidad de libros que supera los puntos de referencia académicos actuales en calidad, diversidad y longitud de documentos. En él, comparamos métodos basados en sus tendencias de escalado empírico, las cuales se estiman mediante experimentos en varios niveles de cómputo. Este trabajo también proporciona dos modelos de referencia: un modelo de avance (feed-forward) derivado de la arquitectura GPT-2 y un modelo recurrente en forma de una LSTM novedosa con un rendimiento diez veces mayor. Mientras que el modelo de referencia GPT logra una mejor perplejidad en todos nuestros niveles de cómputo, nuestra LSTM de referencia exhibe una ley de escalado predecible y más favorable. Esto se debe al rendimiento mejorado y a la necesidad de menos tokens de entrenamiento para lograr la misma reducción en la perplejidad de prueba. Extrapolar las leyes de escalado de ambos modelos resulta en una intersección aproximadamente a las 50,000 horas de acelerador. Esperamos que este trabajo pueda servir como base para una investigación de modelado del lenguaje significativa y reproducible.
Los recientes avances en Campos de Radiancia Neural (NeRFs) han hecho posible reconstruir y reanimar escenas de retratos dinámicos con control sobre la pose de la cabeza, expresiones faciales y dirección de visualización. Sin embargo, el entrenamiento de tales modelos asume consistencia fotométrica sobre la región deformada, es decir, la cara debe estar uniformemente iluminada a medida que se deforma con cambios en la pose de la cabeza y las expresiones faciales. Dicha consistencia fotométrica entre los fotogramas de un video es difícil de mantener, incluso en entornos de estudio, lo que hace que los retratos neurales reanimables creados sean propensos a artefactos durante la reanimación. En este trabajo, proponemos CoDyNeRF, un sistema que permite la creación de retratos 3D completamente controlables en condiciones de captura del mundo real. CoDyNeRF aprende a aproximar los efectos dependientes de la iluminación mediante un modelo de apariencia dinámica en el espacio canónico que está condicionado por las normales de superficie predichas y las deformaciones de las expresiones faciales y la pose de la cabeza. La predicción de las normales de superficie se guía utilizando normales de 3DMM que actúan como una estimación previa aproximada para las normales de la cabeza humana, donde la predicción directa de normales es difícil debido a las deformaciones rígidas y no rígidas inducidas por los cambios en la pose de la cabeza y las expresiones faciales. Utilizando solo un video corto capturado con un smartphone de un sujeto para el entrenamiento, demostramos la efectividad de nuestro método en la síntesis de vistas libres de una escena de retrato con controles explícitos de pose de cabeza y expresiones, y efectos de iluminación realistas. La página del proyecto se puede encontrar aquí: http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html