Artículos de investigación en IA seleccionados diariamente con traducciones
Se espera que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) respondan con precisión, pero a menudo muestran razonamientos deficientes o generan contenido alucinatorio. Para abordar esto, se han iniciado estudios con el prefijo "Auto-" como Auto-Coherencia, Auto-Mejora y Auto-Refinamiento. Comparten una característica común: implicar a los LLMs en evaluarse y actualizarse para mitigar los problemas. Sin embargo, estos esfuerzos carecen de una perspectiva unificada sobre la sumarización, ya que las encuestas existentes se centran predominantemente en la categorización sin examinar las motivaciones detrás de estos trabajos. En este documento, resumimos un marco teórico, denominado Coherencia Interna, que ofrece explicaciones unificadas para fenómenos como la falta de razonamiento y la presencia de alucinaciones. La Coherencia Interna evalúa la coherencia entre las capas latentes, de decodificación y de respuesta de los LLMs basándose en metodologías de muestreo. Ampliando el marco de Coherencia Interna, presentamos un marco teórico simplificado pero efectivo capaz de explorar la Coherencia Interna, denominado Retroalimentación Automática. El marco de Retroalimentación Automática consta de dos módulos: Autoevaluación y Autocorrección. Este marco ha sido utilizado en numerosos estudios. Clasificamos sistemáticamente estos estudios por tareas y líneas de trabajo; resumimos métodos de evaluación relevantes y puntos de referencia; y profundizamos en la pregunta, "¿Realmente Funciona la Retroalimentación Automática?" Proponemos varios puntos de vista críticos, incluyendo la hipótesis de la "Evolución en Forma de Reloj de Arena de la Coherencia Interna", la hipótesis "La Coherencia es (Casi) la Corrección" y "La Paradoja del Razonamiento Latente y Explícito". Además, esbozamos direcciones prometedoras para futuras investigaciones. Hemos compartido de forma abierta el código experimental, la lista de referencias y los datos estadísticos, disponibles en https://github.com/IAAR-Shanghai/ICSFSurvey.
La inferencia de los modelos de lenguaje grandes basados en transformadores consta de dos etapas secuenciales: 1) una etapa de precarga para calcular la caché KV de las indicaciones y generar el primer token, y 2) una etapa de decodificación para generar tokens subsecuentes. Para indicaciones largas, la caché KV debe calcularse para todos los tokens durante la etapa de precarga, lo que puede aumentar significativamente el tiempo necesario para generar el primer token. En consecuencia, la etapa de precarga puede convertirse en un cuello de botella en el proceso de generación. Queda abierta la pregunta de si todos los tokens de la indicación son esenciales para generar el primer token. Para responder a esto, presentamos un método novedoso, LazyLLM, que calcula selectivamente el KV para los tokens importantes para la predicción del siguiente token en ambas etapas, tanto la de precarga como la de decodificación. A diferencia de los enfoques estáticos de poda que podan la indicación de una vez, LazyLLM permite a los modelos de lenguaje seleccionar dinámicamente diferentes subconjuntos de tokens del contexto en diferentes pasos de generación, aunque puedan haber sido podados en pasos anteriores. Experimentos exhaustivos en conjuntos de datos estándar en diversas tareas demuestran que LazyLLM es un método genérico que puede integrarse fácilmente con modelos de lenguaje existentes para acelerar significativamente la generación sin necesidad de ajustes finos. Por ejemplo, en la tarea de pregunta-respuesta multi-documento, LazyLLM acelera la etapa de precarga del modelo LLama 2 7B en un 2.34x manteniendo la precisión.
En el campo de los modelos de lenguaje multimodales, la mayoría de los métodos se basan en una arquitectura similar a LLaVA. Estos modelos utilizan una característica ViT de una sola capa como una señal visual, alimentándola directamente en los modelos de lenguaje junto con tokens de texto. Sin embargo, al tratar con secuencias largas de señales visuales o entradas como videos, el mecanismo de autoatención de los modelos de lenguaje puede llevar a una sobrecarga computacional significativa. Además, el uso de características ViT de una sola capa hace que sea desafiante para los grandes modelos de lenguaje percibir completamente las señales visuales. Este documento propone un modelo de lenguaje multimodal eficiente para minimizar los costos computacionales al tiempo que permite que el modelo perciba las señales visuales de la manera más completa posible. Nuestro método incluye principalmente: (1) emplear atención cruzada para la interacción imagen-texto similar a Flamingo. (2) utilizar características jerárquicas de ViT. (3) introducir el mecanismo de Mezcla de Expertos (MoE) para mejorar la efectividad del modelo. Nuestro modelo logra puntuaciones competitivas en bancos de pruebas multimodales públicos y se desempeña bien en tareas como la descripción de imágenes y la descripción de videos.
En este trabajo, presentamos ChatQA 2, un modelo basado en Llama3 diseñado para cerrar la brecha entre los LLM de acceso abierto y los principales modelos propietarios (por ejemplo, GPT-4-Turbo) en capacidades de comprensión de largo contexto y generación con recuperación aumentada (RAG). Estas dos capacidades son esenciales para que los LLM puedan procesar grandes volúmenes de información que no pueden encajar en una sola indicación y son complementarias entre sí, dependiendo de las tareas posteriores y los recursos computacionales. Presentamos una detallada receta de entrenamiento continuo para extender la ventana de contexto de Llama3-70B-base de 8K a 128K tokens, junto con un proceso de ajuste de instrucciones de tres etapas para mejorar el seguimiento de instrucciones del modelo, el rendimiento de RAG y las capacidades de comprensión de largo contexto. Nuestros resultados demuestran que el modelo Llama3-ChatQA-2-70B logra una precisión comparable a GPT-4-Turbo-2024-0409 en muchas tareas de comprensión de largo contexto y lo supera en la prueba de RAG. Interesantemente, encontramos que el recuperador de largo contexto de última generación puede aliviar el problema de fragmentación del contexto superior en RAG, mejorando aún más los resultados basados en RAG para tareas de comprensión de largo contexto. También proporcionamos extensas comparaciones entre soluciones de RAG y de largo contexto utilizando LLM de largo contexto de última generación.
Los modelos generativos abiertos son de vital importancia para la comunidad, ya que permiten ajustes finos y sirven como referencia al presentar nuevos modelos. Sin embargo, la mayoría de los modelos actuales de texto a audio son privados y no están accesibles para artistas e investigadores para construir sobre ellos. Aquí describimos la arquitectura y el proceso de entrenamiento de un nuevo modelo de texto a audio con pesos abiertos, entrenado con datos de Creative Commons. Nuestra evaluación muestra que el rendimiento del modelo es competitivo con el estado del arte en diversas métricas. Especialmente, los resultados reportados de FDopenl3 (que miden el realismo de las generaciones) muestran su potencial para la síntesis de sonido estéreo de alta calidad a 44.1kHz.
En los últimos años, se han logrado avances notables en el campo de la comprensión de documentos visuales, con la arquitectura predominante compuesta por una cascada de modelos de visión y lenguaje. El componente de texto puede extraerse explícitamente con el uso de modelos OCR externos en enfoques basados en OCR, o alternativamente, el modelo de visión puede dotarse de capacidades de lectura en enfoques libres de OCR. Típicamente, las consultas al modelo se introducen exclusivamente en el componente de lenguaje, lo que hace necesario que las características visuales abarquen todo el documento. En este artículo, presentamos VisFocus, un método libre de OCR diseñado para explotar mejor la capacidad del codificador de visión al acoplarlo directamente con la indicación de lenguaje. Para lograrlo, reemplazamos las capas de muestreo descendente con capas que reciben la indicación de entrada y permiten resaltar partes relevantes del documento, mientras ignoran otras. Combinamos las mejoras en la arquitectura con una nueva tarea de pre-entrenamiento, utilizando enmascaramiento de lenguaje en un fragmento del texto del documento alimentado al codificador visual en lugar de la indicación, para dotar al modelo de capacidades de enfoque. En consecuencia, VisFocus aprende a asignar su atención a fragmentos de texto pertinentes a la indicación proporcionada. Nuestros experimentos demuestran que este enfoque de codificación visual guiado por indicaciones mejora significativamente el rendimiento, logrando resultados de vanguardia en varios benchmarks.
El Reconocimiento Óptico de Caracteres (OCR, por sus siglas en inglés) y el Reconocimiento de Escritura a Mano (HWR) en árabe plantean desafíos únicos debido a la naturaleza cursiva y sensible al contexto del alfabeto árabe. Este estudio presenta Qalam, un modelo base novedoso diseñado para OCR y HWR en árabe, construido sobre una arquitectura codificador SwinV2 y decodificador RoBERTa. Nuestro modelo supera significativamente a los métodos existentes, logrando una Tasa de Error de Palabras (WER) de solo 0.80% en tareas de HWR y 1.18% en tareas de OCR. Entrenamos Qalam en un conjunto de datos diverso, que incluye más de 4.5 millones de imágenes de manuscritos árabes y un conjunto de datos sintético que comprende 60k pares de imágenes y texto. Destacadamente, Qalam demuestra un manejo excepcional de los signos diacríticos árabes, una característica crítica en los alfabetos árabes. Además, muestra una notable capacidad para procesar entradas de alta resolución, abordando una limitación común en los sistemas de OCR actuales. Estos avances subrayan el potencial de Qalam como una solución líder para el reconocimiento de escritura árabe, ofreciendo un gran salto en precisión y eficiencia.
La Visión de la Computación Autonómica (ACV), propuesta hace más de dos décadas, visualiza sistemas informáticos que se autogestionan de manera similar a los organismos biológicos, adaptándose sin problemas a entornos cambiantes. A pesar de décadas de investigación, lograr la ACV sigue siendo un desafío debido a la naturaleza dinámica y compleja de los sistemas informáticos modernos. Los avances recientes en Modelos de Lenguaje Grandes (LLMs) ofrecen soluciones prometedoras a estos desafíos al aprovechar su extenso conocimiento, comprensión del lenguaje y capacidades de automatización de tareas. Este artículo explora la viabilidad de realizar la ACV a través de un marco multiagente basado en LLM para la gestión de microservicios. Introducimos una taxonomía de cinco niveles para el mantenimiento autónomo de servicios y presentamos un banco de pruebas de evaluación en línea basado en el proyecto de demostración de microservicios Sock Shop para evaluar el rendimiento de nuestro marco. Nuestros hallazgos demuestran un progreso significativo hacia el logro del Nivel 3 de autonomía, resaltando la efectividad de los LLM en la detección y resolución de problemas dentro de arquitecturas de microservicios. Este estudio contribuye al avance de la computación autonómica al ser pionero en la integración de LLM en marcos de gestión de microservicios, allanando el camino para sistemas informáticos más adaptables y autogestionados. El código estará disponible en https://aka.ms/ACV-LLM.
Dado que los modelos de lenguaje (LMs) superan ahora a los humanos promedio en muchas tareas desafiantes, se ha vuelto cada vez más difícil desarrollar evaluaciones desafiantes, de alta calidad y realistas. Abordamos este problema examinando las capacidades de los LMs para generar código que resuelva problemas reales de investigación científica. Incorporando aportes de científicos e investigadores de IA en 16 diversos subcampos de las ciencias naturales, incluyendo matemáticas, física, química, biología y ciencia de materiales, creamos un banco de pruebas de codificación curado por científicos, SciCode. Los problemas en SciCode se factorizan naturalmente en múltiples subproblemas, cada uno implicando recuperación de conocimiento, razonamiento y síntesis de código. En total, SciCode contiene 338 subproblemas descompuestos de 80 problemas principales desafiantes. Ofrece descripciones opcionales que especifican información útil de antecedentes científicos y soluciones estándar de oro anotadas por científicos y casos de prueba para evaluación. Claude3.5-Sonnet, el modelo de mejor rendimiento entre los probados, solo puede resolver el 4.6% de los problemas en el escenario más realista. Creemos que SciCode demuestra tanto el progreso de los LMs contemporáneos hacia convertirse en asistentes científicos útiles como arroja luz sobre el desarrollo y la evaluación de la IA científica en el futuro.
Las recientes innovaciones en el entrenamiento de modelos de lenguaje han demostrado que es posible crear modelos altamente eficientes que son lo suficientemente pequeños para ejecutarse en un teléfono inteligente. A medida que estos modelos se despliegan en un número creciente de dominios, es fundamental asegurar que estén alineados con las preferencias humanas y consideraciones de seguridad. En este informe, presentamos nuestra metodología para alinear la seguridad de la serie de modelos de lenguaje Phi-3. Utilizamos un ciclo de "detectar y corregir", realizando múltiples rondas de curación de conjuntos de datos, seguridad post-entrenamiento, evaluación comparativa, equipo de evaluación y identificación de vulnerabilidades para abarcar una variedad de áreas de daño tanto en escenarios de turno único como múltiples. Nuestros resultados indican que este enfoque mejoró de forma iterativa el rendimiento de los modelos Phi-3 en una amplia gama de pruebas de inteligencia artificial responsable.
La implementación de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) suele estar limitada por el ancho de banda de memoria, donde el cuello de botella principal es el costo de transferir los parámetros del modelo desde la memoria global de la GPU a sus registros. Al combinar esto con núcleos personalizados que fusionan las operaciones de descuantificación y multiplicación de matrices, la cuantificación solo de pesos puede permitir una inferencia más rápida al reducir la cantidad de movimiento de memoria. Sin embargo, desarrollar núcleos de alto rendimiento para LLMs cuantificados por pesos presenta desafíos sustanciales, especialmente cuando los pesos se comprimen a anchos de bits no uniformemente divisibles (por ejemplo, 3 bits) con cuantificación de tabla de búsqueda no uniforme. Este artículo describe FLUTE, un motor de tabla de búsqueda flexible para LLMs cuantificados por LUT, que utiliza una reestructuración offline de la matriz de pesos cuantificados para minimizar las manipulaciones de bits asociadas con el desempaquetado, y la vectorización y duplicación de la tabla de búsqueda para mitigar las restricciones de ancho de banda de memoria compartida. Con tamaños de lote < 32 y un tamaño de grupo de cuantificación de 128 (típico en la inferencia de LLM), el núcleo FLUTE puede ser de 2 a 4 veces más rápido que los núcleos GEMM existentes. Como aplicación de FLUTE, exploramos una extensión simple a la cuantificación NormalFloat basada en tabla de búsqueda y la aplicamos para cuantificar LLaMA3 en varias configuraciones, obteniendo un rendimiento de cuantificación competitivo frente a bases sólidas y un aumento de rendimiento de extremo a extremo de 1.5 a 2 veces.
Recientemente, con los rápidos avances de los modelos generativos, el campo de generación de texto visual ha presenciado un progreso significativo. Sin embargo, sigue siendo desafiante renderizar imágenes de texto de alta calidad en escenarios del mundo real, ya que deben cumplirse tres criterios críticos: (1) Fidelidad: las imágenes de texto generadas deben ser fotorrealistas y se espera que los contenidos sean los mismos que se especifican en las condiciones dadas; (2) Coherencia: las regiones y contenidos del texto generado deben coherir con la escena; (3) Utilidad: las imágenes de texto generadas pueden facilitar tareas relacionadas (por ejemplo, detección y reconocimiento de texto). Tras una investigación, encontramos que los métodos existentes, ya sean basados en renderizado o difusión, apenas pueden satisfacer todos estos aspectos simultáneamente, lo que limita su rango de aplicación. Por lo tanto, proponemos en este artículo un generador de texto visual (denominado SceneVTG), que puede producir imágenes de texto de alta calidad en entornos salvajes. Siguiendo un paradigma de dos etapas, SceneVTG aprovecha un Modelo de Lenguaje Multimodal Grande para recomendar regiones y contenidos de texto razonables en múltiples escalas y niveles, que son utilizados por un modelo de difusión condicional como condiciones para generar imágenes de texto. Experimentos extensos demuestran que el SceneVTG propuesto supera significativamente a los métodos tradicionales basados en renderizado y a los métodos recientes basados en difusión en términos de fidelidad y coherencia. Además, las imágenes generadas proporcionan una utilidad superior para tareas que implican detección y reconocimiento de texto. El código y los conjuntos de datos están disponibles en AdvancedLiterateMachinery.
Los autoencoders dispersos (SAEs) son un enfoque prometedor no supervisado para identificar características lineales causalmente relevantes e interpretables en las activaciones de un modelo de lenguaje (LM). Para ser útiles para tareas posteriores, los SAEs necesitan descomponer las activaciones del LM de manera fiel; sin embargo, para ser interpretables, la descomposición debe ser dispersa, dos objetivos que están en tensión. En este documento, presentamos los SAEs JumpReLU, que logran una fidelidad de reconstrucción de vanguardia en un nivel de dispersión dado en las activaciones de Gemma 2 9B, en comparación con otros avances recientes como los SAEs Gated y TopK. También demostramos que esta mejora no se produce a expensas de la interpretabilidad a través de estudios de interpretabilidad manuales y automatizados. Los SAEs JumpReLU son una modificación simple de los SAEs de ReLU (unidad lineal rectificada) convencionales, donde reemplazamos la ReLU con una función de activación JumpReLU discontinua, y son igualmente eficientes de entrenar y ejecutar. Al utilizar estimadores de avance directo (STEs) de manera fundamentada, mostramos cómo es posible entrenar efectivamente los SAEs JumpReLU a pesar de la función JumpReLU discontinua introducida en el pase hacia adelante del SAE. De manera similar, utilizamos STEs para entrenar directamente L0 de manera dispersa, en lugar de entrenar en proxies como L1, evitando problemas como la contracción.
Se ha logrado una mejora significativa en la subtitulación automática de audio (AAC) con los modelos recientes. Sin embargo, estos modelos se han vuelto cada vez más grandes a medida que se mejora su rendimiento. En este trabajo, proponemos un marco de destilación de conocimiento (KD) para AAC. Nuestro análisis muestra que en los modelos AAC basados en codificador-decodificador, es más efectivo destilar conocimiento en el codificador en comparación con el decodificador. Con este fin, incorporamos una pérdida de destilación de conocimiento a nivel de codificador en el entrenamiento, además de la pérdida supervisada estándar y la pérdida de destilación de conocimiento a nivel de secuencia. Investigamos dos métodos de destilación de conocimiento a nivel de codificador, basados en la pérdida de error cuadrático medio (MSE) y la pérdida contrastiva, respectivamente. Los resultados experimentales demuestran que la destilación contrastiva es más robusta que la destilación MSE, mostrando un rendimiento superior en situaciones con escasez de datos. Al aprovechar datos solo de audio en el entrenamiento en el marco de KD, nuestro modelo estudiante logra un rendimiento competitivo, con una velocidad de inferencia que es 19 veces más rápida. Se encuentra disponible una demostración en línea en \url{https://huggingface.co/spaces/wsntxxn/efficient_audio_captioning}.
Presentamos un enfoque novedoso para recuperar la forma 3D y la apariencia dependiente de la vista a partir de unas pocas imágenes a color, lo que permite una reconstrucción 3D eficiente y síntesis de nuevas vistas. Nuestro método aprende una representación neural implícita en forma de una Función de Distancia Firmada (SDF) y un campo de radiación. El modelo se entrena progresivamente a través de renderizado volumétrico habilitado para marcha de rayos, y se regulariza con señales de estéreo multi-vista (MVS) libres de aprendizaje. Clave en nuestra contribución es una estrategia novedosa de aprendizaje de función de forma neural implícita que fomenta que nuestro campo SDF sea lo más lineal posible cerca del conjunto de nivel, robusteciendo así el entrenamiento contra el ruido que emana de las señales de supervisión y regularización. Sin utilizar precursores preentrenados, nuestro método, llamado SparseCraft, logra un rendimiento de vanguardia tanto en síntesis de nuevas vistas como en reconstrucción a partir de vistas dispersas en bancos de pruebas estándar, mientras que requiere menos de 10 minutos para el entrenamiento.
Recientemente, la generación de texto a 3D ha atraído una atención significativa, lo que ha resultado en mejoras de rendimiento notables. Los métodos anteriores utilizan modelos de generación 3D de extremo a extremo para inicializar Gaussianas 3D, modelos de difusión multi-vista para garantizar consistencia multi-vista, y modelos de difusión de texto a imagen para refinar detalles con algoritmos de destilación de puntajes. Sin embargo, estos métodos presentan dos limitaciones. En primer lugar, se enfrentan a conflictos en las direcciones de generación ya que diferentes modelos tienen como objetivo producir activos 3D diversos. En segundo lugar, el problema de sobre-saturación en la destilación de puntajes no ha sido investigado a fondo ni resuelto. Para abordar estas limitaciones, proponemos PlacidDreamer, un marco de trabajo de texto a 3D que armoniza la inicialización, la generación multi-vista y la generación condicionada por texto con un único modelo de difusión multi-vista, al mismo tiempo que emplea un algoritmo de destilación de puntajes novedoso para lograr una saturación equilibrada. Para unificar la dirección de generación, introducimos el módulo del Plano Latente, una extensión de complemento fácil de entrenar que permite a los modelos de difusión multi-vista proporcionar una reconstrucción geométrica rápida para la inicialización y mejorar las imágenes multi-vista para personalizar el modelo de difusión de texto a imagen. Para abordar el problema de sobre-saturación, proponemos ver la destilación de puntajes como un problema de optimización multiobjetivo e introducimos el algoritmo de Destilación de Puntajes Equilibrado, que ofrece una solución Óptima de Pareto que logra tanto detalles ricos como una saturación equilibrada. Experimentos extensos validan las capacidades sobresalientes de nuestro PlacidDreamer. El código está disponible en https://github.com/HansenHuang0823/PlacidDreamer.