Artículos de investigación en IA seleccionados diariamente con traducciones
Los autoencoders dispersos (SAEs) se han convertido en un ingrediente fundamental en la ingeniería inversa de modelos de lenguaje extensos (LLMs). Para los LLMs, se ha demostrado que descomponen representaciones intermedias que a menudo no son directamente interpretables en sumas dispersas de rasgos interpretables, facilitando un mejor control y análisis posterior. Sin embargo, análisis y enfoques similares han estado ausentes para modelos de texto a imagen. Investigamos la posibilidad de utilizar SAEs para aprender rasgos interpretables para modelos de difusión de texto a imagen de unos pocos pasos, como SDXL Turbo. Con este fin, entrenamos SAEs en las actualizaciones realizadas por bloques transformadores dentro de la U-net de desruido de SDXL Turbo. Descubrimos que sus rasgos aprendidos son interpretables, influyen causalmente en el proceso de generación y revelan especialización entre los bloques. En particular, encontramos un bloque que se ocupa principalmente de la composición de la imagen, uno que es principalmente responsable de agregar detalles locales, y uno para color, iluminación y estilo. Por lo tanto, nuestro trabajo es un importante primer paso hacia una mejor comprensión de los aspectos internos de modelos generativos de texto a imagen como SDXL Turbo y muestra el potencial de los rasgos aprendidos por SAEs para el dominio visual. El código está disponible en https://github.com/surkovv/sdxl-unbox
¿Qué marca la diferencia en el post-entrenamiento de LLMs? Investigamos los patrones de entrenamiento de diferentes capas en modelos de lenguaje grandes (LLMs), a través del prisma del gradiente, al entrenar con diferentes respuestas y modelos iniciales. Nos interesa específicamente cómo el pensamiento rápido frente al lento afecta a los gradientes por capa, dada la reciente popularidad de entrenar LLMs en caminos de razonamiento como cadenas de pensamientos (CoT) y recompensas de proceso. En nuestro estudio, el pensamiento rápido sin CoT conduce a gradientes más grandes y diferencias más amplias de gradientes entre capas que el pensamiento lento (CoT detallado), lo que indica la estabilidad de aprendizaje que aporta este último. Además, los LLMs pre-entrenados se ven menos afectados por la inestabilidad del pensamiento rápido que los LLMs ajustados a instrucciones. Asimismo, estudiamos si los patrones de gradiente pueden reflejar la corrección de respuestas al entrenar diferentes LLMs utilizando caminos de pensamiento lento frente a rápido. Los resultados muestran que los gradientes del pensamiento lento pueden distinguir entre caminos de razonamiento correctos e irrelevantes. A modo de comparación, realizamos análisis de gradientes similares en tareas de aprendizaje de conocimiento no relacionadas con el razonamiento, en las que, sin embargo, aumentar trivialmente la longitud de la respuesta no conduce a comportamientos similares al pensamiento lento. Nuestro estudio fortalece la comprensión fundamental del entrenamiento de LLMs y aporta nuevas perspectivas sobre su eficiencia y estabilidad, allanando el camino hacia la construcción de un agente System-2 generalizable. Nuestro código, datos y estadísticas de gradientes se pueden encontrar en: https://github.com/MingLiiii/Layer_Gradient.
En los sistemas de diálogo orientados a tareas, la detección de intenciones es crucial para interpretar las consultas de los usuarios y proporcionar respuestas adecuadas. La investigación existente aborda principalmente consultas simples con una sola intención, careciendo de sistemas efectivos para manejar consultas complejas con múltiples intenciones y extraer diferentes segmentos de intención. Además, se observa una notable ausencia de conjuntos de datos multilingües y multi-intención. Este estudio aborda tres tareas críticas: extraer múltiples segmentos de intención de las consultas, detectar múltiples intenciones y desarrollar un conjunto de datos de intención multilingüe y multietiqueta. Presentamos un nuevo conjunto de datos de detección de intenciones multi-etiqueta y multi-clase (conjunto de datos MLMCID) seleccionado de conjuntos de datos de referencia existentes. También proponemos una arquitectura basada en redes de punteros (MLMCID) para extraer segmentos de intención y detectar múltiples intenciones con etiquetas gruesas y detalladas en forma de séxtuples. Un análisis exhaustivo demuestra la superioridad de nuestro sistema basado en redes de punteros sobre enfoques de referencia en términos de precisión y puntuación F1 en varios conjuntos de datos.
La sintonización de instrucciones es un enfoque supervisado de ajuste fino que mejora significativamente la capacidad de los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) para seguir instrucciones humanas. Proponemos SelfCodeAlign, el primer pipeline completamente transparente y permisivo para autoalinear LLMs de código sin extensas anotaciones humanas o destilación. SelfCodeAlign emplea el mismo modelo base para inferencia a lo largo del proceso de generación de datos. Primero extrae diversos conceptos de codificación de fragmentos de semilla de alta calidad para generar nuevas tareas. Luego, muestrea múltiples respuestas por tarea, las empareja con casos de prueba y las valida en un entorno de prueba. Finalmente, se seleccionan ejemplos aprobados para la sintonización de instrucciones. En nuestros experimentos principales, utilizamos SelfCodeAlign con CodeQwen1.5-7B para generar un conjunto de datos de 74k pares de instrucción-respuesta. El ajuste fino en este conjunto de datos conduce a un modelo que logra un 67.1 pass@1 en HumanEval+, superando a CodeLlama-70B-Instruct a pesar de ser diez veces más pequeño. En todos los benchmarks, este modelo ajustado fino supera consistentemente a la versión original entrenada con OctoPack, el método anterior de vanguardia para la sintonización de instrucciones sin anotaciones humanas o destilación. Además, demostramos que SelfCodeAlign es efectivo en LLMs de varios tamaños, desde 3B hasta 33B, y que los modelos base pueden beneficiarse más de la alineación con su propia distribución de datos. Validamos aún más la efectividad de cada componente en nuestro pipeline, mostrando que SelfCodeAlign supera tanto a la destilación directa de GPT-4o como a los métodos de destilación basados en GPT-3.5 líderes, como OSS-Instruct y Evol-Instruct. SelfCodeAlign también ha dado lugar a la creación de StarCoder2-Instruct, el primer LLM de código completamente transparente, con licencia permisiva y autoalineado que logra un rendimiento de codificación de vanguardia.
Los grandes modelos de lenguaje (LLMs) han revolucionado numerosas aplicaciones, sin embargo, su implementación sigue enfrentando desafíos debido a las limitaciones de memoria en dispositivos locales. Si bien las leyes de escala han mejorado las capacidades de los LLMs, el cuello de botella principal ha pasado de la capacidad a la disponibilidad, lo que enfatiza la necesidad de una gestión eficiente de la memoria. Los métodos tradicionales de compresión, como la cuantificación, a menudo requieren relaciones de compresión predefinidas y procesos de compresión separados para cada configuración, lo que complica la implementación en entornos de memoria variables. En este documento, presentamos BitStack, un enfoque novedoso de compresión de pesos sin entrenamiento que permite intercambios a nivel de megabytes entre el uso de memoria y el rendimiento del modelo. Al aprovechar la descomposición de pesos, BitStack puede ajustar dinámicamente el tamaño del modelo con una mínima transmisión entre la memoria en ejecución y los dispositivos de almacenamiento. Nuestro enfoque descompone iterativamente las matrices de pesos considerando la importancia de cada parámetro, lo que resulta en un bloque residual de aproximadamente 1 bit por parámetro en cada iteración de descomposición. Estos bloques se ordenan y apilan en el almacenamiento como unidades básicas de transmisión, cargando diferentes cantidades según la disponibilidad actual de memoria. Experimentos extensos en una amplia gama de tareas demuestran que, a pesar de ofrecer un control de tamaño detallado, BitStack coincide consistentemente o supera a las líneas de base de cuantificación sólidas, especialmente en relaciones de compresión extremas. Hasta donde sabemos, este es el primer método basado en descomposición que efectivamente acorta la brecha con técnicas de compresión prácticas como la cuantificación. El código está disponible en https://github.com/xinghaow99/BitStack.
Los modelos de lenguaje grandes (LLMs) tienen dificultades para seguir instrucciones con restricciones complejas en formato, longitud, etc. Siguiendo la práctica convencional de ajuste de instrucciones, trabajos anteriores realizan un ajuste posterior en pares de instrucción-respuesta complejos generados alimentando instrucciones complejas a LLMs avanzados. Sin embargo, incluso los LLMs avanzados no pueden seguir bien las instrucciones complejas, lo que limita la calidad de los datos generados. En este trabajo, encontramos que los conjuntos de datos existentes contienen inherentemente restricciones complejas implícitas y proponemos una novedosa técnica de generación de datos, la retrotraducción de restricciones. Específicamente, tomamos los pares de instrucción-respuesta de alta calidad en los conjuntos de datos existentes y solo adoptamos LLMs avanzados para agregar restricciones complejas ya cumplidas por las respuestas a las instrucciones, lo que reduce naturalmente los costos y el ruido de los datos. En los experimentos, adoptamos Llama3-70B-Instruct para retrotraducir restricciones y creamos un conjunto de datos de instrucción-respuesta complejo de alta calidad, llamado CRAB. Demostramos que el ajuste posterior en CRAB mejora la capacidad de seguir instrucciones complejas de múltiples LLMs base, evaluados en extensas pruebas de seguimiento de instrucciones. Además, encontramos que la retrotraducción de restricciones también sirve como un útil objetivo de entrenamiento auxiliar en el ajuste posterior. Nuestro código, datos y modelos serán publicados para facilitar la investigación futura.
Los avances recientes en Modelos de Lenguaje Grandes (LLMs) han mejorado significativamente su capacidad para procesar contextos largos, sin embargo, aún existe una brecha notable en la generación de salidas largas y alineadas. Esta limitación se origina en una brecha de entrenamiento donde el pre-entrenamiento carece de instrucciones efectivas para la generación de texto largo, y los datos posteriores al entrenamiento consisten principalmente en pares de consulta-respuesta cortos. Enfoques actuales, como la retrotraducción de instrucciones y la imitación de comportamiento, enfrentan desafíos que incluyen la calidad de los datos, problemas de derechos de autor y limitaciones en el uso de modelos propietarios. En este documento, presentamos un innovador marco de entrenamiento iterativo llamado Auto-Alargamiento que aprovecha únicamente el conocimiento intrínseco y las habilidades de los LLMs sin necesidad de datos auxiliares o modelos propietarios. El marco consta de dos roles: el Generador y el Ampliador. El Generador produce la respuesta inicial, la cual luego es dividida y ampliada por el Ampliador. Este proceso resulta en una nueva respuesta más larga, que se utiliza para entrenar tanto al Generador como al Ampliador de manera iterativa. A través de este proceso, los modelos son entrenados progresivamente para manejar respuestas cada vez más largas. Experimentos en benchmarks y evaluaciones humanas muestran que Auto-Alargamiento supera a los métodos existentes en la generación de texto largo, cuando se aplica a los mejores LLMs de código abierto como Qwen2 y LLaMA3. Nuestro código está disponible públicamente en https://github.com/QwenLM/Self-Lengthen.
El rendimiento de las redes neuronales mejora cuando se utilizan más parámetros. Sin embargo, los tamaños de los modelos están limitados por la memoria disponible en el dispositivo durante el entrenamiento y la inferencia. Aunque la aplicación de técnicas como la cuantificación puede aliviar la restricción, sufren de degradación del rendimiento. En este trabajo, presentamos NeuZip, un nuevo esquema de compresión de pesos basado en la entropía de números de punto flotante en redes neuronales. Con NeuZip, logramos alcanzar un entrenamiento e inferencia eficientes en memoria sin sacrificar el rendimiento. Es destacable que reducimos significativamente la huella de memoria para el entrenamiento de un modelo Llama-3 8B de 31GB a menos de 16GB, manteniendo completamente inalterada la dinámica de entrenamiento. En inferencia, nuestro método puede reducir el uso de memoria en más de la mitad manteniendo un rendimiento casi sin pérdidas. Nuestro código está disponible públicamente.
En este artículo, demostramos que es posible aprender representaciones útiles de video a partir de videos sintéticos e imágenes naturales, sin incorporar videos naturales en el entrenamiento. Proponemos una progresión de conjuntos de datos de video sintetizados mediante procesos generativos simples, que modelan un conjunto creciente de propiedades de videos naturales (por ejemplo, movimiento, aceleración y transformaciones de forma). El rendimiento posterior de los modelos de video pre-entrenados en estos conjuntos de datos generados aumenta gradualmente con la progresión del conjunto de datos. Un modelo VideoMAE pre-entrenado en nuestros videos sintéticos cierra el 97.2% de la brecha de rendimiento en la clasificación de acciones de UCF101 entre el entrenamiento desde cero y el pre-entrenamiento auto-supervisado a partir de videos naturales, y supera al modelo pre-entrenado en HMDB51. La introducción de recortes de imágenes estáticas en la etapa de pre-entrenamiento resulta en un rendimiento similar al pre-entrenamiento de UCF101 y supera al modelo pre-entrenado de UCF101 en 11 de los 14 conjuntos de datos fuera de distribución de UCF101-P. Al analizar las propiedades de bajo nivel de los conjuntos de datos, identificamos correlaciones entre la diversidad de fotogramas, la similitud de los fotogramas con los datos naturales y el rendimiento posterior. Nuestro enfoque proporciona una alternativa más controlable y transparente a los procesos de curación de datos de video para el pre-entrenamiento.
Numerosos estudios han evaluado la competencia de los sistemas de IA, en particular los modelos de lenguaje grandes (LLMs), en facilitar tareas cotidianas como la escritura de correos electrónicos, la respuesta a preguntas y la generación de contenido creativo. Sin embargo, los investigadores enfrentan desafíos y oportunidades únicas al aprovechar los LLMs para su propio trabajo, como la generación de ideas de investigación, el diseño de experimentos y la escritura o revisión de documentos. En este estudio, presentamos AAAR-1.0, un conjunto de datos de referencia diseñado para evaluar el rendimiento de los LLMs en tres tareas de investigación fundamentales y intensivas en experiencia: (i) Inferencia de Ecuaciones, evaluando la corrección de ecuaciones basadas en la información contextual en las presentaciones de documentos; (ii) Diseño de Experimentos, diseñando experimentos para validar ideas y soluciones de investigación; (iii) Debilidades en Documentos, identificando debilidades en las presentaciones de documentos; y (iv) CRÍTICA DE REVISIÓN, identificando si cada segmento en las revisiones humanas es deficiente o no. AAAR-1.0 difiere de conjuntos de datos de referencia anteriores en dos aspectos clave: primero, está explícitamente orientado a la investigación, con tareas que requieren un profundo conocimiento del dominio; segundo, está orientado a los investigadores, reflejando las actividades principales en las que los investigadores participan a diario. Una evaluación tanto de LLMs de código abierto como propietarios revela su potencial, así como limitaciones, en la realización de tareas de investigación sofisticadas. Continuaremos iterando AAAR-1.0 hacia nuevas versiones.
El auge de los modelos de lenguaje grandes (LLMs) ha revolucionado las interacciones de los usuarios con sistemas basados en el conocimiento, permitiendo a los chatbots sintetizar vastas cantidades de información y ayudar con tareas complejas y exploratorias. Sin embargo, los chatbots basados en LLM a menudo tienen dificultades para proporcionar soporte personalizado, especialmente cuando los usuarios comienzan con consultas vagas o carecen de suficiente información contextual. Este documento presenta el Asistente Colaborativo para la Exploración Personalizada (CARE), un sistema diseñado para mejorar la personalización en tareas exploratorias mediante la combinación de un marco LLM multiagente con una interfaz de usuario estructurada. La interfaz de CARE consta de un Panel de Chat, un Panel de Soluciones y un Panel de Necesidades, lo que permite la refinación iterativa de consultas y la generación dinámica de soluciones. El marco multiagente colabora para identificar tanto las necesidades explícitas como implícitas del usuario, ofreciendo soluciones adaptadas y accionables. En un estudio de usuarios dentro del sujeto con 22 participantes, CARE fue consistentemente preferido sobre un chatbot LLM de referencia, con los usuarios elogiando su capacidad para reducir la carga cognitiva, inspirar la creatividad y proporcionar soluciones más personalizadas. Nuestros hallazgos resaltan el potencial de CARE para transformar los sistemas basados en LLM de recuperadores pasivos de información a socios proactivos en la resolución de problemas y la exploración personalizada.
El Preentrenamiento de Visión-Lenguaje Médica (MedVLP) muestra promesa en el aprendizaje de representaciones visuales generalizables y transferibles a partir de imágenes médicas emparejadas y no emparejadas, junto con informes. MedVLP puede proporcionar características útiles para tareas posteriores y facilitar la adaptación de modelos específicos de tarea a nuevas configuraciones utilizando menos ejemplos. Sin embargo, los métodos de MedVLP existentes a menudo difieren en cuanto a conjuntos de datos, preprocesamiento e implementaciones de ajuste fino. Esto plantea grandes desafíos para evaluar qué tan bien un método de MedVLP generaliza a diversas tareas clínicamente relevantes debido a la falta de un banco de pruebas unificado, estandarizado y completo. Para llenar este vacío, proponemos BenchX, un marco de referencia unificado que permite la comparación directa y el análisis sistemático entre métodos de MedVLP utilizando conjuntos de datos públicos de radiografías de tórax. Específicamente, BenchX se compone de tres componentes: 1) Conjuntos de datos completos que cubren nueve conjuntos de datos y cuatro tareas médicas; 2) Conjuntos de pruebas para estandarizar el preprocesamiento de datos, las divisiones de entrenamiento-prueba y la selección de parámetros; 3) Protocolos de ajuste fino unificados que acomodan métodos heterogéneos de MedVLP para una adaptación consistente de tareas en clasificación, segmentación y generación de informes, respectivamente. Utilizando BenchX, establecemos líneas de base para nueve métodos de MedVLP de última generación y encontramos que el rendimiento de algunos métodos de MedVLP tempranos puede mejorarse para superar a los más recientes, lo que sugiere una revisión de los desarrollos y conclusiones de trabajos anteriores en MedVLP. Nuestro código está disponible en https://github.com/yangzhou12/BenchX.
El seguimiento de movimiento 3D denso a partir de videos monoculares sigue siendo un desafío, especialmente cuando se busca una precisión a nivel de píxeles a lo largo de secuencias extensas. Presentamos \Approach, un método novedoso que realiza un seguimiento eficiente de cada píxel en el espacio 3D, permitiendo una estimación precisa del movimiento en videos completos. Nuestro enfoque aprovecha un mecanismo de atención global-local conjunto para el seguimiento a baja resolución, seguido por un upsampler basado en transformer para lograr predicciones de alta resolución. A diferencia de los métodos existentes, que se ven limitados por la ineficiencia computacional o el seguimiento disperso, \Approach ofrece un seguimiento 3D denso a escala, siendo más de 8 veces más rápido que los métodos anteriores y logrando una precisión de vanguardia. Además, exploramos el impacto de la representación de la profundidad en el rendimiento del seguimiento e identificamos la representación logarítmica de la profundidad como la elección óptima. Experimentos extensos demuestran la superioridad de \Approach en múltiples evaluaciones, logrando nuevos resultados de vanguardia tanto en tareas de seguimiento denso 2D como 3D. Nuestro método proporciona una solución robusta para aplicaciones que requieren un seguimiento de movimiento detallado a largo plazo en el espacio 3D.
En escenarios del mundo real, es deseable que los agentes incorporados tengan la capacidad de aprovechar el lenguaje humano para adquirir conocimiento explícito o implícito en tareas de aprendizaje. A pesar de los avances recientes, la mayoría de enfoques anteriores adoptan instrucciones simples de bajo nivel como entradas de lenguaje, lo cual puede no reflejar la comunicación humana natural. No está claro cómo incorporar un uso rico del lenguaje para facilitar el aprendizaje de tareas. Para abordar esta cuestión, este artículo estudia diferentes tipos de entradas de lenguaje para facilitar a agentes incorporados el aprendizaje por refuerzo (RL). Específicamente, examinamos cómo diferentes niveles de informatividad del lenguaje (es decir, retroalimentación sobre comportamientos pasados y orientación futura) y diversidad (es decir, variación de expresiones lingüísticas) impactan en el aprendizaje e inferencia de los agentes. Nuestros resultados empíricos basados en cuatro pruebas de RL demuestran que los agentes entrenados con retroalimentación de lenguaje diversa e informativa pueden lograr una generalización mejorada y una adaptación rápida a nuevas tareas. Estos hallazgos resaltan el papel fundamental del uso del lenguaje en la enseñanza de nuevas tareas a agentes incorporados en un mundo abierto. Sitio web del proyecto: https://github.com/sled-group/Teachable_RL
Este documento investiga un novedoso marco de compresión con pérdida que opera bajo una pérdida logarítmica, diseñado para manejar situaciones en las que la distribución de reconstrucción se aleja de la distribución fuente. Este marco es especialmente relevante para aplicaciones que requieren compresión y recuperación conjuntas, y en escenarios que involucran cambios distribucionales debido al procesamiento. Mostramos que la formulación propuesta extiende el marco clásico de acoplamiento de entropía mínima al integrar un cuello de botella, permitiendo un grado controlado de estocasticidad en el acoplamiento. Exploramos la descomposición del Acoplamiento de Entropía Mínima con Cuello de Botella (MEC-B) en dos problemas de optimización distintos: Maximización de Información Acotada por Entropía (EBIM) para el codificador, y Acoplamiento de Entropía Mínima (MEC) para el decodificador. A través de un análisis exhaustivo, proporcionamos un algoritmo voraz para EBIM con un rendimiento garantizado, y caracterizamos la solución óptima cerca de mapeos funcionales, ofreciendo importantes conocimientos teóricos sobre la complejidad estructural de este problema. Además, ilustramos la aplicación práctica de MEC-B a través de experimentos en Juegos de Codificación de Markov (MCGs) bajo límites de tasa. Estos juegos simulan un escenario de comunicación dentro de un Proceso de Decisión de Markov, donde un agente debe transmitir un mensaje comprimido de un emisor a un receptor a través de sus acciones. Nuestros experimentos resaltan los compromisos entre las recompensas de MDP y la precisión del receptor en diferentes tasas de compresión, demostrando la eficacia de nuestro método en comparación con una línea base de compresión convencional.
La necesidad de grandes corpus de texto ha aumentado con la llegada de modelos de lenguaje preentrenados y, en particular, el descubrimiento de leyes de escala para estos modelos. La mayoría de los corpus disponibles tienen datos suficientes solo para idiomas con grandes comunidades dominantes. Sin embargo, no hay un corpus disponible que (i) cubra una amplia gama de idiomas minoritarios; (ii) sea generado por un pipeline de código abierto reproducible; y (iii) esté rigurosamente limpio de ruido, haciéndolo confiable para su uso. Presentamos GlotCC, un corpus limpio a nivel de documento de 2TB en el dominio general derivado de CommonCrawl, que abarca más de 1000 idiomas. Ponemos a disposición de la comunidad de investigación GlotCC y el sistema utilizado para generarlo, incluyendo el pipeline, el modelo de identificación de idiomas y los filtros. Corpus v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1, Pipeline v. 3.0 https://github.com/cisnlp/GlotCC.