Artículos de investigación en IA seleccionados diariamente con traducciones
Las hojas de cálculo, con sus extensas cuadrículas bidimensionales, diversos diseños y variadas opciones de formato, presentan desafíos notables para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). En respuesta, presentamos SpreadsheetLLM, pionero en un método de codificación eficiente diseñado para liberar y optimizar la potente capacidad de comprensión y razonamiento de los LLMs en hojas de cálculo. Inicialmente, proponemos un enfoque de serialización básico que incorpora direcciones de celda, valores y formatos. Sin embargo, este enfoque se vio limitado por las restricciones de tokens de los LLMs, lo que lo hizo poco práctico para la mayoría de las aplicaciones. Para abordar este desafío, desarrollamos SheetCompressor, un innovador marco de codificación que comprime eficazmente las hojas de cálculo para los LLMs. Consta de tres módulos: compresión basada en anclaje estructural, traducción de índices inversos y agregación consciente del formato de los datos. Mejora significativamente el rendimiento en la tarea de detección de tablas de hojas de cálculo, superando al enfoque básico en un 25.6% en el entorno de aprendizaje en contexto de GPT4. Además, el LLM afinado con SheetCompressor tiene una relación de compresión promedio de 25 veces, pero logra un puntaje F1 de vanguardia del 78.9%, superando a los mejores modelos existentes en un 12.3%. Finalmente, proponemos Chain of Spreadsheet para tareas posteriores de comprensión de hojas de cálculo y validamos en una nueva y exigente tarea de preguntas y respuestas de hojas de cálculo. Aprovechamos metódicamente el diseño y la estructura inherentes de las hojas de cálculo, demostrando que SpreadsheetLLM es altamente efectivo en una variedad de tareas de hojas de cálculo.
Los modelos de lenguaje grandes (LLMs) han demostrado capacidades notables, pero aún tienen dificultades para procesar contextos extensos, lo que limita su capacidad para mantener coherencia y precisión en secuencias largas. En contraste, el cerebro humano sobresale en organizar y recuperar experiencias episódicas a lo largo de vastas escalas temporales, abarcando toda una vida. En este trabajo, presentamos EM-LLM, un enfoque novedoso que integra aspectos clave de la memoria episódica humana y la cognición de eventos en LLMs, permitiéndoles manejar eficazmente longitudes de contexto prácticamente infinitas manteniendo la eficiencia computacional. EM-LLM organiza secuencias de tokens en eventos episódicos coherentes utilizando una combinación de sorpresa bayesiana y refinamiento de límites teóricos en línea. Cuando es necesario, estos eventos se recuperan a través de un proceso de memoria de dos etapas, combinando la recuperación basada en similitud y contigüidad temporal para un acceso eficiente y similar al humano a la información relevante. Experimentos en el conjunto de datos LongBench demuestran el rendimiento superior de EM-LLM, superando al modelo InfLLM de última generación con una mejora relativa general del 4.3% en varias tareas, incluida una mejora del 33% en la tarea de Recuperación de Pasajes. Además, nuestro análisis revela fuertes correlaciones entre la segmentación de eventos de EM-LLM y eventos percibidos por humanos, sugiriendo un puente entre este sistema artificial y su contraparte biológica. Este trabajo no solo avanza en las capacidades de los LLMs para procesar contextos extensos, sino que también proporciona un marco computacional para explorar los mecanismos de memoria humana, abriendo nuevas vías para la investigación interdisciplinaria en IA y ciencia cognitiva.
Este informe técnico describe el Transformador Optimizado para Series Temporales para Observabilidad (Toto), un nuevo modelo base de vanguardia para la predicción de series temporales desarrollado por Datadog. Además de avanzar en el estado del arte en benchmarks de series temporales generalizadas en dominios como la electricidad y el clima, este modelo es el primer modelo base de predicción de series temporales de propósito general específicamente ajustado para métricas de observabilidad. Toto fue entrenado en un conjunto de datos de un billón de puntos de datos de series temporales, el más grande entre todos los modelos base de series temporales actualmente publicados. Junto con conjuntos de datos de series temporales disponibles públicamente, el 75% de los datos utilizados para entrenar a Toto consisten en puntos de datos numéricos completamente anónimos de la plataforma Datadog. En nuestros experimentos, Toto supera a los modelos base de series temporales existentes en datos de observabilidad. Lo hace mientras también destaca en tareas de predicción de propósito general, logrando un rendimiento de vanguardia en cero-shot en múltiples conjuntos de datos de referencia abiertos.
Los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés) se actualizan con frecuencia debido a cambios en los datos o la arquitectura para mejorar su rendimiento. Al actualizar los modelos, los desarrolladores suelen centrarse en aumentar las métricas de rendimiento general con menos énfasis en ser compatibles con versiones anteriores del modelo. Sin embargo, los usuarios suelen construir un modelo mental de la funcionalidad y capacidades de un modelo de aprendizaje automático específico con el que interactúan. Tienen que adaptar su modelo mental con cada actualización, una tarea agotadora que puede llevar a la insatisfacción del usuario. En la práctica, los adaptadores de tareas secundarias ajustadas dependen de los modelos base LLM preentrenados. Cuando se actualizan estos modelos base, los modelos de tareas secundarias orientados al usuario experimentan regresión de instancias o cambios negativos: las instancias previamente correctas ahora se predicen incorrectamente. Esto ocurre incluso cuando los procedimientos de entrenamiento de tareas secundarias permanecen idénticos. Nuestro trabajo tiene como objetivo proporcionar actualizaciones de modelos fluidas a un usuario de dos maneras. Primero, proporcionamos métricas de evaluación para una noción de compatibilidad con versiones anteriores del modelo, específicamente para tareas generativas pero también aplicables a tareas discriminativas. Observamos regresión e inconsistencias entre diferentes versiones de modelos en un conjunto diverso de tareas y actualizaciones de modelos. Segundo, proponemos una estrategia de entrenamiento para minimizar el número de inconsistencias en las actualizaciones de modelos, que implica el entrenamiento de un modelo de compatibilidad que puede mejorar los modelos de lenguaje ajustados a tareas. Reducimos los cambios negativos, donde una versión anterior del modelo era correcta pero la nueva es incorrecta, hasta en un 40% de Llama 1 a Llama 2.
Los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés) han demostrado un gran potencial como asistentes generalistas, exhibiendo una poderosa comprensión de tareas y capacidades de resolución de problemas. Para implementar los LLMs como asistentes de IA, es crucial que estos modelos muestren rasgos de comportamiento deseables, como la no toxicidad y la resistencia contra intentos de jailbreak. Los métodos actuales para la desintoxicación o la prevención de jailbreaking generalmente involucran el Ajuste Fino Supervisado (SFT) o el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), que requiere ajustar miles de millones de parámetros a través de descenso de gradiente con un costo computacional sustancial. Además, los modelos modificados a través de SFT y RLHF pueden desviarse de los modelos preentrenados, lo que potencialmente conduce a una degradación en las capacidades fundamentales de los LLMs. En este documento, observamos que sorprendentemente, editar directamente un pequeño subconjunto de parámetros puede modular de manera efectiva comportamientos específicos de los LLMs, como la desintoxicación y la resistencia al jailbreaking. Específicamente, para un comportamiento que buscamos evitar, empleamos un clasificador lineal, al que denominamos sonda de comportamiento, para clasificar etiquetas de comportamiento binarias dentro del espacio de estado oculto del LLM. Utilizando esta sonda, presentamos un algoritmo para identificar un subconjunto crítico de parámetros de LLM que influyen significativamente en este comportamiento específico. Luego editamos directamente estos parámetros seleccionados desplazándolos hacia la sonda de comportamiento. Este método de edición directa de parámetros solo requiere recursos computacionales a nivel de inferencia. Los experimentos demuestran que en la tarea representativa de desintoxicación, nuestro enfoque logra reducciones de hasta un 90.0\% en toxicidad en el conjunto de datos RealToxicityPrompts y un 49.2\% en ToxiGen, manteniendo las capacidades generales del LLM en áreas como el sentido común, la respuesta a preguntas y las matemáticas. Nuestro código está disponible en https://github.com/lucywang720/model-surgery.
Presentamos H2O-Danube3, una serie de pequeños modelos de lenguaje que consta de H2O-Danube3-4B, entrenado en 6T tokens y H2O-Danube3-500M, entrenado en 4T tokens. Nuestros modelos están pre-entrenados en datos web de alta calidad que consisten principalmente en tokens en inglés en tres etapas con diferentes combinaciones de datos antes de la afinación supervisada final para la versión de chat. Los modelos muestran métricas altamente competitivas en una multitud de benchmarks académicos, de chat y de ajuste fino. Gracias a su arquitectura compacta, H2O-Danube3 puede ejecutarse eficientemente en un smartphone moderno, lo que permite inferencias locales y capacidades de procesamiento rápido incluso en dispositivos móviles. Ponemos todos los modelos a disposición de forma abierta bajo la licencia Apache 2.0, democratizando aún más los LLMs para una audiencia más amplia económicamente.
La generación automática de juegos novedosos e interesantes es una tarea compleja. Los desafíos incluyen representar las reglas del juego en una forma computacionalmente viable, buscar a través del amplio espacio de juegos potenciales bajo la mayoría de esas representaciones, y evaluar con precisión la originalidad y calidad de juegos previamente no vistos. Trabajos anteriores en la generación automatizada de juegos se han centrado en gran medida en representaciones de reglas relativamente restringidas y han dependido de heurísticas específicas del dominio. En este trabajo, exploramos la generación de juegos novedosos en el comparativamente expansivo lenguaje de descripción de juegos Ludii, que codifica las reglas de más de 1000 juegos de mesa en una variedad de estilos y modos de juego. Nos inspiramos en avances recientes en modelos de lenguaje grandes y en computación evolutiva para entrenar un modelo que muta y recombina inteligentemente juegos y mecánicas expresadas como código. Demostramos tanto cuantitativa como cualitativamente que nuestro enfoque es capaz de generar juegos nuevos e interesantes, incluso en regiones del espacio de reglas potenciales no cubiertas por juegos existentes en el conjunto de datos de Ludii. Una muestra de los juegos generados está disponible para jugar en línea a través del portal de Ludii.
A pesar de su casi adopción universal en grandes modelos de lenguaje, no se comprenden bien los mecanismos internos de los transformadores. Nuestro objetivo es comprender mejor el impacto de eliminar o reorganizar la información a lo largo de las capas de un transformador preentrenado. Dicha comprensión podría conducir tanto a un mejor uso de los modelos existentes como a realizar mejoras arquitectónicas para producir nuevas variantes. Presentamos una serie de estudios empíricos sobre modelos congelados que muestran que las capas inferiores y finales de los transformadores preentrenados difieren de las capas intermedias, pero que las capas intermedias tienen una cantidad sorprendente de uniformidad. Además, demostramos que algunas clases de problemas son robustas a saltarse capas, ejecutar las capas en un orden diferente al de su entrenamiento, o ejecutar las capas en paralelo. Nuestras observaciones sugieren que incluso los modelos preentrenados congelados pueden intercambiar con elegancia precisión por latencia al saltar capas o ejecutarlas en paralelo.
Los recientes avances en campos de radiación han abierto nuevas vías para crear activos y escenas 3D de alta calidad. La transferencia de estilo puede mejorar estos activos 3D con diversos estilos artísticos, transformando la expresión creativa. Sin embargo, las técnicas existentes a menudo son lentas o no pueden localizar la transferencia de estilo a objetos específicos. Presentamos StyleSplat, un método ligero para estilizar objetos 3D en escenas representadas por gaussianas 3D a partir de imágenes de estilo de referencia. Nuestro enfoque primero aprende una representación fotorrealista de la escena utilizando splatting gaussiano 3D mientras segmenta de manera conjunta objetos 3D individuales. Luego utilizamos una pérdida de coincidencia de características de vecino más cercano para refinar las gaussianas de los objetos seleccionados, alineando sus coeficientes armónicos esféricos con la imagen de estilo para garantizar consistencia y atractivo visual. StyleSplat permite una transferencia de estilo rápida y personalizable, así como una estilización localizada de múltiples objetos dentro de una escena, cada uno con un estilo diferente. Demostramos su efectividad en diversas escenas 3D y estilos, mostrando un control y personalización mejorados en la creación 3D.
La búsqueda de respuestas a preguntas dentro de extensos artículos científicos es un área crucial de estudio que ayuda a los lectores a abordar rápidamente sus consultas. Sin embargo, los conjuntos de datos de preguntas y respuestas (QA) existentes basados en documentos científicos son limitados en escala y se centran únicamente en el contenido textual. Para abordar esta limitación, presentamos SPIQA (Scientific Paper Image Question Answering), el primer conjunto de datos de QA a gran escala diseñado específicamente para interpretar figuras y tablas complejas dentro del contexto de artículos de investigación científica en diversas áreas de la informática. Aprovechando la amplitud de experiencia y la capacidad de los modelos de lenguaje multimodales grandes (MLLMs) para comprender figuras, empleamos una curación automática y manual para crear el conjunto de datos. Diseñamos una tarea de búsqueda de información que involucra múltiples imágenes que abarcan una amplia variedad de gráficos, tablas, diagramas esquemáticos y visualizaciones de resultados. SPIQA consta de 270K preguntas divididas en conjuntos de entrenamiento, validación y tres divisiones de evaluación diferentes. A través de experimentos extensos con 12 modelos fundamentales prominentes, evaluamos la capacidad de los sistemas multimodales actuales para comprender los aspectos matizados de los artículos de investigación. Además, proponemos una estrategia de evaluación Chain-of-Thought (CoT) con recuperación en contexto que permite una evaluación detallada y paso a paso, mejorando el rendimiento del modelo. Exploramos además los límites superiores de mejora del rendimiento con información textual adicional, resaltando su potencial prometedor para futuras investigaciones y el impacto del conjunto de datos en la revolución de la interacción con la literatura científica.
En el pasado, los grandes modelos de lenguaje típicamente han dependido de alguna forma de aprendizaje por refuerzo con retroalimentación humana (RLHF) para alinear mejor las respuestas del modelo con las preferencias humanas. Sin embargo, debido a las inestabilidades a menudo observadas al implementar estos procesos RLHF, recientemente se han introducido diversas técnicas de reparametrización para evitar la necesidad de aprender por separado un modelo de recompensa RL. En su lugar, el ajuste directo a las preferencias humanas se logra mediante la minimización de un único objetivo de entrenamiento en forma cerrada, un proceso originalmente denominado optimización directa de preferencias (DPO) seguido por varios descendientes notables. Aunque efectivo en ciertos entornos del mundo real, presentamos nuevos criterios de evaluación que sirven para resaltar deficiencias no resueltas en la capacidad de los métodos DPO existentes para interpolar entre un modelo de referencia preentrenado y medidas empíricas de preferencias humanas, así como compromisos inevitables en la regularización de respuestas de baja y alta calidad y en el manejo de restricciones. Nuestros hallazgos motivan entonces una pérdida similar a DPO alternativa que mitiga de manera comprobada estas limitaciones. Los resultados empíricos sirven para corroborar aspectos notables de nuestros análisis.
La inferencia de contexto largo presenta desafíos a nivel del sistema con mayores requisitos de cálculo y memoria, así como desde una perspectiva de precisión en la capacidad de razonar sobre contextos extensos. Recientemente, se han propuesto varios métodos para comprimir la indicación a fin de reducir la longitud del contexto. Sin embargo, ha habido poco trabajo en comparar los diferentes métodos propuestos en distintas tareas a través de un análisis estandarizado. Esto ha dado lugar a resultados contradictorios. Para abordar esto, aquí realizamos una caracterización y evaluación exhaustiva de diferentes métodos de compresión de indicaciones. En particular, analizamos la compresión extractiva, la compresión abtractiva basada en resúmenes y los métodos de poda de tokens. Sorprendentemente, encontramos que la compresión extractiva a menudo supera a todos los demás enfoques y permite una compresión de hasta 10 veces con una degradación mínima de la precisión. Curiosamente, también descubrimos que, a pesar de varias afirmaciones recientes, los métodos de poda de tokens a menudo quedan rezagados detrás de la compresión extractiva. Solo encontramos mejoras marginales en tareas de resumen.
Es demasiado pronto para concluir que Mamba es una mejor alternativa a los transformadores para el habla antes de comparar Mamba con los transformadores en términos de rendimiento y eficiencia en múltiples tareas relacionadas con el habla. Para llegar a esta conclusión, proponemos y evaluamos tres modelos para tres tareas: Mamba-TasNet para separación de habla, ConMamba para reconocimiento de habla y VALL-M para síntesis de habla. Los comparamos con transformadores de tamaños similares en rendimiento, memoria y velocidad. Nuestros modelos híbridos Mamba o Mamba-transformer muestran un rendimiento comparable o superior a sus contrapartes transformadoras: Sepformer, Conformer y VALL-E. Son más eficientes que los transformadores en memoria y velocidad para habla de duración superior a un umbral, inversamente relacionado con la resolución de un token de habla. Mamba para separación es el más eficiente, y Mamba para reconocimiento es el menos eficiente. Además, demostramos que Mamba no es más eficiente que el transformador para habla de duración inferior al umbral y tiene un rendimiento inferior en modelos que requieren modelado conjunto de texto y habla, como la atención cruzada o enmascarada de dos entradas. Por lo tanto, argumentamos que la superioridad de Mamba o del transformador depende de problemas y modelos particulares. Código disponible en https://github.com/xi-j/Mamba-TasNet y https://github.com/xi-j/Mamba-ASR.
Los modelos de difusión de animación de imágenes humanas impulsados por poses han demostrado capacidades notables en la síntesis realista de videos humanos. A pesar de los resultados prometedores logrados por enfoques anteriores, persisten desafíos en lograr una animación temporalmente consistente y garantizar la robustez con detectores de poses listos para usar. En este artículo, presentamos TCAN, un método de animación de imágenes humanas impulsado por poses que es robusto a poses erróneas y consistente en el tiempo. En contraste con métodos anteriores, utilizamos el ControlNet pre-entrenado sin ajuste fino para aprovechar su extenso conocimiento preadquirido de numerosos pares de poses-imágenes-leyendas. Para mantener el ControlNet congelado, adaptamos LoRA a las capas de UNet, permitiendo que la red alinee el espacio latente entre las características de pose y apariencia. Además, al introducir una capa temporal adicional al ControlNet, mejoramos la robustez contra valores atípicos del detector de poses. A través del análisis de mapas de atención en el eje temporal, también diseñamos un mapa de temperatura novedoso aprovechando la información de poses, lo que permite un fondo más estático. Experimentos extensos demuestran que el método propuesto puede lograr resultados prometedores en tareas de síntesis de video que abarcan diversas poses, como chibi. Página del Proyecto: https://eccv2024tcan.github.io/
Los avances recientes en modelos de recuperación mejorados para la generación de subtítulos de imágenes resaltan el beneficio de recuperar subtítulos relacionados para modelos eficientes y ligeros con sólidas capacidades de transferencia de dominio. Aunque estos modelos demuestran el éxito de la mejora mediante recuperación, los modelos de recuperación aún distan de ser perfectos en la práctica: la información recuperada a veces puede inducir al error al modelo, resultando en generaciones incorrectas y un peor rendimiento. En este documento, analizamos la robustez de un modelo de generación de subtítulos mejorado por recuperación llamado SmallCap. Nuestro análisis muestra que el modelo es sensible a los tokens que aparecen en la mayoría de los subtítulos recuperados, y la atribución de entrada muestra que es probable que esos tokens sean copiados en la salida generada. Dados estos hallazgos, proponemos entrenar el modelo mediante la selección de subtítulos recuperados de conjuntos más diversos. Esto reduce la probabilidad de que el modelo aprenda a copiar tokens mayoritarios, y mejora tanto el rendimiento en el dominio como en la transferencia entre dominios.
Este estudio aborda una brecha crítica en las prácticas de ajuste de seguridad para Modelos de Lenguaje Grandes (LLMs) al identificar y abordar un sesgo de posición de rechazo dentro de los datos de ajuste de seguridad, que compromete la capacidad de los modelos para rechazar adecuadamente la generación de contenido inseguro. Presentamos un enfoque novedoso, Entrenamiento de Rechazo Desacoplado (DeRTa), diseñado para capacitar a los LLMs a rechazar el cumplimiento de indicaciones dañinas en cualquier posición de respuesta, mejorando significativamente sus capacidades de seguridad. DeRTa incorpora dos componentes novedosos: (1) Estimación de Máxima Verosimilitud (MLE) con Prefijo de Respuesta Dañina, que entrena a los modelos para reconocer y evitar contenido inseguro al agregar un segmento de respuesta dañina al principio de una respuesta segura, y (2) Optimización de Transición Reforzada (RTO), que dota a los modelos con la capacidad de transicionar de un posible daño a un rechazo de seguridad de manera consistente a lo largo de la secuencia de respuesta dañina. Nuestra evaluación empírica, realizada utilizando las familias de modelos LLaMA3 y Mistral en seis escenarios de ataque, demuestra que nuestro método no solo mejora la seguridad del modelo sin comprometer el rendimiento, sino que también supera a modelos conocidos como GPT-4 en la defensa contra ataques. Es importante destacar que nuestro enfoque defiende con éxito métodos de ataque avanzados recientes (por ejemplo, CodeAttack) que han vulnerado GPT-4 y LLaMA3-70B-Instruct. Nuestro código y datos se pueden encontrar en https://github.com/RobustNLP/DeRTa.
La síntesis de NeRFs bajo iluminación arbitraria se ha convertido en un problema fundamental en los últimos años. Los esfuerzos recientes abordan el problema mediante la extracción de parámetros basados en la física que luego pueden ser renderizados bajo iluminación arbitraria, pero están limitados en el rango de escenas que pueden manejar, generalmente manejando de forma incorrecta escenas brillantes. Proponemos RRM, un método que puede extraer los materiales, la geometría y la iluminación del entorno de una escena incluso en presencia de objetos altamente reflectantes. Nuestro método consiste en una representación de campo de radiación físicamente consciente que informa sobre parámetros basados en la física, y una estructura de iluminación del entorno expresiva basada en una Pirámide Laplaciana. Demostramos que nuestras contribuciones superan al estado del arte en tareas de recuperación de parámetros, lo que conduce a una reiluminación de alta fidelidad y síntesis de vistas novedosas en escenas superficiales.