Artículos de investigación en IA seleccionados diariamente con traducciones
El entrenamiento de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) presenta desafíos significativos de memoria, principalmente debido al creciente tamaño de los pesos y los estados del optimizador. Los enfoques comunes para reducir la memoria, como la adaptación de bajo rango (LoRA), añaden una matriz de bajo rango entrenable a los pesos preentrenados congelados en cada capa, reduciendo los parámetros entrenables y los estados del optimizador. Sin embargo, estos enfoques suelen tener un rendimiento inferior al entrenamiento con pesos de rango completo tanto en las etapas de preentrenamiento como de ajuste fino, ya que limitan la búsqueda de parámetros a un subespacio de bajo rango y alteran la dinámica del entrenamiento, además de que pueden requerir un inicio cálido con rango completo. En este trabajo, proponemos Proyección de Bajo Rango de Gradiente (GaLore), una estrategia de entrenamiento que permite el aprendizaje de parámetros completos pero es más eficiente en memoria que los métodos comunes de adaptación de bajo rango como LoRA. Nuestro enfoque reduce el uso de memoria hasta un 65.5% en los estados del optimizador, manteniendo tanto la eficiencia como el rendimiento en el preentrenamiento de las arquitecturas LLaMA 1B y 7B con el conjunto de datos C4 con hasta 19.7 mil millones de tokens, y en el ajuste fino de RoBERTa en tareas de GLUE. Nuestra versión de 8 bits de GaLore reduce aún más la memoria del optimizador hasta un 82.5% y la memoria total de entrenamiento en un 63.3%, en comparación con una línea base BF16. Notablemente, demostramos, por primera vez, la viabilidad de preentrenar un modelo de 7B en GPUs de consumo con 24GB de memoria (por ejemplo, NVIDIA RTX 4090) sin estrategias de paralelismo de modelos, checkpointing o descarga.
In this paper, we introduce SaulLM-7B, a large language model (LLM) tailored for the legal domain. With 7 billion parameters, SaulLM-7B is the first LLM designed explicitly for legal text comprehension and generation. Leveraging the Mistral 7B architecture as its foundation, SaulLM-7B is trained on an English legal corpus of over 30 billion tokens. SaulLM-7B exhibits state-of-the-art proficiency in understanding and processing legal documents. Additionally, we present a novel instructional fine-tuning method that leverages legal datasets to further enhance SaulLM-7B's performance in legal tasks. SaulLM-7B is released under the CC-BY-SA-4.0 License.
A medida que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) continúan avanzando en rendimiento, su tamaño ha aumentado significativamente, con los LLMs actuales conteniendo miles de millones o incluso billones de parámetros. Sin embargo, en este estudio, descubrimos que muchas capas de los LLMs presentan una alta similitud, y algunas capas desempeñan un papel insignificante en la funcionalidad de la red. Basándonos en esta observación, definimos una métrica llamada Influencia de Bloque (BI, por sus siglas en inglés) para evaluar la importancia de cada capa en los LLMs. Luego, proponemos un enfoque de poda sencillo: la eliminación de capas, en el cual eliminamos directamente las capas redundantes en los LLMs según sus puntuaciones de BI. Los experimentos demuestran que nuestro método, al que llamamos ShortGPT, supera significativamente a los métodos anteriores de última generación (SOTA, por sus siglas en inglés) en la poda de modelos. Además, ShortGPT es ortogonal a métodos de cuantización, lo que permite una mayor reducción en los parámetros y el cómputo. La capacidad de lograr mejores resultados mediante la simple eliminación de capas, en lugar de técnicas de poda más complejas, sugiere un alto grado de redundancia en la arquitectura del modelo.
En este artículo, presentamos PixArt-Σ, un modelo de Transformador de Difusión (DiT) capaz de generar imágenes directamente en resolución 4K. PixArt-Σ representa un avance significativo respecto a su predecesor, PixArt-α, ofreciendo imágenes con una fidelidad notablemente mayor y una mejor alineación con las indicaciones de texto. Una característica clave de PixArt-Σ es su eficiencia en el entrenamiento. Aprovechando el pre-entrenamiento fundamental de PixArt-α, evoluciona desde una línea base "más débil" hacia un modelo "más fuerte" mediante la incorporación de datos de mayor calidad, un proceso que denominamos "entrenamiento de débil a fuerte". Los avances en PixArt-Σ son dobles: (1) Datos de Entrenamiento de Alta Calidad: PixArt-Σ incorpora datos de imagen de calidad superior, emparejados con descripciones de imagen más precisas y detalladas. (2) Compresión Eficiente de Tokens: proponemos un nuevo módulo de atención dentro del marco DiT que comprime tanto claves como valores, mejorando significativamente la eficiencia y facilitando la generación de imágenes en ultra alta resolución. Gracias a estas mejoras, PixArt-Σ logra una calidad de imagen superior y una mejor adherencia a las indicaciones del usuario con un tamaño de modelo significativamente menor (0.6 mil millones de parámetros) en comparación con los modelos de difusión de texto a imagen existentes, como SDXL (2.6 mil millones de parámetros) y SD Cascade (5.1 mil millones de parámetros). Además, la capacidad de PixArt-Σ para generar imágenes en 4K respalda la creación de pósteres y fondos de pantalla de alta resolución, impulsando eficientemente la producción de contenido visual de alta calidad en industrias como el cine y los videojuegos.
Proponemos un método para enseñar a múltiples modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) a colaborar intercalando sus generaciones a nivel de tokens. Modelamos la decisión de qué LLM genera el siguiente token como una variable latente. Al optimizar la verosimilitud marginal de un conjunto de entrenamiento bajo nuestro modelo de variable latente, el LLM base aprende automáticamente cuándo generar por sí mismo y cuándo invocar a uno de los modelos de lenguaje "asistentes" para generar, todo sin supervisión directa. La colaboración a nivel de tokens durante la decodificación permite una fusión de la experiencia de cada modelo de manera adaptada a la tarea específica en cuestión. Nuestra decodificación colaborativa es especialmente útil en entornos interdominio, donde un LLM base generalista aprende a invocar modelos expertos en dominios específicos. En tareas de seguimiento de instrucciones, preguntas y respuestas específicas de dominio y razonamiento, demostramos que el rendimiento del sistema conjunto supera al de los modelos individuales. A través de un análisis cualitativo de las decisiones latentes aprendidas, mostramos que los modelos entrenados con nuestro método exhiben varios patrones interesantes de colaboración, como el llenado de plantillas. Nuestro código está disponible en https://github.com/clinicalml/co-llm.
Proponemos el pre-entrenamiento Fuertemente Supervisado con Capturas de Pantalla (S4), un nuevo paradigma de pre-entrenamiento para Modelos de Visión-Lenguaje utilizando datos de renderizado a gran escala de capturas de pantalla web. El uso de capturas de pantalla web desbloquea un tesoro de señales visuales y textuales que no están presentes en los pares imagen-texto. En S4, aprovechamos la jerarquía inherente de estructura de árbol de los elementos HTML y la localización espacial para diseñar cuidadosamente 10 tareas de pre-entrenamiento con datos anotados a gran escala. Estas tareas se asemejan a tareas posteriores en diferentes dominios y las anotaciones son económicas de obtener. Demostramos que, en comparación con los objetivos actuales de pre-entrenamiento con capturas de pantalla, nuestro método innovador de pre-entrenamiento mejora significativamente el rendimiento del modelo de imagen a texto en nueve tareas posteriores variadas y populares, con mejoras de hasta el 76.1% en Detección de Tablas y al menos un 1% en Subtitulación de Widgets.
Las funciones de valor son un componente central del aprendizaje por refuerzo profundo (RL, por sus siglas en inglés). Estas funciones, parametrizadas por redes neuronales, se entrenan utilizando un objetivo de regresión de error cuadrático medio para igualar valores objetivo obtenidos mediante bootstrapping. Sin embargo, escalar métodos de RL basados en valor que utilizan regresión en redes grandes, como Transformers de alta capacidad, ha resultado ser un desafío. Esta dificultad contrasta marcadamente con el aprendizaje supervisado: al aprovechar una pérdida de clasificación de entropía cruzada, los métodos supervisados han escalado de manera confiable a redes masivas. Observando esta discrepancia, en este artículo investigamos si la escalabilidad del RL profundo también puede mejorarse simplemente utilizando clasificación en lugar de regresión para entrenar funciones de valor. Demostramos que las funciones de valor entrenadas con entropía cruzada categórica mejoran significativamente el rendimiento y la escalabilidad en una variedad de dominios. Estos incluyen: RL de tarea única en juegos de Atari 2600 con SoftMoEs, RL multitarea en Atari con ResNets a gran escala, manipulación robótica con Q-transformers, jugar ajedrez sin búsqueda y una tarea de lenguaje con el juego Wordle utilizando Transformers de alta capacidad, logrando resultados de vanguardia en estos dominios. A través de un análisis cuidadoso, mostramos que los beneficios de la entropía cruzada categórica provienen principalmente de su capacidad para mitigar problemas inherentes al RL basado en valor, como objetivos ruidosos y no estacionariedad. En general, argumentamos que un simple cambio hacia el entrenamiento de funciones de valor con entropía cruzada categórica puede generar mejoras sustanciales en la escalabilidad del RL profundo con poco o ningún costo adicional.
El modelado de secuencias a gran escala ha impulsado avances rápidos que ahora se extienden a la biología y la genómica. Sin embargo, el modelado de secuencias genómicas introduce desafíos como la necesidad de modelar interacciones de tokens de largo alcance, los efectos de las regiones aguas arriba y aguas abajo del genoma, y la complementariedad inversa (RC) del ADN. Aquí, proponemos una arquitectura motivada por estos desafíos que se basa en el bloque Mamba de largo alcance, y lo extiende a un componente BiMamba que admite bidireccionalidad, y a un bloque MambaDNA que además admite equivariancia RC. Utilizamos MambaDNA como base de Caduceus, la primera familia de modelos de lenguaje de ADN de largo alcance bidireccionales y RC-equivariantes, e introducimos estrategias de preentrenamiento y ajuste fino que dan lugar a los modelos fundacionales de ADN Caduceus. Caduceus supera a los modelos anteriores de largo alcance en puntos de referencia posteriores; en una tarea desafiante de predicción de efectos de variantes de largo alcance, Caduceus supera el rendimiento de modelos 10 veces más grandes que no aprovechan la bidireccionalidad o la equivariancia.
El aprendizaje por imitación ofrece una forma eficiente de enseñar habilidades diestras a los robots; sin embargo, aprender habilidades complejas de manera robusta y generalizable suele consumir grandes cantidades de demostraciones humanas. Para abordar este problema desafiante, presentamos 3D Diffusion Policy (DP3), un novedoso enfoque de aprendizaje por imitación visual que incorpora el poder de las representaciones visuales 3D en políticas de difusión, una clase de modelos generativos de acciones condicionales. El diseño central de DP3 es la utilización de una representación visual 3D compacta, extraída de nubes de puntos dispersas mediante un codificador de puntos eficiente. En nuestros experimentos que involucran 72 tareas de simulación, DP3 maneja con éxito la mayoría de las tareas con solo 10 demostraciones y supera a los métodos de referencia con una mejora relativa del 55.3%. En 4 tareas con robots reales, DP3 demuestra un control preciso con una alta tasa de éxito del 85%, dado solo 40 demostraciones de cada tarea, y muestra excelentes capacidades de generalización en diversos aspectos, incluyendo espacio, punto de vista, apariencia e instancia. Curiosamente, en los experimentos con robots reales, DP3 rara vez viola los requisitos de seguridad, en contraste con los métodos de referencia que lo hacen con frecuencia, lo que requiere intervención humana. Nuestra evaluación extensa resalta la importancia crítica de las representaciones 3D en el aprendizaje de robots en el mundo real. Videos, código y datos están disponibles en https://3d-diffusion-policy.github.io.
Muchos portales de contenido en línea permiten a los usuarios hacer preguntas para complementar su comprensión (por ejemplo, de conferencias). Si bien los sistemas de recuperación de información (IR) pueden proporcionar respuestas a dichas consultas de los usuarios, no ayudan directamente a los creadores de contenido —como los conferencistas que desean mejorar su material— a identificar los segmentos que _causaron_ que un usuario hiciera esas preguntas. Introducimos la tarea de retroseguimiento (backtracing), en la que los sistemas recuperan el segmento de texto que más probablemente causó una consulta del usuario. Formalizamos tres dominios del mundo real en los que el retroseguimiento es importante para mejorar la entrega de contenido y la comunicación: comprender la causa de (a) la confusión de los estudiantes en el dominio de Conferencias, (b) la curiosidad de los lectores en el dominio de Artículos de Noticias, y (c) la emoción del usuario en el dominio de Conversaciones. Evaluamos el rendimiento de cero disparos (zero-shot) de métodos populares de recuperación de información y modelado de lenguaje, incluyendo métodos de bi-codificador, reordenamiento y basados en verosimilitud, así como ChatGPT. Mientras que los sistemas tradicionales de IR recuperan información semánticamente relevante (por ejemplo, detalles sobre "matrices de proyección" para una consulta como "¿proyectar múltiples veces sigue llevando al mismo punto?"), a menudo pierden el contexto causalmente relevante (por ejemplo, el conferencista afirma "proyectar dos veces me da la misma respuesta que una proyección"). Nuestros resultados muestran que hay margen de mejora en el retroseguimiento y que se necesitan nuevos enfoques de recuperación. Esperamos que nuestro punto de referencia sirva para mejorar futuros sistemas de recuperación para retroseguimiento, dando lugar a sistemas que refinen la generación de contenido e identifiquen los desencadenantes lingüísticos que influyen en las consultas de los usuarios. Nuestro código y datos son de código abierto: https://github.com/rosewang2008/backtracing.