Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje han demostrado su eficacia en una variedad de aplicaciones de software, particularmente en tareas relacionadas con flujos de trabajo automáticos. Estos modelos poseen la capacidad crucial de llamar funciones, lo cual es esencial para crear agentes de IA. A pesar del alto rendimiento de los modelos de lenguaje a gran escala en entornos en la nube, a menudo están asociados con preocupaciones sobre privacidad y costos. Los modelos actuales en dispositivos para la llamada de funciones enfrentan problemas de latencia y precisión. Nuestra investigación presenta un nuevo método que permite a un modelo en dispositivo con 2 mil millones de parámetros superar el rendimiento de GPT-4 tanto en precisión como en latencia, y reducir la longitud del contexto en un 95\%. En comparación con Llama-7B utilizando un mecanismo de llamada de funciones basado en RAG, nuestro método mejora la latencia en 35 veces. Este método reduce la latencia a niveles considerados adecuados para su implementación en una variedad de dispositivos de borde en entornos de producción, cumpliendo con los requisitos de rendimiento para aplicaciones del mundo real.
Presentamos Eurus, un conjunto de modelos de lenguaje de gran escala (LLMs) optimizados para el razonamiento. Ajustados a partir de Mistral-7B y CodeLlama-70B, los modelos Eurus logran resultados de vanguardia entre los modelos de código abierto en un conjunto diverso de benchmarks que cubren matemáticas, generación de código y problemas de razonamiento lógico. En particular, Eurus-70B supera a GPT-3.5 Turbo en razonamiento a través de una evaluación exhaustiva en 12 pruebas que abarcan cinco tareas, y alcanza un 33.3% de precisión pass@1 en LeetCode y un 32.6% en TheoremQA, dos benchmarks desafiantes, superando sustancialmente a los modelos de código abierto existentes con márgenes superiores al 13.3%. El fuerte rendimiento de Eurus se puede atribuir principalmente a UltraInteract, nuestro nuevo conjunto de datos de alineación a gran escala y de alta calidad, específicamente diseñado para tareas de razonamiento complejo. UltraInteract puede utilizarse tanto en el ajuste fino supervisado como en el aprendizaje de preferencias. Para cada instrucción, incluye un árbol de preferencias que consta de (1) cadenas de razonamiento con diversas estrategias de planificación en un formato unificado, (2) trayectorias de interacción multiturno con el entorno y la crítica, y (3) datos pareados para facilitar el aprendizaje de preferencias. UltraInteract nos permite realizar una exploración en profundidad del aprendizaje de preferencias para tareas de razonamiento. Nuestra investigación revela que algunos algoritmos de aprendizaje de preferencias bien establecidos pueden ser menos adecuados para tareas de razonamiento en comparación con su efectividad en conversaciones generales. Inspirados por esto, derivamos un nuevo objetivo de modelado de recompensas que, junto con UltraInteract, conduce a un modelo de recompensas robusto.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado avances significativos en el manejo de secuencias largas que superan los 32K tokens. Sin embargo, la evaluación de su rendimiento se ha limitado principalmente a métricas como la perplejidad y tareas sintéticas, que pueden no capturar completamente sus capacidades en escenarios del mundo real más matizados. Este estudio introduce un punto de referencia especializado (LIConBench) centrado en el aprendizaje en contexto largo dentro del ámbito de la clasificación de etiquetas extremas. Seleccionamos meticulosamente seis conjuntos de datos con un rango de etiquetas que abarca de 28 a 174 clases, cubriendo diferentes longitudes de entrada (demostraciones few-shot) desde 2K hasta 50K. Nuestro punto de referencia requiere que los LLMs comprendan toda la entrada para reconocer los espacios masivos de etiquetas y realizar predicciones correctas. Evaluamos 13 LLMs de contexto largo en nuestros puntos de referencia. Descubrimos que los LLMs de contexto largo se desempeñan relativamente bien bajo una longitud de token de 20K, y el rendimiento se beneficia de la utilización de la ventana de contexto larga. Sin embargo, después de que la ventana de contexto supera los 20K, la mayoría de los LLMs, excepto GPT-4, experimentan una caída dramática. Esto sugiere una brecha notable en las capacidades actuales de los LLMs para procesar y comprender secuencias largas y ricas en contexto. Un análisis más profundo reveló una tendencia entre los modelos a favorecer predicciones para etiquetas presentadas hacia el final de la secuencia. Su capacidad para razonar sobre múltiples piezas en la secuencia larga aún debe mejorar. Nuestro estudio revela que la comprensión y el razonamiento de contexto largo siguen siendo una tarea desafiante para los LLMs existentes. Creemos que LIConBench podría servir como una evaluación más realista para los futuros LLMs de contexto largo.
Entrenamos un conjunto de modelos fundamentales multimodales (MMFM, por sus siglas en inglés) utilizando el popular marco LLaVA junto con la recientemente lanzada familia de modelos de lenguaje grandes (LLMs) Gemma. De particular interés es el modelo Gemma de 2B parámetros, que ofrece oportunidades para construir MMFMs de pequeña escala pero capaces. En línea con los hallazgos de otros trabajos en este ámbito, evaluamos el efecto de eliminar tres características de diseño: el preentrenamiento del conector, la utilización de un backbone de imágenes más potente y el aumento del tamaño del backbone de lenguaje. Los modelos resultantes, que denominamos LLaVA-Gemma, muestran un rendimiento moderado en una variedad de evaluaciones, pero no logran superar a los modelos SOTA de tamaño comparable actuales. Un análisis más detallado del rendimiento revela efectos mixtos: omitir el preentrenamiento tiende a reducir el rendimiento, los modelos de visión más grandes a veces mejoran el rendimiento, y aumentar el tamaño del modelo de lenguaje tiene efectos inconsistentes. Publicamos las recetas de entrenamiento, el código y los pesos de nuestros modelos LLaVA-Gemma.
La controlabilidad juega un papel crucial en la generación de videos, ya que permite a los usuarios crear contenido deseado. Sin embargo, los modelos existentes han pasado por alto en gran medida el control preciso de la pose de la cámara, que sirve como un lenguaje cinematográfico para expresar matices narrativos más profundos. Para abordar este problema, presentamos CameraCtrl, que permite un control preciso de la pose de la cámara en modelos de texto a video (T2V). Después de parametrizar con precisión la trayectoria de la cámara, se entrena un módulo de cámara plug-and-play en un modelo T2V, dejando los demás componentes intactos. Además, se lleva a cabo un estudio exhaustivo sobre el efecto de varios conjuntos de datos, sugiriendo que los videos con una distribución diversa de cámaras y apariencias similares mejoran la controlabilidad y la generalización. Los resultados experimentales demuestran la eficacia de CameraCtrl para lograr un control de cámara preciso y adaptable al dominio, marcando un avance en la búsqueda de narrativas dinámicas y personalizadas a partir de entradas de texto y pose de cámara. Nuestro sitio web del proyecto está en: https://hehao13.github.io/projects-CameraCtrl/.
Presentamos HyperCLOVA X, una familia de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) adaptados al idioma y la cultura coreana, junto con capacidades competitivas en inglés, matemáticas y programación. HyperCLOVA X fue entrenado con una mezcla equilibrada de datos en coreano, inglés y código, seguido de un ajuste por instrucción utilizando conjuntos de datos anotados por humanos de alta calidad, respetando estrictas pautas de seguridad que reflejan nuestro compromiso con la inteligencia artificial responsable. El modelo es evaluado en diversos puntos de referencia, que incluyen razonamiento integral, conocimiento, sentido común, factualidad, programación, matemáticas, conversación, seguimiento de instrucciones y ausencia de daño, tanto en coreano como en inglés. HyperCLOVA X exhibe fuertes capacidades de razonamiento en coreano respaldadas por un profundo entendimiento del idioma y los matices culturales. Un análisis adicional de su naturaleza bilingüe inherente y su extensión al multilingüismo destaca la competencia cruzada del modelo y su fuerte capacidad de generalización hacia idiomas no específicos, incluyendo la traducción automática entre varios pares de idiomas y tareas de inferencia cruzada. Creemos que HyperCLOVA X puede proporcionar una guía útil para regiones o países en el desarrollo de sus propios LLMs soberanos.
Estudiamos las propiedades de escalabilidad de los modelos de difusión latente (LDMs, por sus siglas en inglés) con un enfoque en su eficiencia de muestreo. Si bien las mejoras en la arquitectura de redes y los algoritmos de inferencia han demostrado aumentar efectivamente la eficiencia de muestreo de los modelos de difusión, el papel del tamaño del modelo —un factor crítico que determina dicha eficiencia— no ha sido examinado a fondo. A través de un análisis empírico de modelos de difusión establecidos para la generación de imágenes a partir de texto, llevamos a cabo una investigación profunda sobre cómo el tamaño del modelo influye en la eficiencia de muestreo en diferentes pasos de muestreo. Nuestros hallazgos revelan una tendencia sorprendente: cuando se opera con un presupuesto de inferencia dado, los modelos más pequeños frecuentemente superan a sus equivalentes más grandes en la generación de resultados de alta calidad. Además, extendemos nuestro estudio para demostrar la generalización de estos hallazgos al aplicar diversos muestreadores de difusión, explorar diversas tareas posteriores, evaluar modelos post-distilados, así como comparar el rendimiento en relación con el cómputo de entrenamiento. Estos descubrimientos abren nuevas vías para el desarrollo de estrategias de escalabilidad de LDMs que pueden emplearse para mejorar las capacidades generativas dentro de presupuestos de inferencia limitados.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han despertado un interés generalizado debido a su capacidad para procesar el lenguaje humano y realizar tareas en las que no han sido explícitamente entrenados. Esto es relevante para las ciencias químicas, que enfrentan el problema de conjuntos de datos pequeños y diversos que frecuentemente se presentan en forma de texto. Los LLMs han mostrado potencial para abordar estos problemas y se están utilizando cada vez más para predecir propiedades químicas, optimizar reacciones e incluso diseñar y realizar experimentos de manera autónoma. Sin embargo, todavía tenemos un entendimiento sistemático muy limitado de las capacidades de razonamiento químico de los LLMs, lo cual sería necesario para mejorar los modelos y mitigar posibles daños. Aquí presentamos "ChemBench", un marco automatizado diseñado para evaluar rigurosamente el conocimiento químico y las habilidades de razonamiento de los LLMs más avanzados en comparación con la experiencia de químicos humanos. Curaron más de 7,000 pares de preguntas y respuestas para una amplia gama de subcampos de las ciencias químicas, evaluaron los principales LLMs de código abierto y cerrado, y encontraron que los mejores modelos superaron en promedio a los mejores químicos humanos en nuestro estudio. Sin embargo, los modelos tienen dificultades con algunas tareas de razonamiento químico que son sencillas para los expertos humanos y proporcionan predicciones excesivamente confiadas y engañosas, como sobre los perfiles de seguridad de los productos químicos. Estos hallazgos subrayan la doble realidad de que, aunque los LLMs demuestran una notable competencia en tareas químicas, es crucial realizar más investigaciones para mejorar su seguridad y utilidad en las ciencias químicas. Nuestros resultados también indican la necesidad de adaptaciones en los planes de estudio de química y resaltan la importancia de seguir desarrollando marcos de evaluación para mejorar la seguridad y utilidad de los LLMs.
El preentrenamiento de los modelos de lenguaje más avanzados ahora requiere billones de palabras de texto, lo que es órdenes de magnitud mayor que lo disponible para la gran mayoría de los idiomas. Si bien incluir texto en más de un idioma es una forma obvia de obtener más datos de preentrenamiento, el multilingüismo a menudo se considera una maldición, y la mayoría de los esfuerzos de entrenamiento de modelos continúan enfocándose casi exclusivamente en idiomas individuales de gran tamaño. Creemos que el multilingüismo puede ser una bendición y que debería ser posible mejorar sustancialmente las capacidades de los modelos monolingües para idiomas pequeños mediante el entrenamiento multilingüe. En este estudio, presentamos Poro 34B, un modelo de 34 mil millones de parámetros entrenado con 1 billón de tokens de finlandés, inglés y lenguajes de programación, y demostramos que un enfoque de entrenamiento multilingüe puede producir un modelo que no solo avanza sustancialmente sobre las capacidades de los modelos existentes para el finlandés, sino que también sobresale en traducción y es competitivo en su clase en la generación de inglés y lenguajes de programación. Publicamos los parámetros del modelo, scripts y datos bajo licencias abiertas en https://huggingface.co/LumiOpen/Poro-34B.
Proponemos 3D Congealing, un problema novedoso de alineación 3D-consciente para imágenes 2D que capturan objetos semánticamente similares. Dada una colección de imágenes de Internet sin etiquetar, nuestro objetivo es asociar las partes semánticas compartidas de las entradas y agregar el conocimiento de las imágenes 2D a un espacio canónico 3D compartido. Introducimos un marco general que aborda la tarea sin asumir plantillas de formas, poses o cualquier parámetro de cámara. En su núcleo se encuentra una representación canónica 3D que encapsula información geométrica y semántica. El marco optimiza la representación canónica junto con la pose para cada imagen de entrada y un mapa de coordenadas por imagen que transforma las coordenadas de píxeles 2D al marco canónico 3D para tener en cuenta la coincidencia de formas. El procedimiento de optimización fusiona el conocimiento previo de un modelo generativo de imágenes preentrenado y la información semántica de las imágenes de entrada. El primero proporciona una guía de conocimiento sólida para esta tarea sub-restringida, mientras que el segundo aporta la información necesaria para mitigar el sesgo de los datos de entrenamiento del modelo preentrenado. Nuestro marco puede utilizarse para diversas tareas, como la coincidencia de correspondencias, la estimación de poses y la edición de imágenes, logrando resultados sólidos en conjuntos de datos de imágenes del mundo real bajo condiciones de iluminación desafiantes y en colecciones de imágenes en línea en entornos no controlados.
Presentamos LLM-ABR, el primer sistema que utiliza las capacidades generativas de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para diseñar de manera autónoma algoritmos de tasa de bits adaptativa (ABR, por sus siglas en inglés) adaptados a diversas características de red. Operando dentro de un marco de aprendizaje por refuerzo, LLM-ABR permite a los LLMs diseñar componentes clave como estados y arquitecturas de redes neuronales. Evaluamos LLM-ABR en diversos entornos de red, incluyendo banda ancha, satélite, 4G y 5G. LLM-ABR supera consistentemente a los algoritmos ABR predeterminados.