Artículos de investigación en IA seleccionados diariamente con traducciones
Este informe presenta la serie Qwen2, la última incorporación a nuestros grandes modelos de lenguaje y modelos multimodales. Lanzamos una completa gama de modelos de lenguaje fundamentales y ajustados a instrucciones, abarcando un rango de parámetros de 0.5 a 72 mil millones, que incluyen modelos densos y un modelo de Mezcla de Expertos. Qwen2 supera a la mayoría de los modelos abiertos anteriores, incluido su predecesor Qwen1.5, y muestra un rendimiento competitivo en comparación con modelos propietarios en diversos puntos de referencia en comprensión del lenguaje, generación, competencia multilingüe, codificación, matemáticas y razonamiento. El modelo insignia, Qwen2-72B, muestra un rendimiento notable: 84.2 en MMLU, 37.9 en GPQA, 64.6 en HumanEval, 89.5 en GSM8K y 82.4 en BBH como modelo de lenguaje base. La variante ajustada a instrucciones, Qwen2-72B-Instruct, logra 9.1 en MT-Bench, 48.1 en Arena-Hard y 35.7 en LiveCodeBench. Además, Qwen2 demuestra sólidas capacidades multilingües, siendo competente en aproximadamente 30 idiomas, que incluyen inglés, chino, español, francés, alemán, árabe, ruso, coreano, japonés, tailandés, vietnamita y más, destacando su versatilidad y alcance global. Para fomentar la innovación y accesibilidad en la comunidad, hemos puesto a disposición públicamente los pesos del modelo Qwen2 en Hugging Face y ModelScope, así como los materiales complementarios, que incluyen código de ejemplo en GitHub. Estas plataformas también ofrecen recursos para cuantificación, ajuste fino e implementación, facilitando una amplia gama de aplicaciones y esfuerzos de investigación.
Los grandes modelos de lenguaje (LLMs) exhiben capacidades notables en la comprensión y generación de lenguaje natural. Sin embargo, estos modelos pueden memorizar inadvertidamente información privada, lo que plantea riesgos significativos para la privacidad. Este estudio aborda el desafío de habilitar a los LLMs para proteger los datos privados de individuos específicos sin necesidad de una reentrenamiento completo. Proponemos \return, un conjunto de datos de Desaprendizaje de Datos Personales del Mundo Real, que consta de 2,492 individuos de Wikipedia con pares de preguntas y respuestas asociadas, para evaluar los métodos de desaprendizaje de máquinas (MU) para proteger datos personales en un escenario realista. Además, presentamos el Marco de Desaprendizaje Consciente de Nombres (NAUF) para la Protección de la Privacidad, que permite al modelo aprender qué información de individuos debe protegerse sin afectar su capacidad para responder preguntas relacionadas con otros individuos no relacionados. Nuestros experimentos extensos demuestran que NAUF logra una puntuación promedio de desaprendizaje de vanguardia, superando al mejor método de referencia en 5.65 puntos, protegiendo efectivamente los datos personales de los individuos objetivo mientras mantiene las capacidades generales del modelo.
Trabajos recientes han estado explorando las leyes de escala en el campo de la IA Encarnada. Dados los costos prohibitivos de recolectar datos del mundo real, creemos que el paradigma de Simulación-a-Real (Sim2Real) es un paso crucial para escalar el aprendizaje de modelos encarnados. Este documento presenta el proyecto GRUtopia, la primera sociedad interactiva simulada en 3D diseñada para varios robots. Incluye varios avances: (a) El conjunto de escenas, GRScenes, que consta de 100k escenas interactivas finamente anotadas, las cuales pueden combinarse libremente en entornos a escala de ciudad. A diferencia de trabajos anteriores que se centraban principalmente en el hogar, GRScenes abarca 89 categorías de escenas diversas, cerrando la brecha de entornos orientados al servicio donde los robots generales serían desplegados inicialmente. (b) GRResidents, un sistema de Personajes No Jugadores (NPC) impulsado por un Gran Modelo de Lenguaje (LLM) que es responsable de la interacción social, generación de tareas y asignación de tareas, simulando así escenarios sociales para aplicaciones de IA encarnada. (c) El conjunto de pruebas, GRBench, admite varios robots pero se centra en robots con patas como agentes principales y plantea tareas moderadamente desafiantes que involucran Localización de Objetos, Navegación Social y Manipulación Local. Esperamos que este trabajo pueda aliviar la escasez de datos de alta calidad en este campo y proporcionar una evaluación más completa de la investigación en IA Encarnada. El proyecto está disponible en https://github.com/OpenRobotLab/GRUtopia.
Las evaluaciones actuales de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) a menudo pasan por alto el no determinismo, centrándose típicamente en una única salida por ejemplo. Esto limita nuestra comprensión de la variabilidad del rendimiento de los LLM en aplicaciones del mundo real. Nuestro estudio aborda este problema explorando preguntas clave sobre las diferencias de rendimiento entre la decodificación codiciosa y el muestreo, identificando la consistencia de los puntos de referencia con respecto al no determinismo y examinando comportamientos únicos del modelo. A través de experimentos extensos, observamos que la decodificación codiciosa generalmente supera a los métodos de muestreo para la mayoría de las tareas evaluadas. También observamos un rendimiento consistente en diferentes tamaños de LLM y métodos de alineación, notando que la alineación puede reducir la varianza del muestreo. Además, nuestro enfoque de muestreo de mejor de N muestra que los LLM más pequeños pueden igualar o superar a modelos más grandes como el GPT-4-Turbo, resaltando el potencial no explorado de los LLM más pequeños. Esta investigación muestra la importancia de considerar el no determinismo en las evaluaciones de LLM y proporciona ideas para el desarrollo y evaluación futura de LLM.
Presentamos Q-Sparse, un enfoque simple pero efectivo para entrenar modelos de lenguaje grandes (LLMs) con activación dispersa. Q-Sparse permite la plena dispersión de activaciones en LLMs, lo que puede aportar ganancias significativas en eficiencia en la inferencia. Esto se logra aplicando la esparsificación top-K a las activaciones y el estimador de paso directo al entrenamiento. Los resultados clave de este trabajo son: (1) Q-Sparse puede lograr resultados comparables a los de LLMs de referencia siendo mucho más eficiente en el tiempo de inferencia; (2) Presentamos una ley de escala óptima para la inferencia de LLMs con activación dispersa; (3) Q-Sparse es efectivo en diferentes escenarios, incluyendo el entrenamiento desde cero, la continuación del entrenamiento de LLMs listos para usar y el ajuste fino; (4) Q-Sparse funciona tanto para LLMs de precisión completa como para LLMs de 1 bit (por ejemplo, BitNet b1.58). En particular, la sinergia de BitNet b1.58 y Q-Sparse (que puede estar equipado con MoE) proporciona el fundamento y un camino claro para revolucionar la eficiencia, incluyendo costos y consumo de energía, de los futuros LLMs.
A medida que avanzan los modelos de lenguaje grandes (LLMs), se vuelve más desafiante evaluar de manera confiable su producción debido a los altos costos de la evaluación humana. Para avanzar hacia mejores autorrevisores de LLM, presentamos FLAMe, una familia de Modelos Autorrevisores Grandes Fundamentales. FLAMe se entrena en nuestra amplia y diversa colección de más de 100 tareas de evaluación de calidad que comprenden más de 5 millones de juicios humanos, curados y estandarizados utilizando evaluaciones humanas públicamente liberadas de investigaciones previas. FLAMe mejora significativamente la generalización a una amplia variedad de tareas excluidas, superando a los LLMs entrenados en datos propietarios como GPT-4 y Claude-3 en muchas tareas. Mostramos que FLAMe también puede servir como un punto de partida poderoso para un ajuste fino adicional aguas abajo, utilizando la evaluación de modelado de recompensa como un estudio de caso (FLAMe-RM). Notablemente, en RewardBench, nuestro modelo FLAMe-RM-24B (con una precisión del 87.8%) es el modelo generativo con mejor rendimiento entrenado exclusivamente en datos con licencia permisiva, superando tanto a GPT-4-0125 (85.9%) como a GPT-4o (84.7%). Además, exploramos un enfoque más eficiente computacionalmente utilizando una estrategia novedosa de ajuste fino de parche de cola para optimizar nuestra mezcla multitarea de FLAMe para la evaluación de modelado de recompensa (FLAMe-Opt-RM), ofreciendo un rendimiento competitivo en RewardBench mientras requiere aproximadamente 25 veces menos puntos de datos de entrenamiento. En general, nuestras variantes de FLAMe superan a todos los populares modelos LLM-como-Juez propietarios que consideramos en 8 de 12 bancos de pruebas de evaluación de autorrevisores, abarcando 53 tareas de evaluación de calidad, incluidos RewardBench y LLM-AggreFact. Finalmente, nuestro análisis revela que FLAMe es significativamente menos sesgado que estos modelos LLM-como-Juez en el banco de pruebas de sesgo de autorrevisor CoBBLEr, mientras identifica de manera efectiva respuestas de alta calidad para la generación de código.
¿Podemos generar una política de control para un agente utilizando solo una demostración de comportamientos deseados como indicación, tan fácilmente como crear una imagen a partir de una descripción textual? En este documento, presentamos Make-An-Agent, un generador de parámetros de política novedoso que aprovecha el poder de los modelos de difusión condicional para la generación de políticas a partir de comportamientos. Guiado por incrustaciones de comportamiento que codifican información de trayectorias, nuestro generador de políticas sintetiza representaciones de parámetros latentes, que luego pueden ser decodificados en redes de políticas. Entrenado en puntos de control de redes de políticas y sus trayectorias correspondientes, nuestro modelo de generación demuestra una versatilidad y escalabilidad notables en múltiples tareas y tiene una fuerte capacidad de generalización en tareas no vistas para producir políticas bien ejecutadas con solo unas pocas demostraciones como entradas. Mostramos su eficacia y eficiencia en varios dominios y tareas, incluidos objetivos variables, comportamientos e incluso a través de diferentes manipuladores de robots. Más allá de la simulación, desplegamos directamente políticas generadas por Make-An-Agent en robots del mundo real en tareas de locomoción.
Si bien se ha demostrado que los modelos de difusión de texto a imagen logran resultados de vanguardia en la síntesis de imágenes, aún no han probado su efectividad en aplicaciones posteriores. Trabajos anteriores han propuesto generar datos para el entrenamiento de clasificadores de imágenes con acceso limitado a datos reales. Sin embargo, estos métodos luchan por generar imágenes dentro de la distribución o representar características detalladas, lo que dificulta la generalización de los modelos de clasificación entrenados en conjuntos de datos sintéticos. Proponemos DataDream, un marco para sintetizar conjuntos de datos de clasificación que representan de manera más fiel la distribución de datos reales cuando se guían por ejemplos de pocas tomas de las clases objetivo. DataDream ajusta finamente los pesos de LoRA para el modelo de generación de imágenes en las pocas imágenes reales antes de generar los datos de entrenamiento utilizando el modelo adaptado. Luego ajustamos finamente los pesos de LoRA para CLIP utilizando los datos sintéticos para mejorar la clasificación de imágenes posteriores a enfoques anteriores en una amplia variedad de conjuntos de datos. Demostramos la eficacia de DataDream a través de experimentos extensos, superando la precisión de clasificación de vanguardia con datos de pocas tomas en 7 de 10 conjuntos de datos, siendo competitivos en los otros 3. Además, proporcionamos información sobre el impacto de varios factores, como el número de imágenes reales y generadas, así como el ajuste fino del cálculo en el rendimiento del modelo. El código está disponible en https://github.com/ExplainableML/DataDream.
La generación de video a audio (V2A) aprovecha características visuales de video exclusivamente para producir sonidos plausibles que se ajusten a la escena. Es crucial que los comienzos de los sonidos generados coincidan con las acciones visuales alineadas con ellos, de lo contrario surgen artefactos de sincronización poco naturales. Trabajos recientes han explorado la progresión de condicionar generadores de sonido en imágenes fijas y luego en características de video, centrándose en la calidad y la coincidencia semántica mientras ignoran la sincronización, o sacrificando cierta calidad para mejorar únicamente la sincronización. En este trabajo, proponemos un modelo generativo V2A, llamado MaskVAT, que interconecta un códec de audio general de alta calidad de banda completa con un modelo generativo enmascarado secuencia a secuencia. Esta combinación permite modelar tanto alta calidad de audio, coincidencia semántica y sincronización temporal al mismo tiempo. Nuestros resultados muestran que, al combinar un códec de alta calidad con las características audiovisuales pre-entrenadas adecuadas y una estructura paralela secuencia a secuencia, logramos obtener resultados altamente sincronizados por un lado, siendo competitivos con el estado del arte de modelos generativos de audio no códec. Videos de muestra y audios generados están disponibles en https://maskvat.github.io.
Introducimos una nueva familia de modelos de predicción de video diseñados para apoyar tareas de control posteriores. Llamamos a estos modelos modelos de Ocupación de Video (VOCs). Los VOCs operan en un espacio latente compacto, evitando así la necesidad de hacer predicciones sobre píxeles individuales. A diferencia de los modelos de mundo en espacio latente anteriores, los VOCs predicen directamente la distribución descontada de estados futuros en un solo paso, evitando así la necesidad de proyecciones a múltiples pasos. Mostramos que ambas propiedades son beneficiosas al construir modelos predictivos de video para su uso en control posterior. El código está disponible en https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}.
Los flujos de trabajo de ciencia de datos e ingeniería a menudo abarcan múltiples etapas, desde el almacenamiento hasta la orquestación, utilizando herramientas como BigQuery, dbt y Airbyte. A medida que los modelos de lenguaje visual (VLMs) avanzan en la comprensión multimodal y generación de código, los agentes basados en VLM podrían potencialmente automatizar estos flujos de trabajo generando consultas SQL, código Python y operaciones de GUI. Esta automatización puede mejorar la productividad de los expertos al mismo tiempo que democratiza el acceso al análisis de datos a gran escala. En este documento, presentamos Spider2-V, el primer punto de referencia de agentes multimodales centrado en flujos de trabajo profesionales de ciencia de datos e ingeniería, que incluye 494 tareas del mundo real en entornos informáticos auténticos e incorpora 20 aplicaciones profesionales de nivel empresarial. Estas tareas, derivadas de casos de uso del mundo real, evalúan la capacidad de un agente multimodal para realizar tareas relacionadas con datos escribiendo código y gestionando la GUI en sistemas de software de datos empresariales. Para equilibrar la simulación realista con la simplicidad de la evaluación, dedicamos un esfuerzo significativo al desarrollo de configuraciones automáticas para la preparación de tareas y a la cuidadosa elaboración de métricas de evaluación para cada tarea. Además, complementamos los agentes multimodales con documentos exhaustivos de estos sistemas de software de datos empresariales. Nuestra evaluación empírica revela que los agentes basados en LLM/VLM de última generación existentes no automatizan de manera confiable flujos de trabajo completos de datos (14.0% de éxito). Incluso con orientación paso a paso, estos agentes siguen teniendo un rendimiento inferior en tareas que requieren acciones de GUI detalladas y basadas en conocimiento (16.2%) e implican espacios de trabajo remotos alojados en la nube (10.6%). Esperamos que Spider2-V allane el camino para que agentes multimodales autónomos transformen la automatización de flujos de trabajo de ciencia de datos e ingeniería. Nuestro código y datos están disponibles en https://spider2-v.github.io.
Existe un amplio optimismo de que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) de vanguardia y los sistemas mejorados con LLM tienen el potencial de acelerar rápidamente el descubrimiento científico en diversas disciplinas. En la actualidad, existen muchos puntos de referencia para medir el conocimiento y el razonamiento de los LLM en preguntas científicas de estilo de libro de texto, pero pocos, si es que hay alguno, están diseñados para evaluar el rendimiento de los modelos de lenguaje en tareas prácticas requeridas para la investigación científica, como la búsqueda de literatura, la planificación de protocolos y el análisis de datos. Como un paso hacia la creación de tales puntos de referencia, presentamos el Benchmark de Biología del Agente de Lenguaje (LAB-Bench), un extenso conjunto de datos de más de 2,400 preguntas de opción múltiple para evaluar sistemas de IA en una variedad de capacidades prácticas de investigación en biología, incluyendo la recuperación y el razonamiento sobre literatura, la interpretación de figuras, el acceso y la navegación de bases de datos, y la comprensión y manipulación de secuencias de ADN y proteínas. Es importante destacar que, a diferencia de puntos de referencia científicos anteriores, esperamos que un sistema de IA que pueda lograr consistentemente altas puntuaciones en las tareas más difíciles de LAB-Bench sirva como un asistente útil para investigadores en áreas como la búsqueda de literatura y la clonación molecular. Como evaluación inicial de las capacidades emergentes de tareas científicas de los modelos de lenguaje de vanguardia, medimos el rendimiento de varios frente a nuestro punto de referencia y reportamos resultados en comparación con investigadores expertos en biología humanos. Continuaremos actualizando y ampliando LAB-Bench con el tiempo, y esperamos que sirva como una herramienta útil en el desarrollo de sistemas de investigación automatizados en el futuro. Un subconjunto público de LAB-Bench está disponible para su uso en la siguiente URL: https://huggingface.co/datasets/futurehouse/lab-bench
El aprendizaje por transferencia eficiente de parámetros (PETL) ha surgido como un campo de investigación próspero para adaptar modelos pre-entrenados grandes a tareas posteriores, reduciendo considerablemente los parámetros entrenables mientras se enfrenta a desafíos de memoria durante el ajuste fino. Para abordarlo, las series eficientes en memoria (METL) evitan propagar gradientes a través de la gran columna vertebral. Sin embargo, comprometen al depender exclusivamente de salidas intermedias congeladas y limitar la exploración exhaustiva del conocimiento previo de los modelos pre-entrenados. Además, la dependencia y redundancia entre características de capas cruzadas se pasan por alto con frecuencia, sumergiendo representaciones más discriminativas y causando una brecha de rendimiento inherente (vs. métodos PETL convencionales). Por lo tanto, proponemos una estrategia METL innovadora llamada SHERL para escenarios con recursos limitados para desvincular toda la adaptación en dos procesos sucesivos y complementarios. En la ruta temprana, las salidas intermedias se consolidan a través de una operación anti-redundancia, mejorando su compatibilidad para interacciones posteriores; así, en la ruta tardía, el uso de capas pre-entrenadas tardías mínimas podría aliviar la demanda máxima en la sobrecarga de memoria y regular estas características bastante flexibles en representaciones más adaptativas y poderosas para nuevos dominios. Abundantes abstracciones en tareas de visión y lenguaje y solo lenguaje muestran que SHERL combina las fortalezas de ambas técnicas eficientes en parámetros y memoria, desempeñándose al mismo nivel o mejor en diversas arquitecturas con menor memoria durante el ajuste fino. Nuestro código está disponible públicamente en: https://github.com/Paranioar/SHERL.
El Efecto de Refuerzo Mutuo (ERM) representa una vía prometedora en la investigación de extracción de información y multitarea. Sin embargo, su aplicabilidad se ha visto limitada debido a la disponibilidad exclusiva de conjuntos de datos mixtos de ERM en japonés, lo que restringe la exploración exhaustiva por parte de la comunidad de investigación global. Para abordar esta limitación, presentamos un conjunto de datos mixto de ERM multilingüe (MMM) que abarca 21 subconjuntos de datos en inglés, japonés y chino. En este artículo, también proponemos un método para la traducción de conjuntos de datos asistida por Modelos de Lenguaje Grandes (LLMs), que reduce significativamente el tiempo de anotación manual requerido para la construcción del conjunto de datos al aprovechar los LLMs para traducir los conjuntos de datos originales en japonés. Además, hemos enriquecido el conjunto de datos incorporando tareas de Reconocimiento de Entidades Nombradas (NER) de dominio abierto y clasificación de oraciones. Utilizando este conjunto de datos ampliado, desarrollamos un marco de entrada-salida unificado para entrenar un Modelo de Lenguaje Grande de Extracción de Información de Dominio Abierto (OIELLM). El modelo OIELLM demuestra la capacidad de procesar de manera efectiva los nuevos conjuntos de datos MMM, mostrando mejoras significativas en el rendimiento.
La mayoría de los grandes modelos de lenguaje (LLMs) actualmente desplegados se someten a entrenamiento continuo o ajustes adicionales. En contraste, la mayoría de la investigación sobre los mecanismos internos de los LLMs se centra en modelos en un solo momento en el tiempo (al final del pre-entrenamiento), lo que plantea la pregunta de si sus resultados se generalizan a entornos del mundo real. Los estudios existentes sobre los mecanismos a lo largo del tiempo se centran en modelos solo de codificador o modelos simplificados, que difieren significativamente de la mayoría de los modelos desplegados. En este estudio, seguimos cómo los mecanismos del modelo, operacionalizados como circuitos, emergen y evolucionan a lo largo de 300 mil millones de tokens de entrenamiento en LLMs solo de decodificador, en modelos que van desde 70 millones hasta 2.8 mil millones de parámetros. Descubrimos que las habilidades de la tarea y los componentes funcionales que las respaldan emergen de manera consistente en recuentos de tokens similares a lo largo de la escala. Además, aunque estos componentes pueden ser implementados por diferentes cabezas de atención con el tiempo, el algoritmo principal que implementan permanece. Sorprendentemente, tanto estos algoritmos como los tipos de componentes involucrados en ellos pueden replicarse a lo largo de la escala del modelo. Estos resultados sugieren que los análisis de circuitos realizados en modelos pequeños al final del pre-entrenamiento pueden proporcionar ideas que siguen siendo válidas después de un pre-entrenamiento adicional y a lo largo de la escala del modelo.
Con el fin de mejorar la calidad de los videos sintetizados, actualmente, un método predominante implica el reentrenamiento de un modelo de difusión experto y luego la implementación de un proceso de ruido-denoising para el refinamiento. A pesar de los significativos costos de entrenamiento, mantener la consistencia de contenido entre los videos originales y mejorados sigue siendo un desafío importante. Para abordar este desafío, proponemos una formulación novedosa que considera tanto la calidad visual como la consistencia de contenido. La consistencia de contenido se garantiza mediante una función de pérdida propuesta que mantiene la estructura de la entrada, mientras que la calidad visual se mejora utilizando el proceso de denoising de modelos de difusión preentrenados. Para abordar el problema de optimización formulado, hemos desarrollado una estrategia de optimización de ruido plug-and-play, denominada Calibración de Ruido. Al refinar el ruido aleatorio inicial a través de algunas iteraciones, el contenido del video original puede preservarse en gran medida, y el efecto de mejora muestra una notable mejora. Experimentos extensos han demostrado la efectividad del método propuesto.