Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Recompensa de Proceso (PRMs) surgen como un enfoque prometedor para la supervisión de procesos en el razonamiento matemático de Modelos de Lenguaje Grandes (LLMs), que buscan identificar y mitigar errores intermedios en los procesos de razonamiento. Sin embargo, el desarrollo de PRMs efectivos enfrenta desafíos significativos, especialmente en la anotación de datos y metodologías de evaluación. En este documento, a través de experimentos extensos, demostramos que la síntesis de datos basada en estimaciones de Monte Carlo (MC) comúnmente utilizada para PRMs generalmente produce un rendimiento y generalización inferiores en comparación con los métodos LLM-como-juez y de anotación humana. La estimación de MC se basa en modelos de completitud para evaluar la corrección del paso actual, lo que conduce a una verificación inexacta del paso. Además, identificamos posibles sesgos en las estrategias de evaluación convencionales de Mejor-de-N (BoN) para PRMs: (1) Los modelos de política poco confiables generan respuestas con respuestas correctas pero procesos defectuosos, lo que lleva a un desajuste entre los criterios de evaluación de BoN y los objetivos de PRM de verificación de procesos. (2) La tolerancia de los PRMs a tales respuestas conduce a puntajes inflados de BoN. (3) Los PRMs existentes tienen una proporción significativa de puntajes mínimos concentrados en los pasos de respuesta finales, revelando el cambio de una evaluación basada en procesos a una basada en resultados en PRMs Optimizados de BoN. Para abordar estos desafíos, desarrollamos un mecanismo de filtrado de consenso que integra efectivamente la estimación de MC con LLM-como-juez y aboga por un marco de evaluación más completo que combina métricas a nivel de respuesta y de paso. Basándonos en estos mecanismos, mejoramos significativamente tanto el rendimiento del modelo como la eficiencia de los datos en la evaluación de BoN y la tarea de identificación de errores paso a paso. Finalmente, lanzamos un nuevo PRM de vanguardia que supera a las alternativas de código abierto existentes y proporciona pautas prácticas para futuras investigaciones en la construcción de modelos de supervisión de procesos.
Escalar modelos de lenguaje para manejar secuencias de entrada más largas típicamente requiere grandes cachés de clave-valor (KV), lo que resulta en una sobrecarga de memoria sustancial durante la inferencia. En este documento, proponemos Atención de Producto Tensorial (TPA), un mecanismo de atención novedoso que utiliza descomposiciones tensoriales para representar de manera compacta consultas, claves y valores, reduciendo significativamente el tamaño del caché KV en tiempo de inferencia. Al factorizar estas representaciones en componentes contextuales de rango bajo (factorización contextual) e integrarse perfectamente con RoPE, TPA logra una calidad de modelo mejorada junto con eficiencia de memoria. Basándonos en TPA, presentamos el Transformador de Atención de Producto Tensorial (T6), una nueva arquitectura de modelo para modelado de secuencias. A través de una extensa evaluación empírica de tareas de modelado de lenguaje, demostramos que T6 supera el rendimiento de los baselines estándar del Transformador, incluyendo MHA, MQA, GQA y MLA en varios métricas, incluyendo perplejidad y una variedad de reconocidas evaluaciones de referencia. Notablemente, la eficiencia de memoria de TPA permite el procesamiento de secuencias significativamente más largas bajo restricciones de recursos fijos, abordando un desafío crítico de escalabilidad en los modelos de lenguaje modernos. El código está disponible en https://github.com/tensorgi/T6.
El desarrollo de modelos de visión y lenguaje (VLMs) está impulsado por conjuntos de datos multimodales a gran escala y diversos. Sin embargo, el progreso hacia VLMs biomédicos generalistas se ve limitado por la falta de conjuntos de datos anotados y públicamente accesibles en biología y medicina. Los esfuerzos existentes se restringen a dominios específicos, sin abarcar toda la diversidad del conocimiento biomédico codificado en la literatura científica. Para abordar esta brecha, presentamos BIOMEDICA, un marco escalable de código abierto para extraer, anotar y serializar la totalidad del subconjunto de acceso abierto de PubMed Central en un conjunto de datos de fácil acceso y público. Nuestro marco produce un archivo completo con más de 24 millones de pares únicos de imágenes y texto de más de 6 millones de artículos. También se proporcionan metadatos y anotaciones guiadas por expertos. Demostramos la utilidad y accesibilidad de nuestro recurso al lanzar BMCA-CLIP, un conjunto de modelos de estilo CLIP pre-entrenados de forma continua en el conjunto de datos de BIOMEDICA a través de transmisión, eliminando la necesidad de descargar 27 TB de datos localmente. En promedio, nuestros modelos logran un rendimiento de vanguardia en 40 tareas, abarcando patología, radiología, oftalmología, dermatología, cirugía, biología molecular, parasitología y biología celular, destacándose en la clasificación de cero disparos con una mejora promedio del 6.56% (tan alta como 29.8% y 17.5% en dermatología y oftalmología, respectivamente), y una recuperación de imagen-texto más sólida, todo ello utilizando 10 veces menos computación. Para fomentar la reproducibilidad y la colaboración, publicamos nuestro código fuente y conjunto de datos para la comunidad investigadora en general.
Los modelos de lenguaje grandes autoadaptativos (LLMs) buscan resolver los desafíos planteados por los métodos tradicionales de ajuste fino, que a menudo son intensivos computacionalmente y estáticos en su capacidad para manejar diversas tareas. Presentamos \implname, un novedoso marco de autoadaptación que adapta los LLMs para tareas no vistas en tiempo real al ajustar selectivamente solo los componentes singulares de sus matrices de peso. Durante la inferencia, \implname emplea un mecanismo de dos pasos: primero, un sistema de despacho identifica las propiedades de la tarea, y luego los vectores "expertos" específicos de la tarea, entrenados mediante aprendizaje por refuerzo, se mezclan dinámicamente para obtener un comportamiento específico para la solicitud entrante. Nuestro método supera a enfoques ubicuos como LoRA, con menos parámetros y mayor eficiencia. \implname demuestra versatilidad en diferentes arquitecturas y modalidades de LLM, incluidas tareas de visión y lenguaje. \implname representa un avance significativo, ofreciendo una solución escalable y eficiente para mejorar la adaptabilidad y el rendimiento específico de tareas de los LLMs, allanando el camino para sistemas de IA verdaderamente dinámicos y autoorganizativos.
Los recientes avances en modelos de lenguaje grandes (LLMs, por sus siglas en inglés) y modelos multimodales de habla-texto han sentado las bases para interacciones de voz fluidas, permitiendo conversaciones en tiempo real, naturales y humanas. Los modelos previos para interacciones de voz se clasifican como nativos y alineados. Los modelos nativos integran el procesamiento de habla y texto en un marco único pero enfrentan problemas como diferentes longitudes de secuencia y pre-entrenamiento insuficiente. Los modelos alineados mantienen las capacidades de LLM de texto pero a menudo están limitados por conjuntos de datos pequeños y un enfoque estrecho en tareas de habla. En este trabajo, presentamos MinMo, un Modelo de Lenguaje Grande Multimodal con aproximadamente 8 mil millones de parámetros para interacción de voz fluida. Abordamos las principales limitaciones de los modelos multimodales alineados previos. Entrenamos MinMo a través de múltiples etapas de alineación de habla a texto, alineación de texto a habla, alineación de habla a habla e interacción dúplex, en 1.4 millones de horas de datos de habla diversos y una amplia gama de tareas de habla. Después del entrenamiento en múltiples etapas, MinMo logra un rendimiento de vanguardia en diversos puntos de referencia para comprensión y generación de voz, manteniendo las capacidades de los LLM de texto, y también facilita la conversación dúplex completa, es decir, comunicación bidireccional simultánea entre el usuario y el sistema. Además, proponemos un decodificador de voz novedoso y simple que supera a los modelos previos en generación de voz. Las capacidades mejoradas de seguimiento de instrucciones de MinMo admiten el control de la generación de habla basado en instrucciones del usuario, con varios matices que incluyen emociones, dialectos, tasas de habla e imitación de voces específicas. Para MinMo, la latencia de habla a texto es de aproximadamente 100 ms, la latencia dúplex es de aproximadamente 600 ms en teoría y 800 ms en la práctica. La página web del proyecto MinMo es https://funaudiollm.github.io/minmo, y el código y los modelos se lanzarán pronto.
Los modelos recientes de generación de video han mostrado resultados prometedores en la producción de clips de video de alta calidad que duran varios segundos. Sin embargo, estos modelos enfrentan desafíos al generar secuencias largas que transmitan eventos claros e informativos, lo que limita su capacidad para respaldar narraciones coherentes. En este documento, presentamos un conjunto de datos de video de cocina a gran escala diseñado para avanzar en la generación de narrativas de larga duración en el ámbito culinario. Validamos la calidad de nuestro conjunto de datos propuesto en cuanto a fidelidad visual y precisión de subtítulos textuales utilizando Modelos Visión-Lenguaje (VLM) de última generación y modelos de generación de video, respectivamente. Además, introducimos un Director de Video Narrativo Largo para mejorar tanto la coherencia visual como semántica en los videos generados y enfatizamos el papel de alinear incrustaciones visuales para lograr una calidad de video general mejorada. Nuestro método demuestra mejoras sustanciales en la generación de fotogramas clave visualmente detallados y semánticamente alineados, respaldados por técnicas de ajuste fino que integran incrustaciones de texto e imagen dentro del proceso de generación de video. Página del proyecto: https://videoauteur.github.io/
Basándonos en nuestras investigaciones previas sobre la replicación de O1 (Parte 1: Aprendizaje del Viaje [Qin et al., 2024] y Parte 2: Destilación [Huang et al., 2024]), este trabajo explora el potencial del escalado en tiempo de inferencia en modelos de lenguaje grandes (LLMs) para tareas de razonamiento médico, que van desde la toma de decisiones diagnósticas hasta la planificación del tratamiento. A través de experimentos exhaustivos en benchmarks médicos de variada complejidad (MedQA, Medbullets y Desafíos Clínicos de JAMA), nuestra investigación revela varias ideas clave: (1) Aumentar el tiempo de inferencia sí conduce a una mejora en el rendimiento. Con un modesto conjunto de entrenamiento de 500 muestras, nuestro modelo produce mejoras sustanciales de rendimiento del 6% al 11%. (2) La complejidad de la tarea se correlaciona directamente con la longitud necesaria de las cadenas de razonamiento, confirmando la necesidad de procesos de pensamiento extendidos para problemas desafiantes. (3) Los diagnósticos diferenciales generados por nuestro modelo se adhieren a los principios del método hipotético-deductivo, produciendo una lista de posibles condiciones que podrían explicar los síntomas de un paciente y reduciendo sistemáticamente estas posibilidades mediante la evaluación de la evidencia. Estos hallazgos demuestran la prometedora sinergia entre el escalado en tiempo de inferencia y el aprendizaje del viaje en el avance de las capacidades de razonamiento clínico del mundo real de los LLMs.
La generación aumentada por recuperación (RAG) muestra un rendimiento notable en diversas tareas de preguntas y respuestas en dominios abiertos. Sin embargo, los motores de búsqueda tradicionales pueden recuperar contenido superficial, limitando la capacidad de los LLM para manejar información compleja y multicapa. Para abordar este problema, presentamos WebWalkerQA, un banco de pruebas diseñado para evaluar la capacidad de los LLM para realizar travesías web. Evalúa la capacidad de los LLM para recorrer las subpáginas de un sitio web para extraer datos de alta calidad de manera sistemática. Proponemos WebWalker, que es un marco multiagente que imita la navegación web de forma similar a la humana a través de un paradigma de exploración-crítica. Los extensos resultados experimentales muestran que WebWalkerQA es desafiante y demuestra la efectividad de combinar RAG con WebWalker, a través de la integración horizontal y vertical en escenarios del mundo real.
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han demostrado un rendimiento excepcional en diversas tareas, sin embargo, su entrenamiento sigue siendo altamente intensivo en recursos y susceptible a desafíos críticos como la inestabilidad durante el entrenamiento. Una fuente predominante de esta inestabilidad proviene de los picos de gradiente y pérdida, que interrumpen el proceso de aprendizaje, a menudo resultando en intervenciones costosas como la recuperación de puntos de control y reinicios de experimentos, lo que amplifica aún más las ineficiencias. Este artículo presenta una investigación exhaustiva sobre los picos de gradiente observados durante el entrenamiento de LLM, revelando su prevalencia en múltiples arquitecturas y conjuntos de datos. Nuestro análisis muestra que estos picos pueden ser hasta 1000 veces más grandes que los gradientes típicos, deteriorando sustancialmente el rendimiento del modelo. Para abordar este problema, proponemos Spike-Aware Adam con Momentum Reset SPAM, un optimizador novedoso diseñado para contrarrestar los picos de gradiente mediante el reinicio de momento y la limitación de gradiente consciente de los picos. Experimentos extensos, que incluyen tanto pre-entrenamiento como ajuste fino, demuestran que SPAM supera consistentemente a Adam y sus variantes en diversas tareas, incluido (1) pre-entrenamiento de LLM de 60M a 1B, (2) pre-entrenamiento de LLM de 4 bits, (3) aprendizaje por refuerzo y (4) Pronóstico de Series Temporales. Además, SPAM facilita un entrenamiento eficiente en memoria al permitir un momento disperso, donde solo se mantienen y actualizan un subconjunto de términos de momento. Cuando opera bajo restricciones de memoria, SPAM supera a optimizadores eficientes en memoria de última generación como GaLore y Adam-Mini. Nuestro trabajo subraya la importancia de mitigar los picos de gradiente en el entrenamiento de LLM e introduce una estrategia de optimización efectiva que mejora tanto la estabilidad del entrenamiento como la eficiencia de recursos a gran escala. El código está disponible en https://github.com/TianjinYellow/SPAM-Optimizer.git
Presentamos Objetos Poco Comunes en 3D (uCO3D), un nuevo conjunto de datos centrado en objetos para el aprendizaje profundo en 3D y la inteligencia artificial generativa en 3D. uCO3D es la colección más grande disponible públicamente de videos de alta resolución de objetos con anotaciones en 3D que garantiza una cobertura completa de 360 grados. uCO3D es significativamente más diverso que MVImgNet y CO3Dv2, abarcando más de 1,000 categorías de objetos. También es de mayor calidad, debido a extensas verificaciones de calidad tanto de los videos recopilados como de las anotaciones en 3D. Al igual que conjuntos de datos análogos, uCO3D contiene anotaciones para poses de cámara en 3D, mapas de profundidad y nubes de puntos dispersas. Además, cada objeto está equipado con una leyenda y una reconstrucción de Splat Gaussiano en 3D. Entrenamos varios modelos 3D grandes en MVImgNet, CO3Dv2 y uCO3D y obtenemos resultados superiores utilizando este último, demostrando que uCO3D es mejor para aplicaciones de aprendizaje.
El razonamiento químico generalmente implica procesos complejos y de múltiples pasos que requieren cálculos precisos, donde incluso errores menores pueden provocar fallas en cascada. Además, los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) encuentran dificultades para manejar fórmulas específicas del dominio, ejecutar pasos de razonamiento con precisión e integrar código de manera efectiva al abordar tareas de razonamiento químico. Para abordar estos desafíos, presentamos ChemAgent, un marco novedoso diseñado para mejorar el rendimiento de los LLMs a través de una biblioteca dinámica y autoactualizable. Esta biblioteca se desarrolla descomponiendo tareas químicas en subtareas y compilando estas en una colección estructurada que puede ser referenciada para consultas futuras. Luego, al enfrentarse a un nuevo problema, ChemAgent recupera y perfecciona información pertinente de la biblioteca, a la que llamamos memoria, facilitando la descomposición efectiva de tareas y la generación de soluciones. Nuestro método diseña tres tipos de memoria y un componente de razonamiento mejorado por la biblioteca, permitiendo a los LLMs mejorar con el tiempo a través de la experiencia. Los resultados experimentales en cuatro conjuntos de datos de razonamiento químico de SciBench demuestran que ChemAgent logra mejoras de rendimiento de hasta un 46% (GPT-4), superando significativamente a los métodos existentes. Nuestros hallazgos sugieren un potencial sustancial para futuras aplicaciones, incluidas tareas como el descubrimiento de fármacos y la ciencia de materiales. Nuestro código se puede encontrar en https://github.com/gersteinlab/chemagent
Los modelos base se basan en conjuntos de datos obtenidos a gran escala a través de la web, que frecuentemente contienen datos ruidosos, sesgos y contenido irrelevante. Las técnicas existentes de selección de datos suelen utilizar heurísticas humanas, conjuntos de datos de evaluación secundarios o modelos de puntuación especializados, y pueden pasar por alto la utilidad de las muestras en el proceso de entrenamiento. En cambio, proponemos un nuevo enfoque, el Puntaje Mimic, una métrica de calidad de datos que utiliza un modelo de referencia preentrenado como guía para evaluar la utilidad de las muestras de datos para entrenar un nuevo modelo. Se basa en la alineación entre el gradiente de los parámetros del nuevo modelo y el vector que apunta hacia el modelo de referencia en el espacio de pesos. Las muestras que no se alinean con esta dirección se consideran de bajo valor y pueden ser filtradas. Motivados por el puntaje Mimic, desarrollamos Grad-Mimic, un marco de selección de datos que identifica y prioriza muestras útiles, automatizando el proceso de selección para crear filtros efectivos. Empíricamente, el uso de los puntajes Mimic para guiar el entrenamiento del modelo resulta en ganancias de rendimiento consistentes en seis conjuntos de datos de imágenes y mejora el rendimiento de los modelos CLIP. Además, los puntajes Mimic y sus filtros asociados mejoran los métodos de filtrado existentes y ofrecen una estimación precisa de la calidad del conjunto de datos.