Artículos de investigación en IA seleccionados diariamente con traducciones
Las grandes redes neuronales dedican la mayor parte de la computación a las multiplicaciones de tensores de punto flotante. En este trabajo, descubrimos que un multiplicador de punto flotante puede aproximarse con un sumador de enteros de alta precisión. Proponemos el algoritmo de multiplicación de complejidad lineal L-Mul que aproxima la multiplicación de números de punto flotante con operaciones de suma de enteros. El nuevo algoritmo requiere significativamente menos recursos computacionales que la multiplicación de punto flotante de 8 bits, pero logra una mayor precisión. En comparación con las multiplicaciones de punto flotante de 8 bits, el método propuesto alcanza una mayor precisión pero consume considerablemente menos recursos computacionales a nivel de bits. Dado que la multiplicación de números de punto flotante requiere considerablemente más energía en comparación con las operaciones de suma de enteros, la aplicación de la operación L-Mul en hardware de procesamiento de tensores puede potencialmente reducir el costo energético en un 95% en las multiplicaciones de tensores de punto flotante a nivel de elementos y en un 80% en los productos escalares. Calculamos la expectativa de error teórico de L-Mul, y evaluamos el algoritmo en una amplia gama de tareas textuales, visuales y simbólicas, incluyendo comprensión del lenguaje natural, razonamiento estructural, matemáticas y respuestas a preguntas de sentido común. Nuestros experimentos de análisis numérico concuerdan con la estimación teórica del error, lo que indica que L-Mul con una mantisa de 4 bits logra una precisión comparable a las multiplicaciones float8_e4m3, y L-Mul con una mantisa de 3 bits supera a float8_e5m2. Los resultados de evaluación en benchmarks populares muestran que aplicar directamente L-Mul al mecanismo de atención es casi sin pérdidas. Además, demostramos que reemplazar todas las multiplicaciones de punto flotante con L-Mul de 3 bits de mantisa en un modelo transformer logra una precisión equivalente a utilizar float8_e4m3 como precisión de acumulación tanto en el ajuste fino como en la inferencia.
Los avances recientes tanto en el aprendizaje de representaciones como en el aprendizaje de funciones han demostrado un gran potencial en diversos dominios de la inteligencia artificial. Sin embargo, la integración efectiva de estos paradigmas plantea un desafío significativo, especialmente en casos en los que los usuarios deben decidir manualmente si aplicar un modelo de aprendizaje de representaciones o de aprendizaje de funciones basándose en las características del conjunto de datos. Para abordar este problema, presentamos MLP-KAN, un método unificado diseñado para eliminar la necesidad de selección manual de modelos. Al integrar Perceptrones Multicapa (MLPs) para el aprendizaje de representaciones y Redes Kolmogorov-Arnold (KANs) para el aprendizaje de funciones dentro de una arquitectura de Mezcla de Expertos (MoE), MLP-KAN se adapta dinámicamente a las características específicas de la tarea en cuestión, garantizando un rendimiento óptimo. Incorporado en un marco basado en transformers, nuestro trabajo logra resultados notables en cuatro conjuntos de datos ampliamente utilizados en diversos dominios. Una extensa evaluación experimental demuestra su versatilidad superior, ofreciendo un rendimiento competitivo en tareas tanto de aprendizaje de representaciones profundas como de aprendizaje de funciones. Estos hallazgos resaltan el potencial de MLP-KAN para simplificar el proceso de selección de modelos, ofreciendo una solución integral y adaptable en varios dominios. Nuestro código y pesos están disponibles en https://github.com/DLYuanGod/MLP-KAN.
La Inteligencia Artificial Generativa, en particular los Modelos de Lenguaje (LMs), tiene el potencial de transformar dominios del mundo real con impacto social, especialmente donde el acceso a expertos es limitado. Por ejemplo, en educación, capacitar a educadores novatos con orientación experta es importante para la efectividad pero costoso, creando barreras significativas para mejorar la calidad educativa a gran escala. Este desafío perjudica desproporcionadamente a estudiantes de comunidades desatendidas, que tienen más que ganar de una educación de alta calidad. Presentamos Tutor CoPilot, un enfoque novedoso Humano-AI que aprovecha un modelo de pensamiento experto para brindar orientación similar a la de un experto a los tutores mientras enseñan. Este estudio es el primer ensayo controlado aleatorio de un sistema Humano-AI en tutoría en vivo, involucrando a 900 tutores y 1,800 estudiantes de K-12 de comunidades históricamente desatendidas. Siguiendo un plan de análisis preinscrito, encontramos que los estudiantes que trabajan con tutores que tienen acceso a Tutor CoPilot tienen 4 puntos porcentuales (p.p.) más probabilidades de dominar los temas (p<0.01). Especialmente, los estudiantes de tutores con calificaciones más bajas experimentaron el mayor beneficio, mejorando el dominio en 9 p.p. Encontramos que Tutor CoPilot cuesta solo $20 por tutor al año. Analizamos más de 550,000 mensajes utilizando clasificadores para identificar estrategias pedagógicas, y encontramos que los tutores con acceso a Tutor CoPilot tienen más probabilidades de usar estrategias de alta calidad para fomentar la comprensión del estudiante (por ejemplo, hacer preguntas orientadoras) y menos probabilidades de dar la respuesta al estudiante directamente. Las entrevistas a los tutores resaltan cómo la orientación de Tutor CoPilot ayuda a los tutores a responder a las necesidades de los estudiantes, aunque señalan problemas en Tutor CoPilot, como generar sugerencias que no son apropiadas para el nivel de grado. En conjunto, nuestro estudio de Tutor CoPilot demuestra cómo los sistemas Humano-AI pueden escalar la experiencia en dominios del mundo real, cerrar brechas en habilidades y crear un futuro donde la educación de alta calidad sea accesible para todos los estudiantes.
Los elementos innecesarios en el contexto de la atención degradan el rendimiento. Presentamos Atención Selectiva, un cambio simple y sin parámetros al mecanismo estándar de atención que reduce la atención a elementos innecesarios. La Atención Selectiva mejora el rendimiento del modelado del lenguaje en una variedad de tamaños de modelo y longitudes de contexto. Por ejemplo, una serie de transformadores entrenados con el objetivo de modelado del lenguaje en C4 con atención selectiva tienen un rendimiento equivalente a transformadores estándar con ~2 veces más cabezas y parámetros en sus módulos de atención. La Atención Selectiva también permite reducir el tamaño del búfer de contexto de la atención, lo que conlleva reducciones significativas en los requisitos de memoria y cálculo durante la inferencia. Por ejemplo, los transformadores con 100 millones de parámetros entrenados en C4 con tamaños de contexto de 512, 1,024 y 2,048 necesitan 16 veces, 25 veces y 47 veces menos memoria para sus módulos de atención, respectivamente, cuando están equipados con atención selectiva, en comparación con aquellos sin atención selectiva, con la misma perplejidad de validación.
¿Advertirá un bot basado en un Modelo de Lenguaje Visual (VLM) si detecta un piso mojado? Los VLM recientes han demostrado capacidades impresionantes, sin embargo, su habilidad para inferir resultados y causas sigue siendo poco explorada. Para abordar esto, presentamos NL-Eye, un banco de pruebas diseñado para evaluar las habilidades de razonamiento abductivo visual de los VLM. NL-Eye adapta la tarea abductiva de Inferencia de Lenguaje Natural (NLI) al dominio visual, requiriendo que los modelos evalúen la plausibilidad de imágenes hipotéticas basadas en una imagen de premisa y expliquen sus decisiones. NL-Eye consta de 350 ejemplos de tripletes cuidadosamente seleccionados (1,050 imágenes) que abarcan diversas categorías de razonamiento: físico, funcional, lógico, emocional, cultural y social. El proceso de curación de datos involucró dos pasos: escribir descripciones textuales y generar imágenes utilizando modelos de texto a imagen, ambos requiriendo una participación humana sustancial para garantizar escenas de alta calidad y desafiantes. Nuestros experimentos muestran que los VLM tienen dificultades significativas en NL-Eye, a menudo desempeñándose en niveles de referencia aleatoria, mientras que los humanos sobresalen tanto en la predicción de plausibilidad como en la calidad de explicación. Esto demuestra una deficiencia en las capacidades de razonamiento abductivo de los VLM modernos. NL-Eye representa un paso crucial hacia el desarrollo de VLM capaces de un razonamiento multimodal robusto para aplicaciones del mundo real, incluidos bots de prevención de accidentes y verificación de videos generados.
Mamba, un caso especial del Modelo de Espacio de Estados, está ganando popularidad como una alternativa a enfoques de aprendizaje profundo basados en plantillas en el análisis de imágenes médicas. Si bien los transformers son arquitecturas potentes, tienen inconvenientes, incluida una complejidad computacional cuadrática y una incapacidad para abordar eficientemente dependencias a largo plazo. Esta limitación afecta el análisis de conjuntos de datos grandes y complejos en imágenes médicas, donde existen muchas relaciones espaciales y temporales. En contraste, Mamba ofrece beneficios que lo hacen adecuado para el análisis de imágenes médicas. Tiene complejidad temporal lineal, lo cual es una mejora significativa sobre los transformers. Mamba procesa secuencias más largas sin mecanismos de atención, lo que permite una inferencia más rápida y requiere menos memoria. Mamba también demuestra un rendimiento sólido al fusionar datos multimodales, mejorando la precisión del diagnóstico y los resultados para los pacientes. La organización de este documento permite a los lectores apreciar las capacidades de Mamba en el análisis de imágenes médicas paso a paso. Comenzamos definiendo conceptos fundamentales de los Modelos de Espacio de Estados y modelos, incluidos S4, S5 y S6, seguido por una exploración de arquitecturas de Mamba como Mamba puro, variantes U-Net y modelos híbridos con redes neuronales convolucionales, transformers y Redes Neuronales Gráficas. También cubrimos optimizaciones, técnicas y adaptaciones de Mamba, escaneo, conjuntos de datos, aplicaciones, resultados experimentales y concluimos con sus desafíos y futuras direcciones en imágenes médicas. Esta revisión tiene como objetivo demostrar el potencial transformador de Mamba para superar las barreras existentes en el campo de las imágenes médicas, allanando el camino para avances innovadores en el campo. Una lista exhaustiva de arquitecturas de Mamba aplicadas en el campo médico, revisadas en este trabajo, está disponible en Github.
Los actuales modelos auto-regresivos de gran tamaño pueden generar imágenes de alta calidad y alta resolución, pero estos modelos requieren cientos o incluso miles de pasos de predicción del siguiente token durante la inferencia, lo que resulta en un consumo de tiempo sustancial. En estudios existentes, la decodificación de Jacobi, un algoritmo iterativo de decodificación paralela, se ha utilizado para acelerar la generación auto-regresiva y puede ejecutarse sin entrenamiento. Sin embargo, la decodificación de Jacobi se basa en un criterio determinista para determinar la convergencia de las iteraciones. Por lo tanto, funciona para la decodificación codiciosa pero es incompatible con la decodificación basada en muestreo, que es crucial para la calidad visual y la diversidad en la generación actual de texto a imagen auto-regresiva. En este artículo, proponemos un algoritmo de decodificación paralela probabilística sin entrenamiento, Decodificación Jacobi Especulativa (SJD), para acelerar la generación auto-regresiva de texto a imagen. Al introducir un criterio de convergencia probabilístico, nuestro SJD acelera la inferencia de la generación auto-regresiva de texto a imagen manteniendo al azar en la decodificación de tokens basada en muestreo y permitiendo que el modelo genere imágenes diversas. Específicamente, SJD facilita al modelo predecir múltiples tokens en cada paso y aceptar tokens basados en el criterio probabilístico, lo que permite al modelo generar imágenes con menos pasos que el paradigma convencional de predicción del siguiente token. También investigamos estrategias de inicialización de tokens que aprovechan la localidad espacial de los datos visuales para mejorar aún más la relación de aceleración en escenarios específicos. Realizamos experimentos para nuestro SJD propuesto en múltiples modelos de generación auto-regresiva de texto a imagen, mostrando la efectividad de la aceleración del modelo sin sacrificar la calidad visual.
La generación de texturas a partir de texto ha atraído recientemente una atención creciente, pero los métodos existentes a menudo sufren de problemas de inconsistencias de vista, costuras aparentes y desalineación entre las texturas y la malla subyacente. En este artículo, proponemos un método robusto de texto a textura para generar texturas consistentes y sin costuras que estén bien alineadas con la malla. Nuestro método aprovecha modelos de difusión 2D de última generación, incluidos SDXL y múltiples ControlNets, para capturar características estructurales y detalles intrincados en las texturas generadas. El método también emplea una estrategia de síntesis de vista simétrica combinada con indicaciones regionales para mejorar la consistencia de la vista. Además, introduce técnicas novedosas de mezcla de texturas y de rellenado suave, que reducen significativamente las regiones de costura. Experimentos extensos demuestran que nuestro método supera a los métodos existentes de última generación.
La eliminación de conceptos en modelos de lenguaje ha carecido tradicionalmente de un marco de evaluación integral, lo que ha llevado a evaluaciones incompletas de la efectividad de los métodos de eliminación. Proponemos un paradigma de evaluación centrado en tres criterios críticos: inocencia (eliminación completa del conocimiento), fluidez (mantenimiento de la generación condicional fluida) y especificidad (preservación del rendimiento en tareas no relacionadas). Nuestras métricas de evaluación motivan naturalmente el desarrollo de Erasure of Language Memory (ELM), un nuevo método diseñado para abordar las tres dimensiones. ELM emplea actualizaciones dirigidas de bajo rango para alterar las distribuciones de salida de los conceptos eliminados mientras preserva las capacidades generales del modelo, incluida la fluidez al solicitar un concepto eliminado. Demostramos la eficacia de ELM en tareas de eliminación en los dominios de bioseguridad, ciberseguridad y literatura. El análisis comparativo muestra que ELM logra un rendimiento superior en nuestras métricas propuestas, incluidas puntuaciones casi aleatorias en evaluaciones de temas eliminados, fluidez en la generación, precisión mantenida en puntos de referencia no relacionados y robustez ante ataques adversariales. Nuestro código, datos y modelos entrenados están disponibles en https://elm.baulab.info
Los avances recientes en Modelos de Lenguaje de Código Grande (CodeLLMs) han estado predominantemente centrados en tareas de generación de código de final abierto, a menudo descuidando el aspecto crítico de comprensión y entendimiento del código. Para cerrar esta brecha, presentamos CodeMMLU, un completo banco de pruebas de preguntas y respuestas de opción múltiple diseñado para evaluar la profundidad del entendimiento del software y código en LLMs. CodeMMLU incluye más de 10,000 preguntas provenientes de diversos dominios, abarcando tareas como análisis de código, detección de defectos y principios de ingeniería de software en múltiples lenguajes de programación. A diferencia de bancos de pruebas tradicionales, CodeMMLU evalúa la capacidad de los modelos para razonar sobre el código en lugar de simplemente generarlo, proporcionando una comprensión más profunda de su dominio de conceptos y sistemas de software complejos. Nuestra extensa evaluación revela que incluso los modelos de vanguardia enfrentan desafíos significativos con CodeMMLU, resaltando deficiencias en la comprensión más allá de la generación de código. Al subrayar la relación crucial entre la comprensión del código y la generación efectiva, CodeMMLU sirve como un recurso vital para avanzar en el desarrollo de software asistido por IA, con el objetivo último de crear asistentes de codificación más confiables y capaces.
La navegación de robots en la vida real implica más que simplemente llegar a un destino; requiere optimizar los movimientos mientras se abordan objetivos específicos del escenario. Una forma intuitiva para que los humanos expresen estos objetivos es a través de indicaciones abstractas como comandos verbales o bocetos aproximados. Esta guía humana puede carecer de detalles o ser ruidosa. No obstante, esperamos que los robots naveguen según lo previsto. Para que los robots interpreten y ejecuten estas instrucciones abstractas de acuerdo con las expectativas humanas, deben compartir una comprensión común de conceptos básicos de navegación con los humanos. Con este fin, presentamos CANVAS, un nuevo marco que combina instrucciones visuales y lingüísticas para la navegación con conciencia del sentido común. Su éxito se basa en el aprendizaje por imitación, lo que permite al robot aprender del comportamiento de navegación humano. Presentamos COMMAND, un conjunto de datos exhaustivo con resultados de navegación anotados por humanos, abarcando más de 48 horas y 219 km, diseñado para entrenar sistemas de navegación con conciencia del sentido común en entornos simulados. Nuestros experimentos muestran que CANVAS supera al sólido sistema basado en reglas ROS NavStack en todos los entornos, demostrando un rendimiento superior con instrucciones ruidosas. Especialmente, en el entorno de huertos, donde ROS NavStack registra una tasa de éxito total del 0%, CANVAS logra una tasa de éxito total del 67%. CANVAS también se alinea estrechamente con las demostraciones humanas y las restricciones del sentido común, incluso en entornos no vistos. Además, la implementación del mundo real de CANVAS muestra una impresionante transferencia de Sim2Real con una tasa de éxito total del 69%, resaltando el potencial de aprender de las demostraciones humanas en entornos simulados para aplicaciones del mundo real.
Fill-in-the-Middle (FIM) se ha vuelto fundamental para los modelos de lenguaje de código, permitiendo la generación de código faltante dado tanto el contexto izquierdo como el derecho. Sin embargo, el paradigma actual de entrenamiento de FIM, que reordena las secuencias de entrenamiento originales y luego realiza una predicción regular del siguiente token (NTP), a menudo conduce a que los modelos tengan dificultades para generar contenido que se alinee suavemente con el contexto circundante. Es crucial destacar que, si bien los trabajos existentes dependen de un postprocesamiento basado en reglas para evitar esta debilidad, dichos métodos no son prácticamente utilizables en tareas de completado de código de dominio abierto, ya que dependen de suposiciones restrictivas y específicas del conjunto de datos (por ejemplo, generar el mismo número de líneas que en la verdad fundamental). Además, el rendimiento del modelo en tareas de FIM se deteriora significativamente sin estas suposiciones poco realistas. Hacemos la hipótesis de que NTP por sí solo es insuficiente para que los modelos aprendan una planificación efectiva condicionada al contexto derecho distante, un factor crítico para el éxito del relleno de código. Para superar esto, proponemos Predicción de Longitud de Horizonte (HLP), un objetivo de entrenamiento novedoso que enseña a los modelos a predecir el número de tokens medios restantes (es decir, longitud de horizonte) en cada paso. HLP avanza FIM con una planificación de anticipación, lo que permite a los modelos aprender inherentemente los límites de relleno para contextos izquierdos y derechos arbitrarios sin depender de un postprocesamiento específico del conjunto de datos. Nuestra evaluación en diferentes modelos y tamaños muestra que HLP mejora significativamente el rendimiento de FIM hasta un 24% en diversos puntos de referencia, tanto a nivel de archivo como de repositorio, y sin recurrir a métodos poco realistas de postprocesamiento. Además, la capacidad de planificación mejorada obtenida a través de HLP impulsa el rendimiento del modelo en el razonamiento de código. Es importante destacar que HLP solo conlleva un costo de entrenamiento insignificante y ningún costo adicional de inferencia, asegurando su practicidad para escenarios del mundo real.
La predicción del mercado de valores ha seguido siendo un problema sumamente desafiante durante muchas décadas debido a su inherente alta volatilidad y baja relación ruidosa de información. Las soluciones existentes basadas en aprendizaje automático o aprendizaje profundo demuestran un rendimiento superior al emplear un solo modelo entrenado en todo el conjunto de datos de acciones para generar predicciones en todos los tipos de acciones. Sin embargo, debido a las significativas variaciones en los estilos de acciones y las tendencias del mercado, un solo modelo de extremo a extremo lucha por capturar completamente las diferencias en estas características estilizadas de acciones, lo que conduce a predicciones relativamente inexactas para todos los tipos de acciones. En este documento, presentamos MIGA, un novedoso marco de Mezcla de Expertos con Agregación de Grupos diseñado para generar predicciones especializadas para acciones con diferentes estilos al alternar dinámicamente entre expertos de estilos distintos. Para fomentar la colaboración entre diferentes expertos en MIGA, proponemos una novedosa arquitectura de atención interna de grupo, que permite a los expertos dentro del mismo grupo compartir información y, por lo tanto, mejorar el rendimiento general de todos los expertos. Como resultado, MIGA supera significativamente a otros modelos de extremo a extremo en tres índices bursátiles chinos, incluidos CSI300, CSI500 y CSI1000. Especialmente, MIGA-Conv alcanza un rendimiento anual excedente del 24 % en el índice CSI300, superando al modelo anterior de vanguardia en un 8 % absoluto. Además, realizamos un análisis exhaustivo de la mezcla de expertos para la predicción del mercado de valores, proporcionando ideas valiosas para investigaciones futuras.
A pesar del aumento en la dominancia del aprendizaje profundo en dominios de datos no estructurados, los métodos basados en árboles como Bosques Aleatorios (RF) y Árboles de Decisión Potenciados por Gradiente (GBDT) siguen siendo los caballos de batalla para manejar tareas discriminatorias en datos tabulares. Exploramos extensiones generativas de estos algoritmos populares con un enfoque en modelar explícitamente la densidad de datos (hasta una constante de normalización), lo que permite otras aplicaciones además del muestreo. Como nuestra principal contribución, proponemos un algoritmo de potenciación generativa basado en energía que es análogo al potenciador de segundo orden implementado en paquetes populares como XGBoost. Mostramos que, a pesar de producir un modelo generativo capaz de manejar tareas de inferencia sobre cualquier variable de entrada, nuestro algoritmo propuesto puede lograr un rendimiento discriminatorio similar al de GBDT en varios conjuntos de datos tabulares del mundo real, superando en rendimiento a enfoques generativos alternativos. Al mismo tiempo, demostramos que también es competitivo con modelos basados en redes neuronales para el muestreo.
La subtitulación detallada de videos es una tarea clave que tiene como objetivo generar descripciones textuales completas y coherentes del contenido de un video, beneficiando tanto la comprensión como la generación de videos. En este artículo, proponemos AuroraCap, un subtitulador de videos basado en un gran modelo multimodal. Seguimos el diseño de arquitectura más simple sin parámetros adicionales para modelado temporal. Para abordar la sobrecarga causada por secuencias de video extensas, implementamos la estrategia de fusión de tokens, reduciendo el número de tokens visuales de entrada. Sorprendentemente, encontramos que esta estrategia resulta en una pérdida de rendimiento mínima. AuroraCap muestra un rendimiento superior en varios benchmarks de subtitulación de videos e imágenes, por ejemplo, obteniendo un CIDEr de 88.9 en Flickr30k, superando a GPT-4V (55.3) y Gemini-1.5 Pro (82.2). Sin embargo, los benchmarks de subtitulación de videos existentes solo incluyen descripciones simples, que consisten en unas pocas docenas de palabras, lo que limita la investigación en este campo. Por lo tanto, desarrollamos VDC, un benchmark de subtitulación detallada de videos con más de mil descripciones estructuradas cuidadosamente anotadas. Además, proponemos una nueva métrica asistida por LLM, VDCscore, para mejorar la evaluación, que adopta una estrategia de dividir y conquistar para transformar la evaluación de descripciones largas en múltiples pares de preguntas y respuestas cortas. Con la ayuda de la clasificación Elo humana, nuestros experimentos muestran que este benchmark se correlaciona mejor con los juicios humanos sobre la calidad de la subtitulación detallada de videos.
La simulación robótica sigue siendo desafiante de escalar hoy en día debido a los esfuerzos humanos necesarios para crear diversas tareas y escenarios de simulación. Las políticas entrenadas en simulación también enfrentan problemas de escalabilidad, ya que muchos métodos de simulación a realidad se centran en una sola tarea. Para abordar estos desafíos, este trabajo propone GenSim2, un marco escalable que aprovecha modelos de lenguaje con capacidad multimodal y de razonamiento para la creación de tareas de simulación complejas y realistas, incluidas tareas de largo horizonte con objetos articulados. Para generar automáticamente datos de demostración para estas tareas a gran escala, proponemos planificadores y solucionadores de RL que generalizan dentro de categorías de objetos. El proceso puede generar datos para hasta 100 tareas articuladas con 200 objetos y reducir los esfuerzos humanos requeridos. Para utilizar dichos datos, proponemos una arquitectura de política efectiva condicionada al lenguaje multitarea, denominada transformador de nube de puntos propioceptivo (PPT), que aprende de las demostraciones generadas y muestra una fuerte transferencia de simulación a realidad sin entrenamiento. Combinando el proceso propuesto y la arquitectura de política, mostramos un uso prometedor de GenSim2 en el que los datos generados pueden ser utilizados para transferencia sin entrenamiento o co-entrenamiento con datos recolectados del mundo real, lo que mejora el rendimiento de la política en un 20% en comparación con el entrenamiento exclusivo con datos reales limitados.