Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje de Gran Escala para Código (Code LLM) están en pleno auge. Nuevos y potentes modelos se lanzan semanalmente, demostrando un rendimiento notable en la tarea de generación de código. Se han propuesto diversos enfoques para mejorar el rendimiento en la generación de código de los Code LLM preentrenados, como el ajuste fino supervisado, el ajuste por instrucciones, el aprendizaje por refuerzo, entre otros. En este artículo, proponemos un novedoso marco RRTF (Rank Responses to align Test&Teacher Feedback), que puede potenciar de manera efectiva y eficiente los modelos de lenguaje de gran escala preentrenados para la generación de código. Bajo este marco, presentamos PanGu-Coder2, que alcanza un 62.20% en pass@1 en el benchmark OpenAI HumanEval. Además, mediante una evaluación exhaustiva en los benchmarks CoderEval y LeetCode, demostramos que PanGu-Coder2 supera consistentemente a todos los Code LLM anteriores.
Presentamos TransNormerLLM, el primer modelo de lenguaje grande (LLM) basado en atención lineal que supera a los modelos convencionales basados en atención softmax tanto en precisión como en eficiencia. TransNormerLLM evoluciona de la arquitectura de atención lineal anterior, TransNormer, mediante modificaciones avanzadas que incluyen incrustaciones posicionales, aceleración de atención lineal, mecanismos de compuerta, normalización de tensores, aceleración de inferencia y estabilización. Específicamente, utilizamos LRPE junto con un decaimiento exponencial para evitar problemas de dilución de la atención mientras permitimos que el modelo conserve interacciones globales entre tokens. Además, proponemos Lightning Attention, una técnica de vanguardia que acelera la atención lineal más del doble en tiempo de ejecución y reduce el uso de memoria en un notable cuatro veces. Para mejorar aún más el rendimiento de TransNormer, aprovechamos un mecanismo de compuerta para suavizar el entrenamiento y un nuevo esquema de normalización de tensores para acelerar el modelo, logrando una impresionante aceleración de más del 20%. Asimismo, hemos desarrollado un algoritmo de inferencia robusto que garantiza estabilidad numérica y velocidad de inferencia consistente, independientemente de la longitud de la secuencia, demostrando una eficiencia superior durante las etapas de entrenamiento e inferencia. La escalabilidad es el núcleo del diseño de nuestro modelo, permitiendo un despliegue fluido en clústeres a gran escala y facilitando la expansión a modelos aún más extensos, todo mientras se mantienen métricas de rendimiento excepcionales. La validación rigurosa de nuestro diseño de modelo se logra mediante una serie de experimentos exhaustivos en nuestro corpus autogenerado, que supera los 6TB de tamaño y contiene más de 2 billones de tokens. Para garantizar la calidad y relevancia de los datos, implementamos una nueva estrategia de autolimpieza para filtrar los datos recopilados. Nuestros modelos preentrenados serán liberados para fomentar avances comunitarios en LLMs eficientes.
Presentamos un marco para la adquisición de habilidades robóticas que 1) escala eficientemente la generación de datos etiquetados con lenguaje para robots y 2) destila efectivamente estos datos en una política visuo-motora robusta y condicionada por lenguaje para múltiples tareas. Para (1), utilizamos un modelo de lenguaje grande (LLM) para guiar la planificación de alto nivel, y planificadores robóticos basados en muestreo (por ejemplo, muestreadores de movimiento o agarre) para generar trayectorias de manipulación diversas y ricas. Para robustecer este proceso de recolección de datos, el LLM también infiere un fragmento de código para la condición de éxito de cada tarea, permitiendo simultáneamente que el proceso de recolección detecte fallos y reintente, así como el etiquetado automático de trayectorias con éxito/fracaso. Para (2), extendemos el enfoque de clonación de comportamiento de una sola tarea basado en políticas de difusión a entornos de múltiples tareas con condicionamiento por lenguaje. Finalmente, proponemos un nuevo punto de referencia para múltiples tareas con 18 tareas en cinco dominios para evaluar comportamientos de horizonte largo, razonamiento de sentido común, uso de herramientas y física intuitiva. Descubrimos que nuestra política destilada aprendió exitosamente el comportamiento robusto de reintento de su política de recolección de datos, mientras mejoraba las tasas de éxito absoluto en un 34.8% en promedio en los cinco dominios. El punto de referencia, el código y los resultados cualitativos están disponibles en nuestro sitio web https://www.cs.columbia.edu/~huy/scalingup/.
El seguimiento visual de objetos es una tarea fundamental en el ámbito de la visión por computadora. Recientemente, el notable aumento en la capacidad de los algoritmos de percepción ha permitido la unificación del seguimiento de objetos únicos/múltiples y basado en cajas/máscaras. Entre ellos, el Segment Anything Model (SAM) ha captado mucha atención. En este informe, proponemos HQTrack, un marco para el seguimiento de alta calidad de cualquier objeto en videos. HQTrack se compone principalmente de un segmentador de múltiples objetos en video (VMOS) y un refinador de máscaras (MR). Dado el objeto a seguir en el fotograma inicial de un video, VMOS propaga las máscaras del objeto al fotograma actual. Los resultados de las máscaras en esta etapa no son lo suficientemente precisos, ya que VMOS se entrena en varios conjuntos de datos de segmentación de objetos en video (VOS) de dominio cerrado, lo que limita su capacidad para generalizar a escenas complejas y extremas. Para mejorar aún más la calidad de las máscaras de seguimiento, se emplea un modelo MR preentrenado para refinar los resultados de seguimiento. Como un testimonio convincente de la efectividad de nuestro paradigma, sin emplear trucos como aumentaciones de datos en tiempo de prueba o ensambles de modelos, HQTrack ocupa el segundo lugar en el desafío de Seguimiento y Segmentación de Objetos Visuales (VOTS2023). El código y los modelos están disponibles en https://github.com/jiawen-zhu/HQTrack.
La medicina es inherentemente multimodal, con ricas modalidades de datos que abarcan texto, imágenes, genómica y más. Los sistemas de inteligencia artificial (IA) biomédica generalista que codifican, integran e interpretan estos datos de manera flexible y a gran escala pueden habilitar aplicaciones impactantes que van desde el descubrimiento científico hasta la prestación de atención médica. Para facilitar el desarrollo de estos modelos, primero hemos creado MultiMedBench, un nuevo punto de referencia multimodal en biomedicina. MultiMedBench incluye 14 tareas diversas, como la respuesta a preguntas médicas, la interpretación de imágenes de mamografías y dermatología, la generación y resumen de informes radiológicos, y la identificación de variantes genómicas. Luego, presentamos Med-PaLM Multimodal (Med-PaLM M), nuestra prueba de concepto para un sistema de IA biomédica generalista. Med-PaLM M es un modelo generativo multimodal de gran escala que codifica e interpreta de manera flexible datos biomédicos, incluyendo lenguaje clínico, imágenes y genómica, utilizando el mismo conjunto de pesos del modelo. Med-PaLM M alcanza un rendimiento competitivo o superior al estado del arte en todas las tareas de MultiMedBench, superando a menudo a modelos especializados por un amplio margen. También reportamos ejemplos de generalización zero-shot a conceptos y tareas médicas novedosas, transferencia positiva de aprendizaje entre tareas y razonamiento médico zero-shot emergente. Para explorar más a fondo las capacidades y limitaciones de Med-PaLM M, realizamos una evaluación radiológica de informes de rayos X de tórax generados por el modelo (y por humanos), observando un rendimiento alentador en diferentes escalas del modelo. En una clasificación comparativa de 246 rayos X de tórax retrospectivos, los clínicos expresaron una preferencia por los informes de Med-PaLM M sobre los producidos por radiólogos en hasta el 40.50% de los casos, sugiriendo una posible utilidad clínica. Si bien se necesita un trabajo considerable para validar estos modelos en casos de uso del mundo real, nuestros resultados representan un hito hacia el desarrollo de sistemas de IA biomédica generalista.
La generación de texto a 3D ha recibido recientemente una atención significativa, impulsada por modelos de difusión 2D entrenados con miles de millones de pares de imagen-texto. Los métodos existentes se basan principalmente en la destilación de puntuaciones para aprovechar los conocimientos previos de difusión 2D y supervisar la generación de modelos 3D, como NeRF. Sin embargo, la destilación de puntuaciones tiende a sufrir el problema de inconsistencia de vistas, y el modelado implícito de NeRF también puede dar lugar a formas arbitrarias, lo que resulta en una generación 3D menos realista y difícil de controlar. En este trabajo, proponemos un marco flexible de Puntos-a-3D para cerrar la brecha entre puntos 3D escasos pero fácilmente disponibles y la generación 3D realista y controlable en forma, destilando el conocimiento de modelos de difusión tanto 2D como 3D. La idea central de Puntos-a-3D es introducir puntos 3D escasos y controlables para guiar la generación de texto a 3D. Específicamente, utilizamos la nube de puntos escasa generada por el modelo de difusión 3D, Point-E, como el conocimiento geométrico previo, condicionado por una única imagen de referencia. Para aprovechar mejor los puntos 3D escasos, proponemos una pérdida de guía de nube de puntos eficiente para impulsar adaptativamente la geometría de NeRF para que se alinee con la forma de los puntos 3D escasos. Además de controlar la geometría, proponemos optimizar NeRF para una apariencia más consistente en las vistas. En concreto, realizamos la destilación de puntuaciones en el modelo de difusión de imágenes 2D ControlNet, disponible públicamente, condicionado por el texto y el mapa de profundidad de la geometría compacta aprendida. Las comparaciones cualitativas y cuantitativas demuestran que Puntos-a-3D mejora la consistencia de las vistas y logra una buena controlabilidad de la forma en la generación de texto a 3D. Puntos-a-3D ofrece a los usuarios una nueva forma de mejorar y controlar la generación de texto a 3D.
Para un artista o diseñador gráfico, la disposición espacial de una escena es una decisión de diseño crucial. Sin embargo, los modelos de difusión de texto a imagen existentes ofrecen un soporte limitado para incorporar información espacial. Este artículo presenta Composite Diffusion como un medio para que los artistas generen imágenes de alta calidad componiendo a partir de subescenas. Los artistas pueden especificar la disposición de estas subescenas mediante un diseño de segmentación flexible y de forma libre. Pueden describir el contenido de cada subescena principalmente utilizando texto natural y, adicionalmente, empleando imágenes de referencia o entradas de control como arte lineal, garabatos, poses humanas, bordes canny, entre otros. Proporcionamos un método integral y modular para Composite Diffusion que permite formas alternativas de generar, componer y armonizar subescenas. Además, deseamos evaluar la imagen compuesta en términos de su efectividad tanto en la calidad de la imagen como en el cumplimiento de la intención del artista. Argumentamos que las métricas de calidad de imagen existentes carecen de una evaluación holística de las imágenes compuestas. Para abordar esto, proponemos nuevos criterios de calidad especialmente relevantes para la generación de composiciones. Creemos que nuestro enfoque proporciona un método intuitivo de creación artística. A través de extensas encuestas a usuarios, análisis cuantitativos y cualitativos, demostramos cómo se logra un mayor control espacial, semántico y creativo sobre la generación de imágenes. Además, nuestros métodos no requieren reentrenar o modificar la arquitectura de los modelos de difusión base y pueden funcionar de manera plug-and-play con los modelos ajustados.
Estudiamos la mejora de agentes conversacionales sociales mediante el aprendizaje a partir de diálogos naturales entre usuarios y un modelo desplegado, sin necesidad de anotaciones adicionales. Para medir implícitamente la calidad de una expresión generada por la máquina, aprovechamos señales como la longitud de la respuesta del usuario, el sentimiento y la reacción de las futuras expresiones humanas en los episodios de diálogo recopilados. Nuestros experimentos utilizan los datos de despliegue públicamente disponibles de BlenderBot (Xu et al., 2023). La evaluación humana indica mejoras en nuestros nuevos modelos en comparación con las respuestas de referencia; sin embargo, encontramos que algunas señales proxy pueden llevar a más generaciones con propiedades indeseables. Por ejemplo, optimizar para la longitud de la conversación puede resultar en más generaciones controvertidas o poco amistosas en comparación con la referencia, mientras que optimizar para el sentimiento positivo o la reacción puede reducir estos comportamientos.
Los recientes transformadores de visión, CNN con núcleos grandes y MLP han logrado éxitos notables en una amplia gama de tareas visuales gracias a su efectiva fusión de información en un ámbito global. Sin embargo, su implementación eficiente, especialmente en dispositivos móviles, sigue enfrentando desafíos significativos debido a los elevados costos computacionales de los mecanismos de autoatención, los núcleos grandes o las capas completamente conectadas. En este trabajo, aplicamos el teorema de convolución convencional al aprendizaje profundo para abordar este problema y revelamos que los filtros de frecuencia adaptativos pueden funcionar como mezcladores globales de tokens eficientes. Con esta idea, proponemos el mezclador de tokens de Filtrado de Frecuencia Adaptativa (AFF, por sus siglas en inglés). Este operador neuronal transforma una representación latente al dominio de la frecuencia mediante una transformada de Fourier y realiza un filtrado de frecuencia semántico-adaptativo mediante una multiplicación elemento por elemento, lo que matemáticamente equivale a una operación de mezcla de tokens en el espacio latente original con un núcleo de convolución dinámico tan grande como la resolución espacial de esta representación latente. Utilizamos los mezcladores de tokens AFF como operadores neuronales principales para construir una red neuronal ligera, denominada AFFNet. Experimentos exhaustivos demuestran la efectividad de nuestro mezclador de tokens AFF propuesto y muestran que AFFNet logra un equilibrio superior entre precisión y eficiencia en comparación con otros diseños de redes ligeras en diversas tareas visuales, incluyendo reconocimiento visual y tareas de predicción densa.
El campo de la predicción de trayectorias ha crecido significativamente en los últimos años, en parte debido al lanzamiento de numerosos conjuntos de datos a gran escala y del mundo real sobre trayectorias humanas para vehículos autónomos (AVs) y el seguimiento del movimiento de peatones. Si bien estos conjuntos de datos han sido un gran beneficio para la comunidad, cada uno utiliza formatos y APIs personalizados y únicos, lo que dificulta a los investigadores entrenar y evaluar métodos en múltiples conjuntos de datos. Para solucionar esto, presentamos trajdata: una interfaz unificada para múltiples conjuntos de datos de trayectorias humanas. En esencia, trajdata proporciona una representación y API simple, uniforme y eficiente para datos de trayectorias y mapas. Como demostración de sus capacidades, en este trabajo realizamos una evaluación empírica exhaustiva de los conjuntos de datos de trayectorias existentes, ofreciendo a los usuarios una comprensión profunda de los datos que sustentan gran parte de la investigación actual en la predicción del movimiento de peatones y AVs, y proponiendo sugerencias para futuros conjuntos de datos basadas en estas ideas. trajdata tiene una licencia permisiva (Apache 2.0) y puede accederse en línea en https://github.com/NVlabs/trajdata.