Artículos de investigación en IA seleccionados diariamente con traducciones
StarCraft II es uno de los entornos de aprendizaje por refuerzo simulado más desafiantes; es parcialmente observable, estocástico, multiagente, y dominar StarCraft II requiere planificación estratégica a largo plazo con ejecución en tiempo real a bajo nivel. Además, cuenta con una escena competitiva profesional activa. StarCraft II es especialmente adecuado para avanzar en algoritmos de aprendizaje por refuerzo offline, tanto por su naturaleza desafiante como porque Blizzard ha publicado un conjunto masivo de datos que incluye millones de partidas de StarCraft II jugadas por humanos. Este artículo aprovecha esto y establece un punto de referencia, llamado AlphaStar Unplugged, introduciendo desafíos sin precedentes para el aprendizaje por refuerzo offline. Definimos un conjunto de datos (un subconjunto del lanzamiento de Blizzard), herramientas que estandarizan una API para métodos de aprendizaje automático y un protocolo de evaluación. También presentamos agentes de referencia, incluyendo clonación de comportamiento, variantes offline de actor-crítico y MuZero. Mejoramos el estado del arte de los agentes que utilizan únicamente datos offline, y logramos una tasa de victorias del 90% frente al agente de clonación de comportamiento de AlphaStar previamente publicado.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) están volviéndose cada vez más inteligentes y autónomos, enfocándose en misiones pragmáticas del mundo real que van más allá de las tareas tradicionales de Procesamiento del Lenguaje Natural (NLP). Como resultado, ha surgido una necesidad urgente de evaluar los LLMs como agentes en tareas desafiantes dentro de entornos interactivos. Presentamos AgentBench, un punto de referencia multidimensional y en evolución que actualmente consta de 8 entornos distintos para evaluar las capacidades de razonamiento y toma de decisiones de los LLMs como agentes en un entorno de generación abierta y de múltiples turnos. Nuestras pruebas extensas sobre 25 LLMs (incluyendo APIs y modelos de código abierto) muestran que, aunque los principales LLMs comerciales presentan una fuerte capacidad para actuar como agentes en entornos complejos, existe una disparidad significativa en el rendimiento entre ellos y sus competidores de código abierto. Además, AgentBench sirve como un componente de un proyecto en curso con una cobertura más amplia y una consideración más profunda hacia la evaluación sistemática de los LLMs. Los conjuntos de datos, entornos y un paquete de evaluación integrado para AgentBench están disponibles en https://github.com/THUDM/AgentBench.
Crear avatares 3D expresivos, diversos y de alta calidad a partir de descripciones de texto altamente personalizadas y guías de postura es una tarea desafiante, debido a la complejidad del modelado y texturizado en 3D que garantizan detalles y diversos estilos (realistas, ficticios, etc.). Presentamos AvatarVerse, una canalización estable para generar avatares 3D de alta calidad y expresivos únicamente a partir de descripciones de texto y guías de postura. En concreto, introducimos un modelo de difusión 2D condicionado por señales de DensePose para establecer el control de postura 3D de los avatares a través de imágenes 2D, lo que mejora la consistencia visual en escenarios parcialmente observados. Esto aborda el famoso Problema de Janus y estabiliza significativamente el proceso de generación. Además, proponemos una estrategia progresiva de síntesis 3D de alta resolución, que obtiene una mejora sustancial en la calidad de los avatares 3D creados. De esta manera, la canalización propuesta de AvatarVerse logra un modelado 3D de avatares en modo zero-shot que no solo son más expresivos, sino también de mayor calidad y fidelidad que trabajos anteriores. Evaluaciones cualitativas rigurosas y estudios de usuarios demuestran la superioridad de AvatarVerse en la síntesis de avatares 3D de alta fidelidad, estableciendo un nuevo estándar en la creación de avatares 3D de alta calidad y estabilidad. Nuestra página del proyecto es: https://avatarverse3d.github.io.
Los recientes modelos generativos de texto a imagen nos han permitido transformar nuestras palabras en imágenes vibrantes y cautivadoras. El auge de las técnicas de personalización que ha seguido también nos ha permitido imaginar conceptos únicos en nuevos escenarios. Sin embargo, persiste una pregunta intrigante: ¿Cómo podemos generar un nuevo concepto imaginario que nunca antes se haya visto? En este artículo, presentamos la tarea de generación creativa de texto a imagen, donde buscamos generar nuevos miembros de una categoría amplia (por ejemplo, generar una mascota que difiera de todas las mascotas existentes). Aprovechamos los modelos de Prior de Difusión, poco estudiados, y demostramos que el problema de generación creativa puede formularse como un proceso de optimización sobre el espacio de salida del prior de difusión, lo que resulta en un conjunto de "restricciones de prior". Para evitar que nuestro concepto generado converja en miembros existentes, incorporamos un modelo de pregunta-respuesta que añade adaptativamente nuevas restricciones al problema de optimización, incentivando al modelo a descubrir creaciones cada vez más únicas. Finalmente, mostramos que nuestras restricciones de prior también pueden servir como un mecanismo de mezcla potente, permitiéndonos crear híbridos entre conceptos generados, introduciendo aún más flexibilidad en el proceso creativo.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado una generalización notable, como la capacidad de comprender entidades y relaciones arbitrarias. El ajuste por instrucciones ha demostrado ser efectivo para destilar LLMs en modelos más eficientes en costos, como Alpaca y Vicuna. Sin embargo, estos modelos derivados aún se quedan muy por detrás de los LLMs originales en aplicaciones posteriores. En este artículo, exploramos la destilación dirigida con ajuste por instrucciones enfocado en misiones específicas para entrenar modelos derivados que puedan sobresalir en una clase amplia de aplicaciones, como la extracción abierta de información. Utilizando el reconocimiento de entidades nombradas (NER) como estudio de caso, mostramos cómo ChatGPT puede ser destilado en modelos UniversalNER mucho más pequeños para NER abierto. Para la evaluación, hemos reunido el mayor conjunto de pruebas de NER hasta la fecha, que comprende 43 conjuntos de datos en 9 dominios diversos, como biomedicina, programación, redes sociales, derecho y finanzas. Sin utilizar supervisión directa, UniversalNER alcanza una precisión notable en NER a través de decenas de miles de tipos de entidades, superando a modelos ajustados por instrucciones generales como Alpaca y Vicuna por más de 30 puntos F1 absolutos en promedio. Con una fracción mínima de parámetros, UniversalNER no solo adquiere la capacidad de ChatGPT para reconocer tipos de entidades arbitrarios, sino que también supera su precisión en NER por 7-9 puntos F1 absolutos en promedio. Notablemente, UniversalNER incluso supera por un amplio margen a sistemas de última generación ajustados por instrucciones multitarea, como InstructUIE, que utiliza ejemplos supervisados de NER. También realizamos estudios de ablación exhaustivos para evaluar el impacto de varios componentes en nuestro enfoque de destilación. Publicaremos la receta de destilación, los datos y los modelos UniversalNER para facilitar futuras investigaciones sobre destilación dirigida.
Ver es creer, sin embargo, el mecanismo subyacente de cómo las percepciones visuales humanas están entrelazadas con nuestras cogniciones sigue siendo un misterio. Gracias a los recientes avances tanto en neurociencia como en inteligencia artificial, hemos podido registrar las actividades cerebrales evocadas visualmente y emular la capacidad de percepción visual mediante enfoques computacionales. En este artículo, nos centramos en la reconstrucción de estímulos visuales mediante la reconstrucción de las imágenes observadas basándonos en señales cerebrales accesibles de manera portátil, es decir, datos de electroencefalografía (EEG). Dado que las señales EEG son dinámicas en formato de series temporales y son notoriamente ruidosas, procesar y extraer información útil requiere esfuerzos más dedicados. En este artículo, proponemos una pipeline integral, denominada NeuroImagen, para reconstruir imágenes de estímulos visuales a partir de señales EEG. Específicamente, incorporamos una novedosa decodificación de información perceptual multinivel para obtener salidas de múltiples granularidades a partir de los datos EEG proporcionados. Un modelo de difusión latente aprovechará entonces la información extraída para reconstruir las imágenes de estímulos visuales de alta resolución. Los resultados experimentales han demostrado la efectividad de la reconstrucción de imágenes y el rendimiento cuantitativo superior de nuestro método propuesto.
Con los recientes avances en el procesamiento del lenguaje natural, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han surgido como herramientas poderosas para diversas aplicaciones del mundo real. A pesar de su destreza, las capacidades generativas intrínsecas de los LLMs pueden resultar insuficientes para manejar tareas complejas que requieren una combinación de planificación de tareas y el uso de herramientas externas. En este artículo, primero proponemos un marco estructurado diseñado específicamente para Agentes de IA basados en LLMs y discutimos las capacidades cruciales necesarias para abordar problemas intrincados. Dentro de este marco, diseñamos dos tipos distintos de agentes (es decir, un agente de un solo paso y un agente secuencial) para ejecutar el proceso de inferencia. Posteriormente, instanciamos el marco utilizando varios LLMs y evaluamos sus habilidades de Planificación de Tareas y Uso de Herramientas (TPTU, por sus siglas en inglés) en tareas típicas. Al resaltar hallazgos clave y desafíos, nuestro objetivo es proporcionar un recurso útil para que investigadores y profesionales aprovechen el poder de los LLMs en sus aplicaciones de IA. Nuestro estudio enfatiza el potencial significativo de estos modelos, al mismo tiempo que identifica áreas que requieren más investigación y mejora.
Al intentar obtener una mayor visibilidad sobre un modelo de aprendizaje automático para comprender y mitigar los riesgos asociados, una fuente de evidencia potencialmente valiosa es: ¿qué ejemplos de entrenamiento contribuyen más a un comportamiento dado? Las funciones de influencia buscan responder a una pregunta contrafactual: ¿cómo cambiarían los parámetros del modelo (y, por lo tanto, sus salidas) si se añadiera una secuencia determinada al conjunto de entrenamiento? Aunque las funciones de influencia han proporcionado insights en modelos pequeños, son difíciles de escalar a modelos de lenguaje grandes (LLMs) debido a la dificultad de calcular un producto vectorial de la inversa del hessiano (IHVP). Utilizamos la aproximación Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) para escalar las funciones de influencia hasta LLMs con hasta 52 mil millones de parámetros. En nuestros experimentos, EK-FAC logra una precisión similar a la de los estimadores tradicionales de funciones de influencia, a pesar de que el cálculo del IHVP es órdenes de magnitud más rápido. Investigamos dos técnicas algorítmicas para reducir el costo de calcular los gradientes de secuencias candidatas de entrenamiento: filtrado TF-IDF y agrupación de consultas. Utilizamos funciones de influencia para investigar los patrones de generalización de los LLMs, incluyendo la dispersión de los patrones de influencia, el aumento de la abstracción con la escala, las habilidades en matemáticas y programación, la generalización multilingüe y el comportamiento de interpretación de roles. A pesar de muchas formas aparentemente sofisticadas de generalización, identificamos una limitación sorprendente: las influencias decaen a casi cero cuando se invierte el orden de frases clave. En general, las funciones de influencia nos proporcionan una herramienta poderosa para estudiar las propiedades de generalización de los LLMs.
La magnificación de movimiento nos permite visualizar movimientos sutiles e imperceptibles. Sin embargo, los métodos anteriores solo funcionan para videos 2D capturados con una cámara fija. Presentamos un método de magnificación de movimiento en 3D que puede amplificar movimientos sutiles en escenas capturadas por una cámara en movimiento, al mismo tiempo que permite la renderización de nuevas vistas. Representamos la escena con campos de radiancia que varían en el tiempo y aprovechamos el principio Euleriano para la magnificación de movimiento, con el fin de extraer y amplificar la variación de la incrustación de un punto fijo a lo largo del tiempo. Estudiamos y validamos nuestro principio propuesto para la magnificación de movimiento en 3D utilizando tanto campos de radiancia implícitos como basados en triplanos como nuestra representación subyacente de la escena 3D. Evaluamos la efectividad de nuestro método en escenas tanto sintéticas como del mundo real, capturadas bajo diversas configuraciones de cámara.
Los recientes avances en los Modelos de Lenguaje y Visión a Gran Escala (LVLMs, por sus siglas en inglés) han demostrado un progreso significativo en la resolución de tareas multimodales complejas. Entre estos desarrollos de vanguardia, Bard de Google destaca por sus notables capacidades multimodales, promoviendo una comprensión y razonamiento integrales en diversos dominios. Este trabajo presenta una evaluación temprana y holística de las habilidades multimodales de los LVLMs, con un enfoque particular en Bard, mediante la propuesta de una variante ligera de LVLM-eHub, denominada Tiny LVLM-eHub. En comparación con la versión estándar, Tiny LVLM-eHub posee varias propiedades atractivas. En primer lugar, ofrece una evaluación sistemática de seis categorías de capacidades multimodales, que incluyen percepción visual, adquisición de conocimiento visual, razonamiento visual, sentido común visual, alucinación de objetos e inteligencia encarnada, a través de la evaluación cuantitativa de 42 benchmarks visuales estándar relacionados con texto. En segundo lugar, realiza un análisis en profundidad de las predicciones de los LVLMs utilizando la Evaluación de Conjunto de ChatGPT (CEE, por sus siglas en inglés), lo que conduce a una evaluación robusta y precisa y muestra una mayor alineación con la evaluación humana en comparación con el enfoque de coincidencia de palabras. En tercer lugar, comprende solo 2.1K pares de imagen-texto, facilitando su uso para que los profesionales evalúen sus propios LVLMs offline. A través de un extenso análisis experimental, este estudio demuestra que Bard supera a los LVLMs anteriores en la mayoría de las capacidades multimodales, excepto en la alucinación de objetos, a la cual Bard sigue siendo susceptible. Tiny LVLM-eHub sirve como una evaluación de referencia para varios LVLMs y fomenta estrategias innovadoras destinadas a avanzar en las técnicas multimodales. Nuestro proyecto está disponible públicamente en https://github.com/OpenGVLab/Multi-Modality-Arena.
Los modelos de lenguaje grandes existentes deben ejecutarse K veces para generar una secuencia de K tokens. En este artículo, presentamos RecycleGPT, un modelo de lenguaje generativo con una velocidad de decodificación rápida al reciclar estados del modelo pregenerados sin ejecutar el modelo completo en múltiples pasos. Nuestro enfoque se basa en la observación de que los tokens adyacentes en una secuencia suelen tener fuertes correlaciones y el siguiente token en una secuencia puede ser razonablemente adivinado o inferido basándose en los anteriores. A través de evaluaciones teóricas y pruebas prácticas en tareas de generación de texto, demostramos la efectividad de nuestro enfoque para reducir la latencia de inferencia, logrando una aceleración de hasta 1.4x mientras se mantiene un alto rendimiento.
Recientemente, los Campos de Radiancia Neural (NeRF) han demostrado un éxito significativo en la síntesis de nuevas vistas, reconstrucción de superficies, etc. Sin embargo, dado que no se considera la reflexión física en su pipeline de renderizado, NeRF confunde la reflexión en el espejo como una escena virtual separada, lo que lleva a una reconstrucción inexacta del espejo y a reflexiones inconsistentes en múltiples vistas en el espejo. En este artículo, presentamos un nuevo marco de renderizado neural, denominado Mirror-NeRF, que es capaz de aprender la geometría y la reflexión precisa del espejo y soportar diversas aplicaciones de manipulación de escenas con espejos, como agregar nuevos objetos o espejos a la escena y sintetizar las reflexiones de estos nuevos objetos en los espejos, controlar la rugosidad del espejo, etc. Para lograr este objetivo, proponemos un campo de radiancia unificado mediante la introducción de la probabilidad de reflexión y el trazado de rayos siguiendo el modelo de transporte de luz de Whitted Ray Tracing, y también desarrollamos varias técnicas para facilitar el proceso de aprendizaje. Los experimentos y comparaciones en conjuntos de datos sintéticos y reales demuestran la superioridad de nuestro método. El código y el material complementario están disponibles en la página web del proyecto: https://zju3dv.github.io/Mirror-NeRF/.
Para el control industrial, desarrollar controladores de alto rendimiento con pocas muestras y baja deuda técnica es muy atractivo. Los modelos fundacionales, que poseen un conocimiento previo rico obtenido del preentrenamiento con corpus a escala de Internet, tienen el potencial de ser buenos controladores con las indicaciones adecuadas. En este artículo, tomamos el control de edificios HVAC (Calefacción, Ventilación y Aire Acondicionado) como ejemplo para examinar la capacidad de GPT-4 (uno de los modelos fundacionales de primer nivel) como controlador. Para controlar HVAC, enmarcamos la tarea como un juego de lenguaje proporcionando texto que incluye una breve descripción de la tarea, varias demostraciones seleccionadas y la observación actual a GPT-4 en cada paso, y ejecutamos las acciones respondidas por GPT-4. Realizamos una serie de experimentos para responder las siguientes preguntas: 1) ¿Qué tan bien puede GPT-4 controlar HVAC? 2) ¿Qué tan bien puede GPT-4 generalizar a diferentes escenarios para el control de HVAC? 3) ¿Cómo afectan las diferentes partes del contexto textual al rendimiento? En general, encontramos que GPT-4 alcanza un rendimiento comparable a los métodos de aprendizaje por refuerzo (RL) con pocas muestras y baja deuda técnica, lo que indica el potencial de aplicar directamente modelos fundacionales a tareas de control industrial.
El desarrollo de bibliotecas de software de aprendizaje profundo permitió avances significativos en el campo al permitir que los usuarios se centraran en el modelado, mientras que la biblioteca se encargaba de la tarea tediosa y que consume tiempo de optimizar la ejecución para los aceleradores de hardware modernos. Sin embargo, esto ha beneficiado solo a tipos particulares de modelos de aprendizaje profundo, como los Transformers, cuyas primitivas se mapean fácilmente al cálculo vectorizado. Los modelos que explícitamente tienen en cuenta objetos estructurados, como árboles y segmentaciones, no se beneficiaron de igual manera porque requieren algoritmos personalizados que son difíciles de implementar en forma vectorizada. SynJax aborda directamente este problema al proporcionar una implementación vectorizada eficiente de algoritmos de inferencia para distribuciones estructuradas que cubren alineación, etiquetado, segmentación, árboles de constituyentes y árboles de expansión. Con SynJax podemos construir modelos diferenciables a gran escala que modelan explícitamente la estructura en los datos. El código está disponible en https://github.com/deepmind/synjax.
La cuantización se ha convertido en una técnica de compresión predominante para reducir el tamaño de los modelos, los requisitos computacionales y el consumo de energía en las redes neuronales profundas (DNN) modernas. Con el mejor soporte numérico en hardware reciente, que incluye múltiples variantes de enteros y punto flotante, la cuantización de precisión mixta se ha vuelto necesaria para lograr resultados de alta calidad con un costo de modelo reducido. Los métodos previos de cuantización de precisión mixta han realizado una búsqueda de cuantización post-entrenamiento, lo que compromete la precisión, o una búsqueda de cuantización diferenciable, lo que genera un alto uso de memoria debido a la ramificación. Por lo tanto, proponemos la primera búsqueda de cuantización de precisión mixta en un solo paso que elimina la necesidad de reentrenamiento tanto en modelos de enteros como de punto flotante de baja precisión. Evaluamos nuestra búsqueda de cuantización de punto flotante y enteros (FLIQS) en múltiples redes convolucionales y modelos de transformadores de visión para descubrir modelos Pareto-óptimos. Nuestro enfoque descubre modelos que superan a la precisión uniforme, la precisión mixta manual y los métodos recientes de búsqueda de cuantización de enteros. Con la búsqueda de cuantización de enteros propuesta, aumentamos la precisión de ResNet-18 en ImageNet en 1.31 puntos porcentuales y de ResNet-50 en 0.90 puntos porcentuales con un costo de modelo equivalente en comparación con métodos anteriores. Además, por primera vez, exploramos una novedosa búsqueda de precisión mixta en punto flotante y mejoramos MobileNetV2 hasta en 0.98 puntos porcentuales en comparación con los modelos FP8 más avanzados anteriores. Finalmente, extendemos FLIQS para buscar simultáneamente un espacio conjunto de cuantización y arquitectura neuronal, mejorando la precisión en ImageNet en 2.69 puntos porcentuales con un costo de modelo similar en un espacio de búsqueda de MobileNetV2.
Los modelos generativos profundos pueden generar audio de alta fidelidad condicionado a diversos tipos de representaciones (por ejemplo, mel-espectrogramas, coeficientes cepstrales en la frecuencia Mel (MFCC)). Recientemente, estos modelos se han utilizado para sintetizar formas de onda de audio condicionadas a representaciones altamente comprimidas. Aunque estos métodos producen resultados impresionantes, son propensos a generar artefactos audibles cuando el condicionamiento es defectuoso o imperfecto. Un enfoque alternativo de modelado es el uso de modelos de difusión. Sin embargo, estos se han utilizado principalmente como vocoders de voz (es decir, condicionados a mel-espectrogramas) o para generar señales con una tasa de muestreo relativamente baja. En este trabajo, proponemos un marco basado en difusión de múltiples bandas y alta fidelidad que genera cualquier tipo de modalidad de audio (por ejemplo, voz, música, sonidos ambientales) a partir de representaciones discretas de bajo bitrate. A igual tasa de bits, el enfoque propuesto supera a las técnicas generativas más avanzadas en términos de calidad perceptual. El código de entrenamiento y evaluación, junto con muestras de audio, están disponibles en la página de Github facebookresearch/audiocraft.