Artículos de investigación en IA seleccionados diariamente con traducciones
En este trabajo, presentamos OmniGen, un nuevo modelo de difusión para generación unificada de imágenes. A diferencia de los modelos de difusión populares (por ejemplo, Difusión Estable), OmniGen ya no requiere módulos adicionales como ControlNet o Adaptador IP para procesar diversas condiciones de control. OmniGen se caracteriza por las siguientes características: 1) Unificación: OmniGen no solo demuestra capacidades de generación de texto a imagen, sino que también soporta inherentemente otras tareas posteriores, como edición de imágenes, generación impulsada por sujetos y generación condicional visual. Además, OmniGen puede manejar tareas clásicas de visión por computadora al transformarlas en tareas de generación de imágenes, como detección de bordes y reconocimiento de postura humana. 2) Simplicidad: La arquitectura de OmniGen es altamente simplificada, eliminando la necesidad de codificadores de texto adicionales. Además, es más amigable para el usuario en comparación con los modelos de difusión existentes, permitiendo que tareas complejas se realicen a través de instrucciones sin necesidad de pasos de preprocesamiento adicionales (por ejemplo, estimación de postura humana), simplificando significativamente el flujo de trabajo de generación de imágenes. 3) Transferencia de Conocimiento: A través del aprendizaje en un formato unificado, OmniGen transfiere eficazmente conocimiento entre diferentes tareas, gestiona tareas y dominios no vistos, y exhibe capacidades novedosas. También exploramos las capacidades de razonamiento del modelo y las posibles aplicaciones del mecanismo de cadena de pensamiento. Este trabajo representa el primer intento de un modelo de generación de imágenes de propósito general, y aún quedan varios problemas sin resolver. Publicaremos los recursos relacionados en código abierto en https://github.com/VectorSpaceLab/OmniGen para fomentar avances en este campo.
Presentamos NVLM 1.0, una familia de modelos de lenguaje grande multimodales de clase frontera que logran resultados de vanguardia en tareas de visión y lenguaje, compitiendo con los principales modelos propietarios (por ejemplo, GPT-4o) y modelos de acceso abierto (por ejemplo, Llama 3-V 405B e InternVL 2). Notablemente, NVLM 1.0 muestra un rendimiento mejorado en texto solo sobre su estructura base de modelo de lenguaje grande después del entrenamiento multimodal. En cuanto al diseño del modelo, realizamos una comparación exhaustiva entre modelos multimodales de lenguaje grande solo decodificador (por ejemplo, LLaVA) y modelos basados en atención cruzada (por ejemplo, Flamingo). Basándonos en las fortalezas y debilidades de ambos enfoques, proponemos una arquitectura novedosa que mejora tanto la eficiencia del entrenamiento como las capacidades de razonamiento multimodal. Además, introducimos un diseño de etiquetado de mosaico 1-D para imágenes dinámicas de alta resolución basadas en mosaicos, lo que aumenta significativamente el rendimiento en tareas de razonamiento multimodal y OCR. En cuanto a los datos de entrenamiento, curamos meticulosamente y proporcionamos información detallada sobre nuestros conjuntos de datos de preentrenamiento multimodal y de ajuste fino supervisado. Nuestros hallazgos indican que la calidad del conjunto de datos y la diversidad de tareas son más importantes que la escala, incluso durante la fase de preentrenamiento, en todas las arquitecturas. Destacamos el desarrollo de multimodalidad de calidad de producción para los modelos NVLM-1.0, lo que les permite destacar en tareas de visión y lenguaje mientras mantienen e incluso mejoran el rendimiento en texto solo en comparación con sus estructuras base de modelos de lenguaje grande. Para lograr esto, creamos e integramos un conjunto de datos de texto solo de alta calidad en el entrenamiento multimodal, junto con una cantidad sustancial de datos de matemáticas y razonamiento multimodal, lo que lleva a capacidades mejoradas en matemáticas y codificación en todas las modalidades. Para avanzar en la investigación en el campo, estamos liberando los pesos del modelo y haremos de código abierto para la comunidad: https://nvlm-project.github.io/.
Trabajos recientes han demostrado que los modelos de difusión grandes pueden reutilizarse como estimadores de profundidad monoculares altamente precisos al plantear la estimación de profundidad como una tarea de generación de imágenes condicionada por imágenes. Si bien el modelo propuesto logró resultados de vanguardia, las altas demandas computacionales debido a la inferencia de múltiples pasos limitaron su uso en muchos escenarios. En este documento, demostramos que la ineficiencia percibida fue causada por un defecto en la tubería de inferencia que hasta ahora había pasado desapercibido. El modelo corregido tiene un rendimiento comparable a la mejor configuración reportada previamente, pero es más de 200 veces más rápido. Para optimizar el rendimiento en tareas posteriores, realizamos un ajuste fino de extremo a extremo sobre el modelo de un solo paso con pérdidas específicas de la tarea y obtenemos un modelo determinista que supera a todos los demás modelos de estimación de profundidad y normales basados en difusión en benchmarks comunes de cero disparo. Sorprendentemente, descubrimos que este protocolo de ajuste fino también funciona directamente en la Difusión Estable y logra un rendimiento comparable a los modelos actuales de estimación de profundidad y normales basados en difusión de vanguardia, poniendo en duda algunas de las conclusiones extraídas de trabajos anteriores.
En la modelización 3D, los diseñadores suelen utilizar un modelo 3D existente como referencia para crear nuevos. Esta práctica ha inspirado el desarrollo de Phidias, un modelo generativo novedoso que utiliza difusión para la generación 3D aumentada por referencia. Dado una imagen, nuestro método aprovecha un modelo 3D de referencia recuperado o proporcionado por el usuario para guiar el proceso de generación, mejorando así la calidad de la generación, la capacidad de generalización y la controlabilidad. Nuestro modelo integra tres componentes clave: 1) meta-ControlNet que modula dinámicamente la fuerza de condicionamiento, 2) enrutamiento de referencia dinámico que mitiga el desalineamiento entre la imagen de entrada y la referencia 3D, y 3) aumentos de auto-referencia que permiten un entrenamiento auto-supervisado con un currículo progresivo. En conjunto, estos diseños resultan en una clara mejora sobre los métodos existentes. Phidias establece un marco unificado para la generación 3D utilizando texto, imagen y condiciones 3D con aplicaciones versátiles.
Los modelos de lenguaje ajustados a instrucciones (LM) son capaces de responder a comandos imperativos, ofreciendo una interfaz de usuario más natural en comparación con sus contrapartes base. En este trabajo, presentamos Promptriever, el primer modelo de recuperación capaz de ser solicitado como un LM. Para entrenar Promptriever, curamos y publicamos un nuevo conjunto de entrenamiento de instrucciones a nivel de instancia de MS MARCO, abarcando casi 500k instancias. Promptriever no solo logra un rendimiento sólido en tareas estándar de recuperación, sino que también sigue instrucciones. Observamos: (1) grandes mejoras (alcanzando el estado del arte) al seguir instrucciones detalladas de relevancia (+14.3 p-MRR / +3.1 nDCG en FollowIR), (2) una robustez significativamente aumentada a las elecciones léxicas/expresiones en la consulta+instrucción (+12.9 Robustez@10 en InstructIR), y (3) la capacidad de realizar una búsqueda de hiperparámetros a través de solicitudes para mejorar de manera confiable el rendimiento de recuperación (+1.4 aumento promedio en BEIR). Promptriever demuestra que los modelos de recuperación pueden ser controlados con solicitudes en una base por consulta, sentando las bases para futuros trabajos alineando técnicas de solicitud de LM con la recuperación de información.
Los modelos de difusión latente han mostrado resultados prometedores en tareas de generación de texto a audio (T2A), sin embargo, modelos previos han enfrentado dificultades en cuanto a la calidad de generación, el costo computacional, el muestreo de difusión y la preparación de datos. En este artículo, presentamos EzAudio, un modelo de difusión T2A basado en transformadores, para hacer frente a estos desafíos. Nuestro enfoque incluye varias innovaciones clave: (1) Construimos el modelo T2A en el espacio latente de un Variational Autoencoder (VAE) de forma de onda 1D, evitando las complejidades de manejar representaciones de espectrogramas 2D y el uso de un vocoder neural adicional. (2) Diseñamos una arquitectura de transformador de difusión optimizada específicamente adaptada para representaciones latentes de audio y modelado de difusión, lo que mejora la velocidad de convergencia, la estabilidad del entrenamiento y el uso de memoria, facilitando y haciendo más eficiente el proceso de entrenamiento. (3) Para abordar la escasez de datos, adoptamos una estrategia de entrenamiento eficiente en datos que aprovecha datos no etiquetados para aprender dependencias acústicas, datos de leyendas de audio anotados por modelos de lenguaje de audio para el aprendizaje de alineación de texto a audio, y datos etiquetados por humanos para el ajuste fino. (4) Introducimos un método de reescalado de guía sin clasificador (CFG) que simplifica EzAudio al lograr una fuerte alineación de indicaciones mientras se preserva una gran calidad de audio al utilizar puntajes de CFG más altos, eliminando la necesidad de lidiar con encontrar el puntaje de CFG óptimo para equilibrar este compromiso. EzAudio supera a los modelos de código abierto existentes tanto en métricas objetivas como en evaluaciones subjetivas, ofreciendo experiencias auditivas realistas manteniendo una estructura de modelo simplificada, costos de entrenamiento bajos y un proceso de entrenamiento fácil de seguir. El código, los datos y los modelos pre-entrenados se encuentran disponibles en: https://haidog-yaqub.github.io/EzAudio-Page/.
Investigaciones previas han evaluado LLMs cuantizados utilizando métricas limitadas como perplejidad o algunas tareas básicas de conocimiento y conjuntos de datos antiguos. Además, modelos recientes a gran escala como Llama 3.1 con hasta 405B no han sido examinados a fondo. Este documento evalúa el rendimiento de LLMs ajustados a instrucciones a través de varios métodos de cuantización (GPTQ, AWQ, SmoothQuant y FP8) en modelos que van desde 7B hasta 405B. Utilizando 13 pruebas de referencia, evaluamos el rendimiento en seis tipos de tareas: preguntas y respuestas de sentido común, comprensión de conocimiento y lenguaje, seguimiento de instrucciones, detección de alucinaciones, matemáticas y diálogo. Nuestros hallazgos clave revelan que (1) cuantizar un LLM más grande a un tamaño similar a un LLM FP16 más pequeño generalmente funciona mejor en la mayoría de las pruebas, excepto en la detección de alucinaciones y el seguimiento de instrucciones; (2) el rendimiento varía significativamente con diferentes métodos de cuantización, tamaño del modelo y ancho de bits, con métodos basados solo en pesos a menudo produciendo mejores resultados en modelos más grandes; (3) la dificultad de la tarea no impacta significativamente en la degradación de la precisión debido a la cuantización; y (4) el método de evaluación MT-Bench tiene un poder discriminatorio limitado entre LLMs recientes de alto rendimiento.
Los modelos de difusión de video han demostrado un gran potencial en la generación de videos de alta calidad, lo que los convierte en un enfoque cada vez más popular. Sin embargo, su naturaleza iterativa conlleva costos computacionales y temporales sustanciales. Aunque se han realizado esfuerzos para acelerar la difusión de video mediante la reducción de pasos de inferencia (a través de técnicas como destilación de consistencia) y el entrenamiento de GAN (estos enfoques a menudo no logran un rendimiento estable en el entrenamiento). En este trabajo, presentamos un marco de entrenamiento de dos etapas que combina eficazmente la destilación de consistencia con el entrenamiento de GAN para abordar estos desafíos. Además, proponemos un diseño novedoso de discriminador de video, que elimina la necesidad de decodificar los latentes del video y mejora el rendimiento final. Nuestro modelo es capaz de producir videos de alta calidad en tan solo un paso, con la flexibilidad de realizar un refinamiento de múltiples pasos para mejorar aún más el rendimiento. Nuestra evaluación cuantitativa en el conjunto de datos de referencia OpenWebVid-1M muestra que nuestro modelo supera significativamente a los métodos existentes. Notablemente, nuestro rendimiento de un paso (FVD 171.15) supera el rendimiento de 8 pasos del método basado en destilación de consistencia, AnimateLCM (FVD 184.79), y se acerca al rendimiento de 25 pasos de la avanzada Difusión de Video Estable (FVD 156.94).
La modelización basada en agentes (ABM, por sus siglas en inglés) busca comprender el comportamiento de sistemas complejos mediante la simulación de una colección de agentes que actúan e interactúan dentro de un entorno. Su utilidad práctica requiere capturar dinámicas ambientales realistas y el comportamiento adaptativo de los agentes mientras se simulan eficientemente poblaciones de millones de individuos. Los avances recientes en modelos de lenguaje grandes (LLMs) presentan una oportunidad para mejorar los ABMs mediante el uso de LLMs como agentes, con un mayor potencial para capturar comportamientos adaptativos. Sin embargo, la inviabilidad computacional de utilizar LLMs para poblaciones grandes ha obstaculizado su adopción generalizada. En este artículo, presentamos AgentTorch, un marco que escala los ABMs a millones de agentes mientras captura el comportamiento de los agentes con alta resolución utilizando LLMs. Evaluamos la utilidad de los LLMs como agentes de ABM, explorando el equilibrio entre la escala de la simulación y la agencia individual. Utilizando la pandemia de COVID-19 como caso de estudio, demostramos cómo AgentTorch puede simular 8,4 millones de agentes representando la ciudad de Nueva York, capturando el impacto del aislamiento y el comportamiento laboral en la salud y los resultados económicos. Comparamos el rendimiento de diferentes arquitecturas de agentes basadas en heurísticas y LLMs en la predicción de olas de enfermedades y tasas de desempleo. Además, mostramos las capacidades de AgentTorch para análisis retrospectivos, contrafactuales y prospectivos, resaltando cómo el comportamiento adaptativo de los agentes puede ayudar a superar las limitaciones de los datos históricos en el diseño de políticas. AgentTorch es un proyecto de código abierto que se utiliza activamente para la toma de decisiones políticas y el descubrimiento científico en todo el mundo. El marco está disponible aquí: github.com/AgentTorch/AgentTorch.
Nos enfocamos en el salto ágil, continuo y adaptable al terreno de robots cuadrúpedos en terrenos discontinuos como escaleras y piedras de paso. A diferencia del salto de un solo paso, el salto continuo requiere ejecutar con precisión movimientos altamente dinámicos a lo largo de horizontes largos, lo cual es un desafío para los enfoques existentes. Para lograr esta tarea, diseñamos un marco jerárquico de aprendizaje y control, que consta de un predictor de mapa de alturas aprendido para una percepción robusta del terreno, una política de movimiento a nivel del centroide basada en aprendizaje por refuerzo para una planificación versátil y adaptable al terreno, y un controlador de patas basado en modelos a nivel bajo para un seguimiento preciso del movimiento. Además, minimizamos la brecha entre simulación y realidad al modelar con precisión las características del hardware. Nuestro marco permite que un robot Unitree Go1 realice saltos ágiles y continuos en escaleras de tamaño humano y en piedras de paso dispersas, por primera vez según nuestro conocimiento. En particular, el robot puede cruzar dos escalones en cada salto y completar una escalera de 3,5m de longitud, 2,8m de altura y 14 escalones en 4,5 segundos. Además, la misma política supera a los puntos de referencia en varias otras tareas de parkour, como saltar sobre discontinuidades horizontales o verticales simples. Se pueden encontrar videos de experimentos en https://yxyang.github.io/jumping\_cod/.
La digitalización de escenas 3D estáticas y eventos dinámicos 4D a partir de imágenes de múltiples vistas ha sido durante mucho tiempo un desafío en visión por computadora y gráficos. Recientemente, el Splatting Gaussiano 3D (3DGS) ha surgido como un método de reconstrucción práctico y escalable, ganando popularidad debido a su impresionante calidad de reconstrucción, capacidades de renderizado en tiempo real y compatibilidad con herramientas de visualización ampliamente utilizadas. Sin embargo, el método requiere un número sustancial de vistas de entrada para lograr una reconstrucción de escena de alta calidad, lo que introduce un cuello de botella práctico significativo. Este desafío es especialmente severo en la captura de escenas dinámicas, donde desplegar una extensa matriz de cámaras puede resultar prohibitivamente costoso. En este trabajo, identificamos la falta de autocorrelación espacial de las características de splat como uno de los factores que contribuyen al rendimiento subóptimo de la técnica 3DGS en entornos de reconstrucción dispersa. Para abordar el problema, proponemos una estrategia de optimización que regulariza de manera efectiva las características de splat al modelarlas como las salidas de un campo neural implícito correspondiente. Esto resulta en una mejora consistente de la calidad de reconstrucción en varios escenarios. Nuestro enfoque maneja de manera efectiva casos estáticos y dinámicos, como se demuestra mediante pruebas extensas en diferentes configuraciones y complejidades de escena.
Los LLMs son una parte integral de los sistemas de generación aumentada por recuperación (RAG). Mientras que muchos estudios se centran en evaluar la calidad de los sistemas RAG de extremo a extremo, hay una falta de investigación sobre la comprensión de la adecuación de un LLM para la tarea RAG. Por lo tanto, presentamos una nueva métrica, Puntuación de Confianza, que proporciona una evaluación holística de la confiabilidad de los LLMs en un marco RAG. Mostramos que varios métodos de estimulación, como el aprendizaje en contexto, no logran adaptar los LLMs de manera efectiva a la tarea RAG. Por lo tanto, proponemos Trust-Align, un marco para alinear los LLMs para obtener una Puntuación de Confianza más alta. LLaMA-3-8b, alineado con nuestro método, supera significativamente a los LLMs de código abierto de tamaños comparables en ASQA (hasta 10.7), QAMPARI (hasta 29.2) y ELI5 (hasta 14.9). Publicamos nuestro código en: https://github.com/declare-lab/trust-align.
Comprender las emociones es fundamental para la interacción y la experiencia humanas. Los humanos fácilmente infieren emociones a partir de situaciones o expresiones faciales, situaciones a partir de emociones, y realizan una variedad de otras cogniciones afectivas. ¿Qué tan hábil es la inteligencia artificial moderna en estas inferencias? Presentamos un marco de evaluación para probar la cognición afectiva en modelos fundamentales. Partiendo de la teoría psicológica, generamos 1,280 escenarios diversos que exploran las relaciones entre valoraciones, emociones, expresiones y resultados. Evaluamos las habilidades de los modelos fundamentales (GPT-4, Claude-3, Gemini-1.5-Pro) y humanos (N = 567) en condiciones cuidadosamente seleccionadas. Nuestros resultados muestran que los modelos fundamentales tienden a estar de acuerdo con las intuiciones humanas, igualando o superando el acuerdo entre participantes. En algunas condiciones, los modelos son "superhumanos" - prediciendo mejor los juicios humanos modales que el humano promedio. Todos los modelos se benefician del razonamiento en cadena de pensamiento. Esto sugiere que los modelos fundamentales han adquirido una comprensión de las emociones similar a la humana y su influencia en creencias y comportamiento.
La Representación Neuronal Implícita (INR, por sus siglas en inglés), que aprovecha una red neuronal para transformar la entrada de coordenadas en atributos correspondientes, ha impulsado recientemente avances significativos en varios dominios relacionados con la visión. Sin embargo, el rendimiento de INR está fuertemente influenciado por la elección de la función de activación no lineal utilizada en su arquitectura de perceptrón multicapa (MLP, por sus siglas en inglés). Se han investigado múltiples no linealidades; sin embargo, los INR actuales enfrentan limitaciones en la captura de componentes de alta frecuencia, diversos tipos de señales y en el manejo de problemas inversos. Hemos identificado que estos problemas pueden ser ampliamente aliviados mediante la introducción de un cambio de paradigma en los INR. Descubrimos que una arquitectura con activaciones aprendibles en las capas iniciales puede representar detalles finos en las señales subyacentes. Específicamente, proponemos SL^{2}A-INR, una red híbrida para INR con una función de activación aprendible de una sola capa, que promueve la efectividad de los MLP basados en ReLU tradicionales. Nuestro método tiene un rendimiento superior en diversas tareas, incluyendo representación de imágenes, reconstrucciones de formas 3D, inpainting, super-resolución de imágenes individuales, reconstrucción de TC y síntesis de vistas novedosas. A través de experimentos exhaustivos, SL^{2}A-INR establece nuevos referentes en precisión, calidad y tasas de convergencia para INR.
La reciente explosión de sistemas de IA generativa de música ha suscitado numerosas preocupaciones sobre los derechos de autor de los datos, la licencia de música de músicos y el conflicto entre la IA de código abierto y las grandes empresas de prestigio. Estas cuestiones resaltan la necesidad de datos musicales públicamente disponibles y libres de derechos de autor, de los cuales hay una gran escasez, especialmente para datos musicales simbólicos. Para aliviar este problema, presentamos PDMX: un conjunto de datos de código abierto a gran escala con más de 250 000 partituras MusicXML de dominio público recopiladas del foro de intercambio de partituras MuseScore, convirtiéndolo en el conjunto de datos de música simbólica libre de derechos de autor más grande disponible que conocemos. PDMX también incluye una gran cantidad de metadatos de etiquetas e interacción de usuarios, lo que nos permite analizar eficientemente el conjunto de datos y filtrar partituras generadas por usuarios de alta calidad. Dado el metadato adicional proporcionado por nuestro proceso de recopilación de datos, llevamos a cabo experimentos de generación de música multicanal evaluando cómo diferentes subconjuntos representativos de PDMX conducen a diferentes comportamientos en modelos posteriores, y cómo las estadísticas de calificación de usuarios pueden utilizarse como medida efectiva de la calidad de los datos. Se pueden encontrar ejemplos en https://pnlong.github.io/PDMX.demo/.
Las representaciones neuronales implícitas (INRs) utilizan redes neuronales para proporcionar representaciones continuas e independientes de la resolución de señales complejas con un número reducido de parámetros. Sin embargo, los modelos INR existentes a menudo no logran capturar componentes de frecuencia importantes específicos para cada tarea. Para abordar este problema, en este documento proponemos una red de Fourier Kolmogorov Arnold (FKAN) para INRs. El FKAN propuesto utiliza funciones de activación aprendibles modeladas como series de Fourier en la primera capa para controlar y aprender de manera efectiva los componentes de frecuencia específicos de la tarea. Además, las funciones de activación con coeficientes de Fourier aprendibles mejoran la capacidad de la red para capturar patrones y detalles complejos, lo cual es beneficioso para datos de alta resolución y alta dimensionalidad. Los resultados experimentales muestran que nuestro modelo FKAN propuesto supera a tres esquemas de referencia de última generación y mejora el índice de relación señal a ruido pico (PSNR) y la medida de índice de similitud estructural (SSIM) para la tarea de representación de imágenes y la intersección sobre unión (IoU) para la tarea de representación de volumen de ocupación 3D, respectivamente.