Artículos de investigación en IA seleccionados diariamente con traducciones
Proponemos un marco para clasificar las capacidades y el comportamiento de los modelos de Inteligencia General Artificial (AGI) y sus precursores. Este marco introduce niveles de desempeño, generalidad y autonomía de la AGI. Esperamos que este marco sea útil de manera análoga a los niveles de conducción autónoma, al proporcionar un lenguaje común para comparar modelos, evaluar riesgos y medir el progreso en el camino hacia la AGI. Para desarrollar nuestro marco, analizamos las definiciones existentes de AGI y destilamos seis principios que una ontología útil para la AGI debería satisfacer. Estos principios incluyen centrarse en las capacidades en lugar de los mecanismos; evaluar por separado la generalidad y el desempeño; y definir etapas en el camino hacia la AGI, en lugar de enfocarse en el punto final. Con estos principios en mente, proponemos 'Niveles de AGI' basados en la profundidad (desempeño) y amplitud (generalidad) de las capacidades, y reflexionamos sobre cómo los sistemas actuales se ajustan a esta ontología. Discutimos los desafiantes requisitos para futuros puntos de referencia que cuantifiquen el comportamiento y las capacidades de los modelos de AGI en relación con estos niveles. Finalmente, discutimos cómo estos niveles de AGI interactúan con consideraciones de implementación como la autonomía y el riesgo, y enfatizamos la importancia de seleccionar cuidadosamente los paradigmas de Interacción Humano-IA para una implementación responsable y segura de sistemas de IA altamente capaces.
Los Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) extienden los Modelos de Lenguaje de Gran Escala al dominio visual. Los primeros esfuerzos hacia los LMMs utilizaron imágenes holísticas y textos de entrada para generar respuestas textuales no fundamentadas. Muy recientemente, los LMMs a nivel de región han sido utilizados para generar respuestas visualmente fundamentadas. Sin embargo, están limitados a referirse a una sola categoría de objeto a la vez, requieren que los usuarios especifiquen las regiones en las entradas, o no pueden ofrecer una fundamentación densa de objetos a nivel de píxeles. En este trabajo, presentamos el Modelo Multimodal de Gran Escala con Fundamentación (GLaMM), el primer modelo que puede generar respuestas en lenguaje natural entrelazadas de manera fluida con las máscaras de segmentación de objetos correspondientes. GLaMM no solo fundamenta los objetos que aparecen en las conversaciones, sino que también es lo suficientemente flexible para aceptar tanto textos de entrada como indicaciones visuales opcionales (región de interés) como entrada. Esto permite a los usuarios interactuar con el modelo en varios niveles de granularidad, tanto en el dominio textual como en el visual. Debido a la falta de puntos de referencia estándar para el nuevo escenario de generar conversaciones detalladas visualmente fundamentadas, introducimos un protocolo de evaluación exhaustivo con nuestras conversaciones fundamentadas curadas. Nuestra tarea propuesta de Generación de Conversaciones Fundamentadas (GCG, por sus siglas en inglés) requiere conceptos densamente fundamentados en escenas naturales a gran escala. Para ello, proponemos un Conjunto de Datos de Fundamentación de Cualquier Cosa (GranD) densamente anotado utilizando nuestra tubería de anotación automatizada propuesta que abarca 7.5M de conceptos únicos fundamentados en un total de 810M regiones disponibles con máscaras de segmentación. Además de GCG, GLaMM también se desempeña eficazmente en varias tareas posteriores, por ejemplo, segmentación de expresiones referenciales, generación de subtítulos a nivel de imagen y región, y conversaciones de visión y lenguaje. Página del Proyecto: https://mbzuai-oryx.github.io/groundingLMM.
La síntesis de video ha experimentado avances notables recientemente, beneficiándose del rápido desarrollo de los modelos de difusión. Sin embargo, aún enfrenta desafíos en términos de precisión semántica, claridad y continuidad espacio-temporal. Estos problemas surgen principalmente de la escasez de datos texto-video bien alineados y de la compleja estructura inherente de los videos, lo que dificulta que el modelo garantice simultáneamente la excelencia semántica y cualitativa. En este informe, proponemos un enfoque en cascada llamado I2VGen-XL que mejora el rendimiento del modelo al desacoplar estos dos factores y asegura la alineación de los datos de entrada utilizando imágenes estáticas como una forma de guía crucial. I2VGen-XL consta de dos etapas: i) la etapa base garantiza una semántica coherente y preserva el contenido de las imágenes de entrada mediante el uso de dos codificadores jerárquicos, y ii) la etapa de refinamiento mejora los detalles del video incorporando un texto breve adicional y aumenta la resolución a 1280x720. Para mejorar la diversidad, recopilamos alrededor de 35 millones de pares texto-video de una sola toma y 6 mil millones de pares texto-imagen para optimizar el modelo. De esta manera, I2VGen-XL puede mejorar simultáneamente la precisión semántica, la continuidad de los detalles y la claridad de los videos generados. A través de experimentos exhaustivos, hemos investigado los principios subyacentes de I2VGen-XL y lo hemos comparado con los métodos más avanzados actuales, lo que demuestra su efectividad en diversos datos. El código fuente y los modelos estarán disponibles públicamente en https://i2vgen-xl.github.io.
El paradigma de "preentrenar y luego ajustar" es comúnmente adoptado en el despliegue de modelos de lenguaje grandes. La Adaptación de Bajo Rango (LoRA), un método de ajuste fino eficiente en parámetros, se emplea frecuentemente para adaptar un modelo base a una multitud de tareas, lo que resulta en una colección sustancial de adaptadores LoRA derivados de un único modelo base. Observamos que este paradigma presenta oportunidades significativas para la inferencia por lotes durante el servicio. Para aprovechar estas oportunidades, presentamos S-LoRA, un sistema diseñado para el servicio escalable de muchos adaptadores LoRA. S-LoRA almacena todos los adaptadores en la memoria principal y carga los adaptadores utilizados por las consultas actualmente en ejecución a la memoria de la GPU. Para utilizar eficientemente la memoria de la GPU y reducir la fragmentación, S-LoRA propone Paginación Unificada. La Paginación Unificada utiliza un grupo de memoria unificado para gestionar pesos dinámicos de adaptadores con diferentes rangos y tensores de caché KV con longitudes de secuencia variables. Además, S-LoRA emplea una novedosa estrategia de paralelismo de tensores y núcleos CUDA altamente optimizados para el procesamiento por lotes heterogéneo de cálculos LoRA. En conjunto, estas características permiten a S-LoRA servir miles de adaptadores LoRA en una sola GPU o en múltiples GPUs con un pequeño sobrecosto. En comparación con bibliotecas de vanguardia como HuggingFace PEFT y vLLM (con soporte básico para el servicio de LoRA), S-LoRA puede mejorar el rendimiento hasta 4 veces y aumentar el número de adaptadores servidos en varios órdenes de magnitud. Como resultado, S-LoRA permite el servicio escalable de muchos modelos ajustados específicamente para tareas y ofrece el potencial para servicios de ajuste fino personalizados a gran escala.
Presentamos CogVLM, un potente modelo base de lenguaje visual de código abierto. A diferencia del popular método de alineación superficial que mapea características de imagen en el espacio de entrada del modelo de lenguaje, CogVLM cierra la brecha entre el modelo de lenguaje preentrenado congelado y el codificador de imágenes mediante un módulo experto visual entrenable en las capas de atención y FFN. Como resultado, CogVLM permite una fusión profunda de características de lenguaje visual sin sacrificar el rendimiento en tareas de PNL. CogVLM-17B logra un rendimiento de vanguardia en 10 benchmarks clásicos de modalidad cruzada, incluyendo NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA y TDIUC, y se posiciona en segundo lugar en VQAv2, OKVQA, TextVQA, COCO captioning, etc., superando o igualando a PaLI-X 55B. Los códigos y puntos de control están disponibles en https://github.com/THUDM/CogVLM.
Los cálculos de formas dinámicas se han vuelto críticos en las cargas de trabajo modernas de aprendizaje automático, especialmente en los emergentes modelos de lenguaje a gran escala. El éxito de estos modelos ha impulsado la demanda de implementarlos en un conjunto diverso de entornos de backend. En este artículo, presentamos Relax, una abstracción de compilador para optimizar cargas de trabajo de aprendizaje automático dinámico de extremo a extremo. Relax introduce anotaciones simbólicas de formas de primera clase para rastrear globalmente los cálculos de formas dinámicas a lo largo del programa. También introduce una abstracción de nivel cruzado que encapsula gráficos computacionales, programas tensoriales a nivel de bucle y llamadas a bibliotecas en una única representación para habilitar optimizaciones de nivel cruzado. Construimos un marco de compilación de extremo a extremo utilizando el enfoque propuesto para optimizar modelos de formas dinámicas. Los resultados experimentales en modelos de lenguaje a gran escala muestran que Relax ofrece un rendimiento competitivo con los sistemas optimizados manualmente más avanzados en diversas plataformas y permite la implementación de modelos dinámicos emergentes en un conjunto más amplio de entornos, incluyendo teléfonos móviles, dispositivos integrados y navegadores web.
En los últimos años se han propuesto diversos modelos de lenguaje de gran escala (LLMs), tanto de código cerrado como abierto, que han establecido continuamente nuevos récords en múltiples benchmarks. Sin embargo, el desarrollo de los LLMs aún enfrenta varios desafíos, como el alto costo de entrenar modelos desde cero y el pre-entrenamiento continuo que conduce al olvido catastrófico, entre otros. Aunque muchos de estos problemas se abordan en la línea de investigación sobre LLMs, una limitación importante y práctica es que muchos estudios persiguen excesivamente el aumento del tamaño de los modelos sin analizar y optimizar de manera integral el uso de datos de pre-entrenamiento en su proceso de aprendizaje, así como la organización y aprovechamiento adecuados de dichos datos en el entrenamiento de LLMs bajo configuraciones rentables. En este trabajo, proponemos Ziya2, un modelo con 13 mil millones de parámetros que adopta LLaMA2 como modelo base y se pre-entrena adicionalmente con 700 mil millones de tokens, donde nos enfocamos en técnicas de pre-entrenamiento y utilizamos optimización centrada en datos para mejorar el proceso de aprendizaje de Ziya2 en diferentes etapas. Los experimentos muestran que Ziya2 supera significativamente a otros modelos en múltiples benchmarks, especialmente con resultados prometedores en comparación con modelos de código abierto representativos. Ziya2 (Base) está disponible en https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base y https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.
Presentamos un sistema integral para la captura de alta fidelidad, reconstrucción de modelos y renderizado en tiempo real de espacios transitables en realidad virtual utilizando campos de radiancia neurales. Para ello, diseñamos y construimos un dispositivo multicámara personalizado para capturar densamente espacios transitables con alta fidelidad y con imágenes de alto rango dinámico (HDR) multivista de una calidad y densidad sin precedentes. Extendemos los primitivos gráficos neurales instantáneos con un novedoso espacio de color perceptual para aprender la apariencia HDR precisa, y un mecanismo eficiente de mapeo de mip para renderizado con niveles de detalle y anti-aliasing, optimizando cuidadosamente el equilibrio entre calidad y velocidad. Nuestro renderizador multi-GPU permite el renderizado volumétrico de alta fidelidad de nuestro modelo de campo de radiancia neural a la resolución completa de realidad virtual de dual 2K×2K a 36 Hz en nuestra máquina de demostración personalizada. Demostramos la calidad de nuestros resultados en nuestros desafiantes conjuntos de datos de alta fidelidad, y comparamos nuestro método y conjuntos de datos con las líneas base existentes. Publicamos nuestro conjunto de datos en el sitio web de nuestro proyecto.
En los artículos escritos por humanos, a menudo aprovechamos las sutilezas del estilo de texto, como la negrita y la cursiva, para guiar la atención de los lectores. Estos énfasis textuales son fundamentales para que los lectores comprendan la información transmitida. Al interactuar con modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), surge una necesidad similar: dirigir el modelo para que preste mayor atención a la información especificada por el usuario, por ejemplo, una instrucción. Sin embargo, los métodos existentes están limitados a procesar texto plano y no admiten dicho mecanismo. Esto nos motiva a introducir PASTA - Post-hoc Attention STeering Approach (Enfoque de Dirección de Atención Post-hoc), un método que permite a los LLMs leer texto con marcas de énfasis especificadas por el usuario. Para ello, PASTA identifica un subconjunto pequeño de cabezas de atención y aplica una reasignación precisa de la atención en ellas, dirigiendo la atención del modelo hacia las partes especificadas por el usuario. Al igual que el prompting, PASTA se aplica en tiempo de inferencia y no requiere modificar ningún parámetro del modelo. Los experimentos demuestran que PASTA puede mejorar sustancialmente la capacidad de un LLM para seguir instrucciones del usuario o integrar nuevos conocimientos a partir de entradas del usuario, lo que conduce a una mejora significativa en el rendimiento en una variedad de tareas, por ejemplo, una mejora promedio en la precisión del 22% para LLAMA-7B. Nuestro código está disponible públicamente en https://github.com/QingruZhang/PASTA.
Los modelos de difusión latente han demostrado ser vanguardistas en la creación y manipulación de resultados visuales. Sin embargo, hasta donde sabemos, la generación conjunta de mapas de profundidad con RGB sigue siendo limitada. Presentamos LDM3D-VR, un conjunto de modelos de difusión orientados al desarrollo de realidad virtual que incluye LDM3D-pano y LDM3D-SR. Estos modelos permiten la generación de RGBD panorámico basado en indicaciones textuales y la mejora de entradas de baja resolución a RGBD de alta resolución, respectivamente. Nuestros modelos se ajustan a partir de modelos preentrenados existentes en conjuntos de datos que contienen imágenes RGB panorámicas/de alta resolución, mapas de profundidad y descripciones. Ambos modelos se evalúan en comparación con métodos relacionados existentes.
Los LLM de código han surgido como un campo de investigación especializado, con estudios notables dedicados a mejorar las capacidades de codificación de los modelos mediante el ajuste fino de modelos preentrenados. Los enfoques previos de ajuste fino solían estar adaptados a tareas o escenarios específicos, lo que implicaba un ajuste fino separado para cada tarea, requiriendo recursos de entrenamiento extensos y presentando desafíos en términos de implementación y mantenimiento. Además, estos enfoques no aprovechaban la interconexión inherente entre las diferentes tareas relacionadas con el código. Para superar estas limitaciones, presentamos un marco de ajuste fino multitarea, MFTcoder, que permite el ajuste fino simultáneo y paralelo en múltiples tareas. Al incorporar diversas funciones de pérdida, abordamos eficazmente los desafíos comunes en el aprendizaje multitarea, como el desequilibrio de datos, los niveles de dificultad variables y las velocidades de convergencia inconsistentes. Experimentos exhaustivos han demostrado de manera concluyente que nuestro enfoque de ajuste fino multitarea supera tanto el ajuste fino individual en tareas únicas como el ajuste fino en un conjunto mixto de tareas. Además, MFTcoder ofrece capacidades de entrenamiento eficientes, incluyendo modos de tokenización de datos eficientes y ajuste fino PEFT, lo que resulta en una velocidad significativamente mejorada en comparación con los métodos tradicionales de ajuste fino. MFTcoder se integra perfectamente con varios LLM de código abierto principales, como CodeLLama y Qwen. Aprovechando la base de CodeLLama, nuestro modelo ajustado con MFTcoder, CodeFuse-CodeLLama-34B, alcanza un impresionante puntaje pass@1 del 74.4\% en el benchmark HumaneEval, superando el rendimiento de GPT-4 (67\%, zero-shot). MFTCoder es de código abierto en https://github.com/codefuse-ai/MFTCOder.
Una habilidad notable de los seres humanos reside en el razonamiento composicional, es decir, la capacidad de hacer "uso infinito de medios finitos". Sin embargo, los actuales modelos fundamentales de visión y lenguaje (VLMs) carecen de tales habilidades composicionales debido a sus comportamientos de "bolsa de palabras" y su incapacidad para construir palabras que representen correctamente entidades visuales y las relaciones entre ellas. Para abordar esto, proponemos CoVLM, que puede guiar al LLM para componer explícitamente entidades visuales y relaciones en el texto, y comunicarse dinámicamente con el codificador de visión y la red de detección para lograr un decodificado comunicativo entre visión y lenguaje. Específicamente, primero diseñamos un conjunto de tokens de comunicación novedosos para el LLM, que permiten la comunicación dinámica entre el sistema de detección visual y el sistema de lenguaje. Un token de comunicación es generado por el LLM después de una entidad visual o una relación, para informar a la red de detección que proponga regiones relevantes a la oración generada hasta el momento. Las regiones de interés (ROIs) propuestas se retroalimentan al LLM para una mejor generación de lenguaje basada en las regiones relevantes. Así, el LLM puede componer las entidades visuales y las relaciones a través de los tokens de comunicación. La comunicación de visión a lenguaje y de lenguaje a visión se realiza iterativamente hasta que se genera la oración completa. Nuestro marco cierra la brecha entre la percepción visual y los LLMs, superando ampliamente a los VLMs anteriores en benchmarks de razonamiento composicional (por ejemplo, ~20% en HICO-DET mAP, ~14% en Cola precisión top-1 y ~3% en ARO precisión top-1). También logramos resultados de vanguardia en tareas tradicionales de visión y lenguaje, como la comprensión de expresiones referenciales y la respuesta a preguntas visuales.
La Distilación de Conocimiento (KD, por sus siglas en inglés) comprime modelos de lenguaje preentrenados (PLMs) computacionalmente costosos al transferir su conocimiento a modelos más pequeños, permitiendo su uso en entornos con recursos limitados o en tiempo real. Sin embargo, la mayoría de los modelos más pequeños no logran superar el rendimiento del modelo original más grande, lo que resulta en un sacrificio de rendimiento para mejorar la velocidad de inferencia. Para abordar este problema, proponemos Entrenamiento Conjunto y Distilación Conjunta (CTCD, por sus siglas en inglés), un marco novedoso que mejora tanto el rendimiento como la velocidad de inferencia al entrenar conjuntamente dos modelos mientras se distila conocimiento de manera mutua. El marco CTCD logra esto con base en dos hallazgos significativos: 1) La distilación de conocimiento del modelo más pequeño al modelo más grande durante el entrenamiento conjunto mejora el rendimiento del modelo más grande. 2) El rendimiento mejorado del modelo más grande impulsa aún más el rendimiento del modelo más pequeño. El marco CTCD muestra potencial, ya que puede combinarse con técnicas existentes como el diseño de arquitecturas o la aumentación de datos, reemplazando métodos de KD unidireccionales, para lograr una mejora adicional en el rendimiento. Estudios de ablación extensos demuestran la efectividad de CTCD, y el modelo pequeño distilado por CTCD supera al modelo original más grande por un margen significativo de 1.66 en el benchmark GLUE.
En este artículo, presentamos Consistent4D, un enfoque novedoso para generar objetos dinámicos 4D a partir de videos monoculares no calibrados. De manera única, planteamos la reconstrucción de objetos dinámicos en 360 grados como un problema de generación 4D, eliminando la necesidad de una tediosa recopilación de datos multivista y calibración de cámaras. Esto se logra aprovechando el modelo de difusión de imágenes 3D consciente a nivel de objeto como la señal de supervisión principal para entrenar Campos de Radiancia Neural Dinámicos (DyNeRF). Específicamente, proponemos un DyNeRF en Cascada para facilitar una convergencia estable y continuidad temporal bajo la señal de supervisión, que es discreta a lo largo del eje temporal. Para lograr consistencia espacial y temporal, introducimos además una Pérdida de Consistencia Basada en Interpolación. Esta se optimiza minimizando la discrepancia entre los fotogramas renderizados por DyNeRF y los fotogramas interpolados de un modelo de interpolación de video preentrenado. Experimentos exhaustivos muestran que nuestro Consistent4D puede competir con alternativas del estado del arte, abriendo nuevas posibilidades para la generación de objetos dinámicos 4D a partir de videos monoculares, al mismo tiempo que demuestra ventajas en tareas convencionales de generación de texto a 3D. Nuestra página del proyecto es https://consistent4d.github.io/.
Los modelos de lenguaje a gran escala (LMs) son capaces de generar razonamientos en texto libre para ayudar en la respuesta a preguntas. Sin embargo, trabajos previos 1) sugieren que la autorracionalización útil solo emerge a escalas significativas (por ejemplo, GPT-3 con 175B parámetros); y 2) se centran principalmente en el rendimiento final, ignorando la semántica de los razonamientos en sí, por ejemplo, ¿son fieles, verdaderos y útiles para los humanos? En este trabajo, permitimos que LMs a pequeña escala (aproximadamente 200 veces más pequeños que GPT-3) generen razonamientos que no solo mejoran el rendimiento en tareas posteriores, sino que también son más plausibles, consistentes y diversos, evaluados tanto automáticamente como por humanos. Nuestro método, MaRio (Multi-rewArd RatIOnalization), es un algoritmo de autorracionalización condicionado por múltiples recompensas que optimiza propiedades distintas como la plausibilidad, la diversidad y la consistencia. Los resultados en cinco conjuntos de datos difíciles de preguntas y respuestas (StrategyQA, QuaRel, OpenBookQA, NumerSense y QASC) muestran que MaRio no solo mejora la precisión en las tareas, sino que también mejora la calidad de la autorracionalización en LMs pequeños en los ejes mencionados, superando a una línea base de ajuste fino supervisado (SFT). Evaluaciones humanas extensas confirman que los razonamientos de MaRio son preferidos frente a los de SFT, así como mejoras cualitativas en plausibilidad y consistencia.
En este artículo, demostramos que un modelo de audio preentrenado auto-supervisado simple puede alcanzar una eficiencia de inferencia comparable a modelos preentrenados más complejos con codificadores de transformadores de voz. Estos transformadores de voz dependen de la combinación de módulos convolucionales con módulos de auto-atención, logrando un rendimiento de vanguardia en reconocimiento automático del habla (ASR) con una eficiencia superior. Primero mostramos que el uso de estos transformadores de voz como codificador mejora significativamente la eficiencia de los modelos de audio preentrenados. Sin embargo, nuestro estudio revela que podemos alcanzar una eficiencia comparable utilizando únicamente auto-atención avanzada. Demostramos que este enfoque más simple es particularmente beneficioso cuando se combina con una técnica de cuantización de pesos de bajo bit en una red neuronal para mejorar la eficiencia. Nuestra hipótesis es que este método evita la propagación de errores entre diferentes módulos cuantizados, en comparación con los transformadores de voz recientes que mezclan convolución cuantizada y módulos de auto-atención cuantizados.
Los modelos Transformer entrenados con secuencias largas suelen alcanzar una mayor precisión que aquellos entrenados con secuencias cortas. Sin embargo, los transformers convencionales enfrentan dificultades al entrenar secuencias largas debido a los abrumadores requisitos de computación y memoria. Los métodos existentes para el entrenamiento de secuencias largas ofrecen una aceleración y reducción de memoria limitadas, y pueden comprometer la precisión. Este artículo presenta un método novedoso y eficiente para el entrenamiento distribuido, el Transformer de Secuencia Larga-Corta (LSS Transformer), diseñado para entrenar transformers con secuencias largas. Este método distribuye una secuencia larga en segmentos entre las GPUs, donde cada GPU calcula una autoatención parcial para su segmento. Luego, utiliza una comunicación fusionada y una técnica novedosa de promediado doble de gradientes para evitar la necesidad de agregar las autoatenciones parciales y minimizar la sobrecarga de comunicación. Evaluamos el rendimiento del LSS Transformer en comparación con el paralelismo de secuencias de última generación de Nvidia utilizando el conjunto de datos Wikipedia enwik8. Los resultados muestran que nuestro método propuesto es 5.6 veces más rápido y 10.2 veces más eficiente en memoria en comparación con el paralelismo de secuencias de última generación en 144 GPUs Nvidia V100. Además, nuestro algoritmo escala a una longitud de secuencia extrema de 50,112 en 3,456 GPUs, logrando una eficiencia paralela superlineal del 161% y un rendimiento de 32 petaflops.