Artículos de investigación en IA seleccionados diariamente con traducciones
Este trabajo presenta Depth Anything V2. Sin recurrir a técnicas complejas, nuestro objetivo es revelar hallazgos cruciales que allanen el camino hacia la construcción de un modelo potente de estimación de profundidad monocular. Destacablemente, en comparación con V1, esta versión genera predicciones de profundidad mucho más finas y robustas mediante tres prácticas clave: 1) reemplazar todas las imágenes reales etiquetadas con imágenes sintéticas, 2) escalar la capacidad de nuestro modelo maestro, y 3) enseñar a los modelos estudiantes a través del puente de imágenes reales pseudoetiquetadas a gran escala. En comparación con los últimos modelos basados en Stable Diffusion, nuestros modelos son significativamente más eficientes (más de 10 veces más rápidos) y más precisos. Ofrecemos modelos de diferentes escalas (que van desde 25M hasta 1.3B parámetros) para apoyar una amplia gama de escenarios. Beneficiándonos de su fuerte capacidad de generalización, los ajustamos con etiquetas de profundidad métrica para obtener nuestros modelos de profundidad métrica. Además de nuestros modelos, considerando la diversidad limitada y el ruido frecuente en los conjuntos de prueba actuales, construimos un benchmark de evaluación versátil con anotaciones precisas y escenas diversas para facilitar futuras investigaciones.
Este trabajo no introduce un nuevo método. En su lugar, presentamos un hallazgo interesante que cuestiona la necesidad del sesgo inductivo —la localidad— en las arquitecturas modernas de visión por computadora. Concretamente, descubrimos que los Transformers básicos pueden operar tratando directamente cada píxel individual como un token y lograr resultados altamente eficaces. Esto es sustancialmente diferente del diseño popular en Vision Transformer, que mantiene el sesgo inductivo de las ConvNets hacia vecindarios locales (por ejemplo, tratando cada parche de 16x16 como un token). Principalmente, demostramos la efectividad de los píxeles-como-tokens en tres tareas bien estudiadas en visión por computadora: aprendizaje supervisado para clasificación de objetos, aprendizaje autosupervisado mediante autoenmascaramiento y generación de imágenes con modelos de difusión. Aunque operar directamente sobre píxeles individuales es menos práctico computacionalmente, creemos que la comunidad debe estar al tanto de este sorprendente conocimiento al diseñar la próxima generación de arquitecturas neuronales para visión por computadora.
Los Transformers han revolucionado el aprendizaje automático con su arquitectura simple pero efectiva. El preentrenamiento de Transformers en grandes conjuntos de datos textuales de Internet ha llevado a una generalización sin precedentes para tareas de comprensión del lenguaje natural (NLU). Sin embargo, estos modelos de lenguaje siguen siendo frágiles cuando se enfrentan a formas algorítmicas de razonamiento, donde los cálculos deben ser precisos y robustos. Para abordar esta limitación, proponemos un enfoque novedoso que combina la comprensión del lenguaje del Transformer con la robustez de los razonadores algorítmicos neuronales (NARs) basados en redes neuronales de grafos (GNNs). Dichos NARs han demostrado ser efectivos como solucionadores genéricos para tareas algorítmicas, cuando se especifican en forma de grafo. Para hacer que sus incrustaciones sean accesibles a un Transformer, proponemos una arquitectura híbrida con un procedimiento de entrenamiento en dos fases, permitiendo que los tokens en el modelo de lenguaje atiendan de manera cruzada a las incrustaciones de nodos del NAR. Evaluamos nuestro modelo resultante, TransNAR, en CLRS-Text, la versión basada en texto del benchmark CLRS-30, y demostramos mejoras significativas sobre los modelos basados únicamente en Transformers para el razonamiento algorítmico, tanto dentro como fuera de la distribución.
Las políticas de gran escala preentrenadas en una combinación de datos visión-lenguaje a escala de Internet y demostraciones robóticas diversas tienen el potencial de cambiar cómo enseñamos nuevas habilidades a los robots: en lugar de entrenar comportamientos desde cero, podemos ajustar finamente estos modelos visión-lenguaje-acción (VLA) para obtener políticas robustas y generalizables para el control visuomotor. Sin embargo, la adopción generalizada de los VLA en robótica ha sido un desafío debido a que 1) los VLA existentes son en gran medida cerrados e inaccesibles para el público, y 2) trabajos previos no han explorado métodos para ajustar eficientemente los VLA en nuevas tareas, un componente clave para su adopción. Para abordar estos desafíos, presentamos OpenVLA, un VLA de código abierto con 7 mil millones de parámetros, entrenado en una colección diversa de 970 mil demostraciones robóticas del mundo real. OpenVLA se basa en un modelo de lenguaje Llama 2 combinado con un codificador visual que fusiona características preentrenadas de DINOv2 y SigLIP. Como resultado de la diversidad de datos añadida y los nuevos componentes del modelo, OpenVLA demuestra resultados sólidos para la manipulación generalista, superando a modelos cerrados como RT-2-X (55B) en un 16.5% en la tasa de éxito absoluta en 29 tareas y múltiples configuraciones robóticas, con 7 veces menos parámetros. Además, mostramos que podemos ajustar eficazmente OpenVLA para nuevos entornos, con resultados especialmente fuertes en generalización en entornos multitarea que involucran múltiples objetos y habilidades sólidas de comprensión del lenguaje, superando a métodos de aprendizaje por imitación desde cero como Diffusion Policy en un 20.4%. También exploramos la eficiencia computacional; como una contribución separada, demostramos que OpenVLA puede ajustarse en GPUs de consumo mediante métodos modernos de adaptación de bajo rango y servirse eficientemente mediante cuantización sin afectar la tasa de éxito en tareas posteriores. Finalmente, publicamos puntos de control del modelo, cuadernos de ajuste fino y nuestro código base en PyTorch con soporte integrado para entrenar VLA a escala en conjuntos de datos Open X-Embodiment.
Modelar secuencias de manera eficiente con una longitud de contexto infinita ha sido un problema de larga data. Trabajos anteriores adolecen de una complejidad computacional cuadrática o de una capacidad limitada de extrapolación en la generalización de longitud. En este trabajo, presentamos Samba, una arquitectura híbrida simple que combina de manera estratificada Mamba, un Modelo de Espacio de Estados (SSM) selectivo, con Atención de Ventana Deslizante (SWA). Samba comprime selectivamente una secuencia dada en estados ocultos recurrentes mientras mantiene la capacidad de recordar memorias con precisión mediante el mecanismo de atención. Escalamos Samba hasta 3.8B de parámetros con 3.2T de tokens de entrenamiento y demostramos que Samba supera sustancialmente a los modelos de última generación basados en atención pura o SSMs en una amplia gama de benchmarks. Cuando se entrena en secuencias de longitud 4K, Samba puede extrapolarse eficientemente a una longitud de contexto de 256K con un recuerdo de memoria perfecto y muestra mejoras en la predicción de tokens hasta una longitud de contexto de 1M. Como modelo de secuencia de tiempo lineal, Samba disfruta de un rendimiento 3.73 veces mayor en comparación con Transformers con atención de consulta agrupada al procesar indicaciones de usuario de 128K de longitud, y una aceleración de 3.64 veces al generar 64K tokens con transmisión ilimitada. Una implementación de muestra de Samba está disponible públicamente en https://github.com/microsoft/Samba.
Este artículo presenta mejoras innovadoras a los modelos de difusión mediante la integración de una red multi-resolución novedosa y una normalización de capas dependiente del tiempo. Los modelos de difusión han ganado prominencia por su eficacia en la generación de imágenes de alta fidelidad. Mientras que los enfoques convencionales se basan en arquitecturas U-Net convolucionales, los diseños recientes basados en Transformers han demostrado un rendimiento y escalabilidad superiores. Sin embargo, las arquitecturas Transformer, que tokenizan los datos de entrada (mediante "patchificación"), enfrentan un equilibrio entre la fidelidad visual y la complejidad computacional debido a la naturaleza cuadrática de las operaciones de auto-atención en relación con la longitud de los tokens. Aunque los tamaños de parche más grandes permiten una eficiencia en el cálculo de la atención, tienen dificultades para capturar detalles visuales finos, lo que lleva a distorsiones en las imágenes. Para abordar este desafío, proponemos aumentar el modelo de Difusión con la red Multi-Resolución (DiMR), un marco que refina características a través de múltiples resoluciones, mejorando progresivamente los detalles de baja a alta resolución. Además, introducimos la Normalización de Capas Dependiente del Tiempo (TD-LN), un enfoque eficiente en parámetros que incorpora parámetros dependientes del tiempo en la normalización de capas para inyectar información temporal y lograr un rendimiento superior. La eficacia de nuestro método se demuestra en el benchmark de generación condicionada por clase de ImageNet, donde las variantes DiMR-XL superan a los modelos de difusión anteriores, estableciendo nuevos récords de puntuaciones FID de 1.70 en ImageNet 256 x 256 y 2.89 en ImageNet 512 x 512. Página del proyecto: https://qihao067.github.io/projects/DiMR
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades de razonamiento notables, pero siguen siendo susceptibles a errores, particularmente en tareas de razonamiento temporal que involucran lógica temporal compleja. Investigaciones existentes han explorado el rendimiento de los LLMs en razonamiento temporal utilizando diversos conjuntos de datos y puntos de referencia. Sin embargo, estos estudios a menudo se basan en datos del mundo real que los LLMs podrían haber encontrado durante su preentrenamiento o emplean técnicas de anonimización que pueden introducir inconsistencias fácticas de manera inadvertida. En este trabajo, abordamos estas limitaciones introduciendo nuevos conjuntos de datos sintéticos diseñados específicamente para evaluar las habilidades de razonamiento temporal de los LLMs en diversos escenarios. La diversidad de tipos de preguntas en estos conjuntos de datos permite una investigación sistemática del impacto de la estructura del problema, el tamaño, el tipo de pregunta, el orden de los hechos y otros factores en el rendimiento de los LLMs. Nuestros hallazgos proporcionan información valiosa sobre las fortalezas y debilidades de los LLMs actuales en tareas de razonamiento temporal. Para fomentar más investigación en esta área, estamos haciendo públicos los conjuntos de datos y el marco de evaluación utilizados en nuestros experimentos: https://huggingface.co/datasets/baharef/ToT.
Los Transformadores de Difusión (DiT) sobresalen en la generación de imágenes y videos, pero enfrentan desafíos computacionales debido a la complejidad cuadrática de la autoatención. Proponemos DiTFastAttn, un novedoso método de compresión post-entrenamiento para aliviar el cuello de botella computacional de los DiT. Identificamos tres redundancias clave en el cálculo de la atención durante la inferencia de los DiT: 1. redundancia espacial, donde muchas cabezas de atención se enfocan en información local; 2. redundancia temporal, con alta similitud entre las salidas de atención de pasos vecinos; 3. redundancia condicional, donde las inferencias condicionales e incondicionales muestran una similitud significativa. Para abordar estas redundancias, proponemos tres técnicas: 1. Atención por Ventanas con Almacenamiento en Caché de Residuos para reducir la redundancia espacial; 2. Reducción de Similitud Temporal para aprovechar la similitud entre pasos; 3. Eliminación de Redundancia Condicional para omitir cálculos redundantes durante la generación condicional. Para demostrar la efectividad de DiTFastAttn, lo aplicamos a DiT, PixArt-Sigma para tareas de generación de imágenes y OpenSora para tareas de generación de videos. Los resultados de evaluación muestran que, para la generación de imágenes, nuestro método reduce hasta un 88\% de las operaciones de punto flotante (FLOPs) y logra una aceleración de hasta 1.6x en la generación de alta resolución.
Los humanos dibujan para facilitar el razonamiento: trazamos líneas auxiliares al resolver problemas de geometría; marcamos y encerramos en círculos al razonar sobre mapas; utilizamos bocetos para ampliar nuestras ideas y aliviar nuestra memoria de trabajo de capacidad limitada. Sin embargo, estas acciones están ausentes en los modelos de lenguaje multimodal (LM) actuales. Los paradigmas actuales de cadena de pensamiento y uso de herramientas solo emplean texto como pasos intermedios de razonamiento. En este trabajo, presentamos Sketchpad, un marco que proporciona a los LM multimodales un bloc de dibujo visual y herramientas para dibujar en él. El LM realiza planificación y razonamiento según los artefactos visuales que ha dibujado. A diferencia de trabajos anteriores, que utilizan modelos de texto a imagen para permitir que los LM dibujen, Sketchpad permite que los LM dibujen con líneas, cuadros, marcas, etc., lo cual es más cercano al boceto humano y facilita mejor el razonamiento. Sketchpad también puede utilizar modelos de visión especializados durante el proceso de dibujo (por ejemplo, dibujar cuadros delimitadores con modelos de detección de objetos, dibujar máscaras con modelos de segmentación), para mejorar aún más la percepción visual y el razonamiento. Experimentamos con una amplia gama de tareas matemáticas (incluyendo geometría, funciones, gráficos y ajedrez) y tareas complejas de razonamiento visual. Sketchpad mejora sustancialmente el rendimiento en todas las tareas sobre modelos base fuertes sin bocetos, obteniendo una ganancia promedio del 12.7% en tareas matemáticas y del 8.6% en tareas visuales. GPT-4o con Sketchpad establece un nuevo estado del arte en todas las tareas, incluyendo V*Bench (80.3%), razonamiento espacial BLINK (83.9%) y correspondencia visual (80.8%). Todos los códigos y datos están disponibles en https://visualsketchpad.github.io/.
Investigamos el espacio de pesos abarcado por una amplia colección de modelos de difusión personalizados. Poblamos este espacio creando un conjunto de datos de más de 60,000 modelos, cada uno de los cuales es un modelo base ajustado para incorporar la identidad visual de una persona diferente. Modelamos la variedad subyacente de estos pesos como un subespacio, al que denominamos weights2weights. Demostramos tres aplicaciones inmediatas de este espacio: muestreo, edición e inversión. Primero, dado que cada punto en el espacio corresponde a una identidad, muestrear un conjunto de pesos de él resulta en un modelo que codifica una identidad novedosa. Luego, encontramos direcciones lineales en este espacio que corresponden a ediciones semánticas de la identidad (por ejemplo, agregar una barba). Estas ediciones persisten en la apariencia a través de las muestras generadas. Finalmente, mostramos que invertir una sola imagen en este espacio reconstruye una identidad realista, incluso si la imagen de entrada está fuera de distribución (por ejemplo, una pintura). Nuestros resultados indican que el espacio de pesos de los modelos de difusión ajustados se comporta como un espacio latente interpretable de identidades.
Presentamos MuirBench, un benchmark integral que se enfoca en las capacidades robustas de comprensión de múltiples imágenes en modelos de lenguaje multimodal (LLMs). MuirBench consta de 12 tareas diversas de múltiples imágenes (por ejemplo, comprensión de escenas, ordenamiento) que involucran 10 categorías de relaciones entre imágenes (por ejemplo, multivista, relaciones temporales). Compuesto por 11,264 imágenes y 2,600 preguntas de opción múltiple, MuirBench se crea de manera pareada, donde cada instancia estándar se empareja con una variante no respondible que tiene diferencias semánticas mínimas, con el fin de realizar una evaluación confiable. Evaluado en 20 LLMs multimodales recientes, nuestros resultados revelan que incluso los modelos con mejor desempeño, como GPT-4o y Gemini Pro, encuentran desafiante resolver MuirBench, alcanzando un 68.0% y un 49.3% de precisión. Los LLMs multimodales de código abierto entrenados en imágenes individuales apenas pueden generalizar a preguntas de múltiples imágenes, manteniéndose por debajo del 33.3% de precisión. Estos resultados resaltan la importancia de MuirBench para fomentar el desarrollo de LLMs multimodales que puedan ir más allá de una sola imagen, sugiriendo posibles vías para mejoras futuras.
Los conjuntos de datos de preferencias de alta calidad son esenciales para entrenar modelos de recompensa que puedan guiar eficazmente a los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en la generación de respuestas de alta calidad alineadas con las preferencias humanas. A medida que los LLMs se vuelven más potentes y mejor alineados, los conjuntos de datos de preferencias con licencias permisivas, como Open Assistant, HH-RLHF y HelpSteer, necesitan actualizarse para seguir siendo efectivos en el modelado de recompensas. Los métodos que extraen datos de preferencias de LLMs propietarios como GPT-4 tienen restricciones en su uso comercial impuestas por los proveedores de los modelos. Para mejorar tanto la calidad de las respuestas generadas como el etiquetado de atributos, lanzamos HelpSteer2, un conjunto de datos de preferencias con licencia permisiva (CC-BY-4.0). Utilizando un potente modelo base interno entrenado con HelpSteer2, logramos la puntuación más alta (92.0%) en el conjunto de datos principal de Reward-Bench, superando a los modelos abiertos y propietarios actualmente listados, al 12 de junio de 2024. Cabe destacar que HelpSteer2 consta de solo diez mil pares de respuestas, un orden de magnitud menor que los conjuntos de datos de preferencias existentes (por ejemplo, HH-RLHF), lo que lo hace altamente eficiente para entrenar modelos de recompensa. Nuestros extensos experimentos demuestran que los modelos de recompensa entrenados con HelpSteer2 son efectivos para alinear LLMs. En particular, proponemos SteerLM 2.0, un enfoque de alineación de modelos que puede hacer un uso efectivo de la puntuación multi-atributo rica predicha por nuestros modelos de recompensa. HelpSteer2 está disponible en https://huggingface.co/datasets/nvidia/HelpSteer2 y el código está disponible en https://github.com/NVIDIA/NeMo-Aligner.
Los Modelos de Lenguaje Multimodales a Gran Escala (mLLMs, por sus siglas en inglés) se entrenan con una gran cantidad de datos de texto e imágenes. Si bien la mayoría de los mLLMs se entrenan únicamente con datos similares a descripciones, Alayrac et al. [2022] demostraron que entrenarlos adicionalmente con secuencias intercaladas de texto e imágenes puede dar lugar a la aparición de capacidades de aprendizaje en contexto. Sin embargo, el conjunto de datos que utilizaron, M3W, no es público y está únicamente en inglés. Se han realizado intentos para reproducir sus resultados, pero los conjuntos de datos publicados están exclusivamente en inglés. En contraste, los conjuntos de datos multilingües y multimodales actuales están compuestos únicamente de datos similares a descripciones, son de escala media o completamente privados. Esto limita la investigación en mLLMs para las 7,000 lenguas adicionales que se hablan en el mundo. Por ello, presentamos mOSCAR, que, hasta donde sabemos, es el primer corpus de documentos multilingüe y multimodal a gran escala extraído de la web. Cubre 163 idiomas, 315 millones de documentos, 214 mil millones de tokens y 1.2 mil millones de imágenes. Realizamos cuidadosamente un conjunto de pasos de filtrado y evaluación para asegurar que mOSCAR sea lo suficientemente seguro, diverso y de buena calidad. Además, entrenamos dos tipos de modelos multilingües para demostrar los beneficios de mOSCAR: (1) un modelo entrenado con un subconjunto de mOSCAR y datos de descripción, y (2) un modelo entrenado únicamente con datos de descripción. El modelo entrenado adicionalmente con mOSCAR muestra un fuerte impulso en el rendimiento de aprendizaje con pocos ejemplos en diversas tareas y benchmarks multilingües de texto-imagen, confirmando hallazgos previos para mLLMs exclusivamente en inglés.
La Ciencia de la Computación (CS) es un testimonio de las complejidades de la inteligencia humana, impulsando profundamente el desarrollo de la inteligencia artificial y la sociedad moderna. Sin embargo, la comunidad actual de modelos de lenguaje de gran escala (LLMs) se enfoca excesivamente en puntos de referencia para analizar habilidades fundamentales específicas (por ejemplo, matemáticas y generación de código), descuidando una evaluación integral del campo de la ciencia de la computación. Para cerrar esta brecha, presentamos CS-Bench, el primer punto de referencia bilingüe (chino-inglés) dedicado a evaluar el rendimiento de los LLMs en ciencia de la computación. CS-Bench consta de aproximadamente 5K muestras de prueba cuidadosamente seleccionadas, que cubren 26 subcampos en 4 áreas clave de la ciencia de la computación, abarcando diversas formas de tareas y divisiones de conocimiento y razonamiento. Utilizando CS-Bench, realizamos una evaluación exhaustiva de más de 30 LLMs principales, revelando la relación entre el rendimiento en CS y las escalas de los modelos. También analizamos cuantitativamente las razones de los fallos en los LLMs existentes y destacamos direcciones para mejoras, incluyendo la suplementación de conocimiento y el razonamiento específico de CS. Experimentos adicionales de capacidades cruzadas muestran una alta correlación entre las capacidades de los LLMs en ciencia de la computación y sus habilidades en matemáticas y codificación. Además, los LLMs expertos especializados en matemáticas y codificación también demuestran un fuerte rendimiento en varios subcampos de CS. Mirando hacia el futuro, prevemos que CS-Bench sirva como una piedra angular para las aplicaciones de LLMs en el campo de CS y abra nuevos caminos en la evaluación de las diversas capacidades de razonamiento de los LLMs. Los datos de CS-Bench y el código de evaluación están disponibles en https://github.com/csbench/csbench.
Los modelos de base multimodal y multitarea actuales, como 4M o UnifiedIO, muestran resultados prometedores, pero en la práctica sus capacidades inmediatas para aceptar entradas diversas y realizar tareas variadas están limitadas por el (generalmente bastante reducido) número de modalidades y tareas en las que se entrenan. En este artículo, ampliamos las capacidades de estos modelos entrenando un único modelo en decenas de modalidades altamente diversas y realizando co-entrenamiento en conjuntos de datos multimodales a gran escala y corpus de texto. Esto incluye entrenamiento en varias modalidades semánticas y geométricas, mapas de características de modelos recientes de última generación como DINOv2 e ImageBind, etiquetas pseudo de modelos especializados como SAM y 4DHumans, y una gama de nuevas modalidades que permiten formas novedosas de interactuar con el modelo y guiar la generación, como metadatos de imágenes o paletas de colores. Un paso crucial en este proceso es realizar tokenización discreta en diversas modalidades, ya sean similares a imágenes, mapas de características de redes neuronales, vectores, datos estructurados como segmentación de instancias o poses humanas, o datos que pueden representarse como texto. A través de esto, ampliamos las capacidades inmediatas de los modelos multimodales y mostramos específicamente la posibilidad de entrenar un modelo para resolver al menos 3 veces más tareas/modalidades que los existentes, y hacerlo sin pérdida de rendimiento. Esto permite capacidades de generación multimodal más detalladas y controlables, y nos permite estudiar la destilación de modelos entrenados en datos y objetivos diversos en un modelo unificado. Escalamos con éxito el entrenamiento a un modelo de tres mil millones de parámetros utilizando decenas de modalidades y diferentes conjuntos de datos. Los modelos resultantes y el código de entrenamiento se han publicado como código abierto en 4m.epfl.ch.
Los recientes avances en generación de imágenes han permitido la creación de imágenes de alta calidad a partir de condiciones de texto. Sin embargo, al enfrentarse a condiciones multimodales, como texto combinado con apariencias de referencia, los métodos existentes tienen dificultades para equilibrar múltiples condiciones de manera efectiva, mostrando típicamente una preferencia por una modalidad sobre las demás. Para abordar este desafío, presentamos EMMA, un novedoso modelo de generación de imágenes que acepta indicaciones multimodales, construido sobre el modelo de difusión de texto a imagen (T2I) de última generación, ELLA. EMMA incorpora de manera fluida modalidades adicionales junto con el texto para guiar la generación de imágenes a través de un innovador diseño de Conector de Características Multimodales, que integra efectivamente la información textual y de modalidades suplementarias utilizando un mecanismo de atención especial. Al congelar todos los parámetros en el modelo de difusión T2I original y ajustar solo algunas capas adicionales, revelamos un hallazgo interesante: el modelo de difusión T2I preentrenado puede aceptar secretamente indicaciones multimodales. Esta propiedad interesante facilita la adaptación a diferentes marcos existentes, convirtiendo a EMMA en una herramienta flexible y efectiva para producir imágenes personalizadas y conscientes del contexto, e incluso videos. Además, introducimos una estrategia para ensamblar módulos EMMA aprendidos para producir imágenes condicionadas en múltiples modalidades simultáneamente, eliminando la necesidad de entrenamiento adicional con indicaciones multimodales mixtas. Experimentos extensos demuestran la efectividad de EMMA para mantener una alta fidelidad y detalle en las imágenes generadas, mostrando su potencial como una solución robusta para tareas avanzadas de generación de imágenes condicionadas multimodalmente.
Proponemos construir una inteligencia omni-modal, capaz de comprender cualquier modalidad y aprender representaciones universales. En concreto, proponemos un paradigma de preentrenamiento escalable, denominado Contexto Multimodal (MiCo), que puede escalar el número de modalidades y la cantidad de datos, junto con los parámetros del modelo, durante el proceso de preentrenamiento. Con MiCo, los modelos preentrenados muestran habilidades emergentes significativas en el aprendizaje multimodal, las cuales se evalúan en las siguientes tareas: i) benchmarks de percepción de una sola modalidad en 10 modalidades diferentes, ii) 25 tareas de comprensión cruzada de modalidades como recuperación, preguntas y respuestas, y generación de subtítulos, y iii) 18 benchmarks de modelos de lenguaje multimodal de gran escala. Nuestros modelos establecen 37 nuevos récords en cuanto al rendimiento de última generación. Esperamos que nuestra investigación contribuya al desarrollo de la inteligencia omni-modal. El código y los modelos están disponibles en https://github.com/invictus717/MiCo.
Uno de los métodos predominantes para entrenar modelos del mundo es la predicción autorregresiva en el espacio de salida del siguiente elemento de una secuencia. En el Procesamiento del Lenguaje Natural (PLN), esto toma la forma de Modelos de Lenguaje de Gran Escala (LLMs) que predicen el siguiente token; en Visión por Computadora (CV), esto se manifiesta como modelos autorregresivos que predicen el siguiente fotograma/token/píxel. Sin embargo, este enfoque difiere de la cognición humana en varios aspectos. Primero, las predicciones humanas sobre el futuro influyen activamente en los procesos cognitivos internos. Segundo, los humanos evalúan naturalmente la plausibilidad de las predicciones sobre estados futuros. Basándose en esta capacidad, y tercero, al determinar cuándo las predicciones son suficientes, los humanos asignan una cantidad dinámica de tiempo para hacer una predicción. Este proceso adaptativo es análogo al pensamiento de Sistema 2 en psicología. Todas estas capacidades son fundamentales para el éxito de los humanos en el razonamiento y la planificación de alto nivel. Por lo tanto, para abordar las limitaciones de los modelos autorregresivos tradicionales que carecen de estas capacidades similares a las humanas, introducimos los Modelos del Mundo Basados en Energía (EBWM). EBWM implica entrenar un Modelo Basado en Energía (EBM) para predecir la compatibilidad de un contexto dado y un estado futuro predicho. Al hacerlo, EBWM permite que los modelos logren los tres aspectos de la cognición humana descritos. Además, desarrollamos una variante del transformador autorregresivo tradicional adaptado para modelos basados en energía, denominado Transformador Basado en Energía (EBT). Nuestros resultados demuestran que EBWM escala mejor con los datos y las horas de GPU que los transformadores autorregresivos tradicionales en CV, y que EBWM ofrece un prometedor escalamiento temprano en PLN. En consecuencia, este enfoque ofrece un camino emocionante hacia el entrenamiento de futuros modelos capaces de pensamiento de Sistema 2 y búsqueda inteligente a través de espacios de estados.
A pesar de los avances en los Modelos de Lenguaje a Gran Escala (LLMs), ejemplificados por modelos como GPT-4 y Claude, los LLMs de menor escala, como Llama y Mistral, a menudo tienen dificultades para generar diálogos profundos y coherentes. Este artículo presenta un novedoso modelo Actor de Dos Pasos de Coarse-to-Fine (Grueso a Fino) para abordar las limitaciones inherentes en las capacidades conversacionales y analíticas de los LLMs de pequeño tamaño. Nuestro enfoque comienza con el Actor Coarse basado en Políticas, empleando una técnica que denominamos "Maximización Continua". El Actor Coarse establece un conjunto enriquecido de conocimientos, hábil para alinearse con los estilos de preferencia humana en análisis y razonamiento. A través del proceso RLHF, utiliza la Maximización Continua, una estrategia que extiende dinámica y adaptativamente el límite de longitud de la salida, permitiendo la generación de contenido más detallado y analítico. Posteriormente, el Actor Fine refina este contenido analítico, abordando la generación de información excesivamente redundante por parte del Actor Coarse. Introducimos un enfoque de "Fusión de Residuos de Conocimiento", que refina el contenido del Actor Coarse y lo fusiona con un modelo de Instrucción existente para mejorar la calidad, la corrección y reducir las redundancias. Aplicamos nuestra metodología al popular modelo Mistral, creando Mistral-C2F, que ha demostrado un rendimiento excepcional en 11 tareas generales de lenguaje y en la tarea de Diálogo MT-Bench, superando a modelos de escala similar e incluso a modelos más grandes con 13B y 30B parámetros. Nuestro modelo ha mejorado significativamente las habilidades de razonamiento conversacional y analítico.
Presentamos una tarea y un punto de referencia novedosos para evaluar la capacidad de los modelos de generación de texto a imagen (T2I) para producir imágenes que se ajusten al sentido común en la vida real, al que denominamos Commonsense-T2I. Dados dos textos adversarios que contienen un conjunto idéntico de palabras de acción con diferencias mínimas, como "una bombilla sin electricidad" frente a "una bombilla con electricidad", evaluamos si los modelos T2I pueden realizar un razonamiento visual basado en el sentido común, por ejemplo, producir imágenes que se ajusten a "la bombilla está apagada" frente a "la bombilla está encendida" de manera correspondiente. Commonsense-T2I presenta un desafío adversario, proporcionando pares de textos junto con los resultados esperados. El conjunto de datos ha sido cuidadosamente curado por expertos y anotado con etiquetas detalladas, como el tipo de sentido común y la probabilidad de los resultados esperados, para ayudar a analizar el comportamiento de los modelos. Evaluamos una variedad de modelos T2I de última generación (sota) y, sorprendentemente, encontramos que aún existe una gran brecha entre la síntesis de imágenes y las fotos de la vida real: incluso el modelo DALL-E 3 solo alcanzó un 48,92% en Commonsense-T2I, y el modelo Stable Diffusion XL solo logró un 24,92% de precisión. Nuestros experimentos muestran que los textos enriquecidos con GPT no pueden resolver este desafío, e incluimos un análisis detallado sobre las posibles razones de esta deficiencia. Nuestro objetivo es que Commonsense-T2I sirva como un punto de referencia de alta calidad para la verificación del sentido común en T2I, fomentando avances en la generación de imágenes realistas.
La generación de videos presenta desafíos únicos que van más allá de los de la generación de imágenes. La dimensión temporal introduce una amplia gama de variaciones posibles entre los fotogramas, lo que puede llevar a la violación de la consistencia y la continuidad. En este estudio, avanzamos más allá de la evaluación de acciones simples y argumentamos que los videos generados deberían incorporar la aparición de nuevos conceptos y sus transiciones relacionales, como ocurre en los videos del mundo real a medida que avanza el tiempo. Para evaluar la Composición Temporal de los modelos de generación de videos, proponemos TC-Bench, un benchmark que incluye indicaciones de texto cuidadosamente elaboradas, videos de referencia correspondientes y métricas de evaluación robustas. Las indicaciones articulan los estados inicial y final de las escenas, reduciendo efectivamente las ambigüedades para el desarrollo de los fotogramas y simplificando la evaluación de la finalización de las transiciones. Además, al recopilar videos del mundo real alineados con las indicaciones, ampliamos la aplicabilidad de TC-Bench desde modelos condicionados por texto hasta aquellos condicionados por imágenes que pueden realizar interpolación generativa de fotogramas. También desarrollamos nuevas métricas para medir la completitud de las transiciones de componentes en los videos generados, las cuales demuestran correlaciones significativamente más altas con los juicios humanos que las métricas existentes. Nuestros resultados experimentales exhaustivos revelan que la mayoría de los generadores de videos logran menos del 20% de los cambios composicionales, destacando un enorme espacio para futuras mejoras. Nuestro análisis indica que los modelos actuales de generación de videos tienen dificultades para interpretar descripciones de cambios composicionales y sintetizar diversos componentes a lo largo de diferentes pasos de tiempo.
La estrategia predeterminada para entrenar Modelos de Reconstrucción a Gran Escala (LRMs) de vista única sigue el enfoque de supervisión completa utilizando conjuntos de datos a gran escala de activos 3D sintéticos o capturas multivista. Aunque estos recursos simplifican el procedimiento de entrenamiento, son difíciles de escalar más allá de los conjuntos de datos existentes y no son necesariamente representativos de la distribución real de formas de objetos. Para abordar estas limitaciones, en este artículo presentamos Real3D, el primer sistema LRM que puede entrenarse utilizando imágenes del mundo real de vista única. Real3D introduce un novedoso marco de autoentrenamiento que puede beneficiarse tanto de los datos sintéticos existentes como de diversas imágenes reales de vista única. Proponemos dos pérdidas no supervisadas que nos permiten supervisar los LRMs a nivel de píxel y semántico, incluso para ejemplos de entrenamiento sin datos de verdad terreno 3D o vistas novedosas. Para mejorar aún más el rendimiento y escalar los datos de imágenes, desarrollamos un enfoque de curación automática de datos para recopilar ejemplos de alta calidad a partir de imágenes en entornos no controlados. Nuestros experimentos muestran que Real3D supera consistentemente trabajos anteriores en cuatro entornos de evaluación diversos que incluyen datos reales y sintéticos, así como formas tanto dentro como fuera del dominio. El código y el modelo se pueden encontrar aquí: https://hwjiang1510.github.io/Real3D/
Este trabajo trata sobre la estimación de la tasa de alucinación en el aprendizaje en contexto (ICL, por sus siglas en inglés) con IA generativa. En ICL, un modelo generativo condicional (CGM) es provisto con un conjunto de datos y se le solicita realizar una predicción basada en dicho conjunto. La interpretación bayesiana de ICL asume que el CGM está calculando una distribución predictiva posterior sobre un modelo bayesiano desconocido de un parámetro latente y los datos. Desde esta perspectiva, definimos una alucinación como una predicción generada que tiene una baja probabilidad bajo el verdadero parámetro latente. Desarrollamos un nuevo método que toma un problema de ICL —es decir, un CGM, un conjunto de datos y una pregunta de predicción— y estima la probabilidad de que un CGM genere una alucinación. Nuestro método solo requiere generar consultas y respuestas del modelo y evaluar la probabilidad logarítmica de sus respuestas. Evaluamos empíricamente nuestro método en tareas sintéticas de regresión y en tareas de ICL con lenguaje natural utilizando modelos de lenguaje de gran escala.
La inferencia autorregresiva de los transformadores se beneficia enormemente del almacenamiento en caché de Clave-Valor (KV), pero puede generar cuellos de botella significativos en la memoria a medida que el tamaño del modelo, el tamaño del lote y la longitud de la secuencia aumentan a gran escala. Presentamos el uso compartido de Clave-Valor Multi-Capa (MLKV), un enfoque novedoso que extiende el uso compartido de KV a través de las capas del transformador para reducir el uso de memoria más allá de lo posible con Atención Multi-Consulta (MQA) y Atención de Consulta Agrupada (GQA). Las evaluaciones en varios puntos de referencia de PLN y métricas de inferencia utilizando variantes ajustadas de Pythia-160M demuestran que MLKV reduce significativamente el uso de memoria con una pérdida mínima de rendimiento, disminuyendo el tamaño de la caché KV hasta un factor de 6x en comparación con MQA. Estos resultados destacan el potencial de MLKV para el despliegue eficiente de modelos de transformadores a gran escala. Proporcionamos el código en https://github.com/zaydzuhri/pythia-mlkv.
El rápido avance de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) exige puntos de referencia robustos y desafiantes. Clasificaciones como Chatbot Arena ordenan los LLMs según qué tan bien sus respuestas se alinean con las preferencias humanas. Sin embargo, muchas tareas, como aquellas relacionadas con la inteligencia emocional, la escritura creativa o la persuasión, son altamente subjetivas y a menudo carecen de un consenso mayoritario entre los humanos. Los evaluadores pueden tener desacuerdos irreconciliables sobre lo que constituye una mejor respuesta. Para abordar el desafío de clasificar LLMs en tareas altamente subjetivas, proponemos un marco de evaluación novedoso: el Consejo de Modelos de Lenguaje (LMC, por sus siglas en inglés). El LMC opera a través de un proceso democrático para: 1) formular un conjunto de pruebas mediante la participación equitativa, 2) administrar las pruebas entre los miembros del consejo, y 3) evaluar las respuestas como un jurado colectivo. Implementamos un consejo de 20 LLMs de última generación en una tarea abierta de inteligencia emocional: responder a dilemas interpersonales. Nuestros resultados muestran que el LMC produce clasificaciones más separables, robustas y menos sesgadas que las de cualquier juez individual basado en un LLM, y es más consistente con una clasificación establecida por humanos en comparación con otros puntos de referencia.
La Respuesta Visual a Preguntas (VQA, por sus siglas en inglés) es una tarea importante en la IA multimodal, y se utiliza frecuentemente para evaluar la capacidad de los modelos de visión y lenguaje para comprender y razonar sobre el conocimiento presente en datos tanto visuales como textuales. Sin embargo, la mayoría de los modelos actuales de VQA utilizan conjuntos de datos que se centran principalmente en el inglés y en unas pocas lenguas principales del mundo, con imágenes que suelen ser de carácter occidental. Aunque recientes esfuerzos han intentado ampliar el número de idiomas cubiertos en los conjuntos de datos de VQA, aún carecen de diversidad en lenguas de bajos recursos. Más importante aún, aunque estos conjuntos de datos a menudo extienden su rango lingüístico mediante traducción u otros enfoques, generalmente mantienen las mismas imágenes, lo que resulta en una representación cultural limitada. Para abordar estas limitaciones, construimos CVQA, un nuevo punto de referencia multilingüe y culturalmente diverso para la Respuesta Visual a Preguntas, diseñado para cubrir un amplio conjunto de idiomas y culturas, donde involucramos a hablantes nativos y expertos culturales en el proceso de recopilación de datos. Como resultado, CVQA incluye imágenes y preguntas culturalmente relevantes de 28 países en cuatro continentes, abarcando 26 idiomas con 11 sistemas de escritura, proporcionando un total de 9k preguntas. Luego, evaluamos varios Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) en CVQA, y demostramos que el conjunto de datos es un desafío para los modelos más avanzados actuales. Este punto de referencia puede servir como una suite de evaluación para analizar la capacidad cultural y el sesgo de los modelos multimodales, y esperamos que fomente más esfuerzos de investigación hacia el aumento de la conciencia cultural y la diversidad lingüística en este campo.
Presentamos LRM-Zero, un Modelo de Reconstrucción a Gran Escala (LRM, por sus siglas en inglés) entrenado completamente con datos 3D sintetizados, logrando una reconstrucción 3D de alta calidad con pocas vistas. El núcleo de LRM-Zero es nuestro conjunto de datos 3D procedural, Zeroverse, que se sintetiza automáticamente a partir de formas primitivas simples con texturizado aleatorio y aumentaciones (por ejemplo, campos de altura, diferencias booleanas y estructuras alámbricas). A diferencia de conjuntos de datos 3D anteriores (por ejemplo, Objaverse), que a menudo son capturados o creados por humanos para aproximarse a datos 3D reales, Zeroverse ignora completamente la semántica global realista pero es rico en detalles geométricos y de textura complejos que son localmente similares o incluso más intrincados que los objetos reales. Demostramos que nuestro LRM-Zero, entrenado con nuestro Zeroverse completamente sintetizado, puede lograr una alta calidad visual en la reconstrucción de objetos del mundo real, compitiendo con modelos entrenados en Objaverse. También analizamos varias decisiones de diseño críticas de Zeroverse que contribuyen a la capacidad y estabilidad del entrenamiento de LRM-Zero. Nuestro trabajo demuestra que la reconstrucción 3D, una de las tareas centrales en visión 3D, puede abordarse potencialmente sin la semántica de objetos del mundo real. El código de síntesis procedural de Zeroverse y su visualización interactiva están disponibles en: https://desaixie.github.io/lrm-zero/.
Coloquialmente, se dice que los modelos de generación de imágenes basados en procesos de difusión a menudo exhiben "alucinaciones", es decir, muestras que nunca podrían ocurrir en los datos de entrenamiento. Pero, ¿de dónde provienen estas alucinaciones? En este artículo, estudiamos un modo particular de fallo en los modelos de difusión, al que denominamos interpolación de modos. Específicamente, encontramos que los modelos de difusión "interpolan" suavemente entre modos de datos cercanos en el conjunto de entrenamiento, generando muestras que están completamente fuera del soporte de la distribución original de entrenamiento; este fenómeno lleva a los modelos de difusión a generar artefactos que nunca existieron en datos reales (es decir, alucinaciones). Estudiamos sistemáticamente las razones y la manifestación de este fenómeno. A través de experimentos con Gaussianas 1D y 2D, mostramos cómo un paisaje de pérdida discontinuo en el decodificador del modelo de difusión conduce a una región donde cualquier aproximación suave causará tales alucinaciones. Mediante experimentos en conjuntos de datos artificiales con diversas formas, mostramos cómo la alucinación lleva a la generación de combinaciones de formas que nunca existieron. Finalmente, demostramos que los modelos de difusión, de hecho, saben cuándo salen del soporte y alucinan. Esto se captura por la alta varianza en la trayectoria de la muestra generada hacia los últimos pasos del proceso de muestreo inverso. Utilizando una métrica simple para capturar esta varianza, podemos eliminar más del 95% de las alucinaciones durante la generación, manteniendo el 96% de las muestras dentro del soporte. Concluimos nuestra exploración mostrando las implicaciones de dicha alucinación (y su eliminación) en el colapso (y estabilización) del entrenamiento recursivo en datos sintéticos, con experimentos en el conjunto de datos MNIST y Gaussianas 2D. Publicamos nuestro código en https://github.com/locuslab/diffusion-model-hallucination.
La compresión de imágenes con tasas de bits ultra bajas es un tema desafiante y exigente. Con el desarrollo de los Modelos Multimodales de Gran Escala (LMMs), ha surgido un paradigma de Compresión Intermodal (CMC) de Imagen-Texto-Imagen. En comparación con los códecs tradicionales, esta compresión a nivel semántico puede reducir el tamaño de los datos de imagen al 0.1% o incluso menos, lo que tiene un fuerte potencial de aplicaciones. Sin embargo, el CMC presenta ciertos defectos en cuanto a la consistencia con la imagen original y la calidad perceptual. Para abordar este problema, presentamos CMC-Bench, un punto de referencia del rendimiento cooperativo de los modelos de Imagen a Texto (I2T) y Texto a Imagen (T2I) para la compresión de imágenes. Este punto de referencia cubre 18,000 y 40,000 imágenes respectivamente para verificar 6 modelos I2T y 12 modelos T2I principales, incluyendo 160,000 puntuaciones de preferencia subjetiva anotadas por expertos humanos. A tasas de bits ultra bajas, este artículo demuestra que la combinación de algunos modelos I2T y T2I ha superado a los códecs de señal visual más avanzados; al mismo tiempo, destaca dónde los LMMs pueden optimizarse aún más para la tarea de compresión. Alentamos a los desarrolladores de LMMs a participar en esta prueba para promover la evolución de los protocolos de códecs de señal visual.
En la generación de imágenes a partir de texto impulsada por sujetos, trabajos recientes han logrado un rendimiento superior al entrenar el modelo en conjuntos de datos sintéticos que contienen numerosos pares de imágenes. Entrenados en estos conjuntos de datos, los modelos generativos pueden producir imágenes alineadas con el texto para un sujeto específico a partir de cualquier imagen de prueba de manera zero-shot. Incluso superan a métodos que requieren un ajuste fino adicional en las imágenes de prueba. Sin embargo, el costo de crear tales conjuntos de datos es prohibitivo para la mayoría de los investigadores. Para generar un solo par de entrenamiento, los métodos actuales ajustan un modelo preentrenado de texto a imagen en la imagen del sujeto para capturar detalles finos, luego usan el modelo ajustado para crear imágenes del mismo sujeto basadas en indicaciones de texto creativas. En consecuencia, construir un conjunto de datos a gran escala con millones de sujetos puede requerir cientos de miles de horas de GPU. Para abordar este problema, proponemos Toffee, un método eficiente para construir conjuntos de datos para la edición y generación impulsada por sujetos. Específicamente, nuestra construcción de conjuntos de datos no necesita ningún ajuste fino a nivel de sujeto. Después de preentrenar dos modelos generativos, podemos generar un número infinito de muestras de alta calidad. Construimos el primer conjunto de datos a gran escala para la edición y generación de imágenes impulsada por sujetos, que contiene 5 millones de pares de imágenes, indicaciones de texto y máscaras. Nuestro conjunto de datos es 5 veces más grande que el conjunto de datos más grande anterior, y nuestro costo es decenas de miles de horas de GPU menor. Para probar el conjunto de datos propuesto, también proponemos un modelo capaz de realizar tanto la edición como la generación de imágenes impulsada por sujetos. Al simplemente entrenar el modelo en nuestro conjunto de datos propuesto, obtiene resultados competitivos, lo que ilustra la efectividad del marco de construcción de conjuntos de datos propuesto.