Artículos de investigación en IA seleccionados diariamente con traducciones
El año pasado, las arquitecturas multimodales impulsaron una revolución en los enfoques y soluciones basados en IA, ampliando las capacidades de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés). Proponemos un modelo OmniFusion basado en un LLM preentrenado y adaptadores para la modalidad visual. Evaluamos y comparamos varios principios de diseño arquitectónico para lograr un mejor acoplamiento entre datos textuales y visuales: adaptadores MLP y transformadores, diversos codificadores basados en CLIP ViT (SigLIP, InternVIT, etc.), su enfoque de fusión, el método de codificación de imágenes (codificación de la imagen completa o por segmentos) y dos LLM de 7B (uno propietario y el de código abierto Mistral). Los experimentos en 8 benchmarks de lenguaje visual muestran la puntuación más alta para la mejor configuración de OmniFusion en términos de diferentes tareas de VQA (respuesta a preguntas visuales) en comparación con soluciones de código abierto similares a LLaVA: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. También proponemos una variedad de situaciones en las que OmniFusion proporciona respuestas altamente detalladas en diferentes dominios: tareas del hogar, turismo, cultura, medicina, reconocimiento de ecuaciones escritas a mano y escaneadas, etc. El modelo OmniFusion basado en Mistral es una solución de código abierto con pesos, scripts de entrenamiento e inferencia disponibles en https://github.com/AIRI-Institute/OmniFusion.
Los grandes modelos de lenguaje de solo decodificación (LLMs) son los modelos de vanguardia en la mayoría de las tareas y benchmarks actuales de Procesamiento del Lenguaje Natural (NLP). Sin embargo, la comunidad está adoptando estos modelos lentamente para tareas de incrustación de texto, que requieren representaciones contextualizadas ricas. En este trabajo, presentamos LLM2Vec, un enfoque simple y no supervisado que puede transformar cualquier LLM de solo decodificación en un potente codificador de texto. LLM2Vec consta de tres pasos sencillos: 1) habilitar la atención bidireccional, 2) predicción enmascarada del siguiente token y 3) aprendizaje contrastivo no supervisado. Demostramos la efectividad de LLM2Vec aplicándolo a 3 LLMs populares que van desde 1.3B hasta 7B parámetros y evaluamos los modelos transformados en tareas de nivel de palabra y secuencia en inglés. Superamos ampliamente a los modelos de solo codificación en tareas de nivel de palabra y alcanzamos un nuevo rendimiento de vanguardia no supervisado en el Massive Text Embeddings Benchmark (MTEB). Además, al combinar LLM2Vec con aprendizaje contrastivo supervisado, logramos un rendimiento de vanguardia en MTEB entre los modelos que se entrenan únicamente con datos disponibles públicamente. Nuestros sólidos resultados empíricos y el análisis extenso demuestran que los LLMs pueden transformarse eficazmente en codificadores de texto universales de manera eficiente en parámetros, sin necesidad de adaptaciones costosas o datos sintéticos generados por GPT-4.
Presentamos Eagle (RWKV-5) y Finch (RWKV-6), modelos de secuencia que mejoran la arquitectura RWKV (RWKV-4). Nuestros avances en el diseño arquitectónico incluyen estados matriciales de múltiples cabezas y un mecanismo de recurrencia dinámica que mejoran la expresividad mientras mantienen las características de eficiencia en inferencia de las RNN. Introducimos un nuevo corpus multilingüe con 1.12 billones de tokens y un tokenizador rápido basado en emparejamiento voraz para mejorar la multilingüidad. Entrenamos cuatro modelos Eagle, que van desde 0.46 hasta 7.5 mil millones de parámetros, y dos modelos Finch con 1.6 y 3.1 mil millones de parámetros, y encontramos que logran un rendimiento competitivo en una amplia variedad de benchmarks. Publicamos todos nuestros modelos en HuggingFace bajo la licencia Apache 2.0. Modelos en: https://huggingface.co/RWKV Código de entrenamiento en: https://github.com/RWKV/RWKV-LM Código de inferencia en: https://github.com/RWKV/ChatRWKV Código de entrenamiento en paralelo en tiempo en: https://github.com/RWKV/RWKV-infctx-trainer
El campo de los Modelos de Lenguaje y Visión de Gran Escala (LVLM, por sus siglas en inglés) ha experimentado avances significativos, aunque su progreso se ha visto obstaculizado por los desafíos en la comprensión de contenido visual detallado debido a la resolución limitada. Recientes esfuerzos han buscado mejorar las capacidades de comprensión de alta resolución en los LVLM, pero estos aún están limitados a aproximadamente 1500 x 1500 píxeles y restringidos a un rango de resolución relativamente estrecho. Este artículo presenta InternLM-XComposer2-4KHD, una exploración innovadora que eleva las capacidades de resolución de los LVLM hasta 4K HD (3840 x 1600) y más allá. Al mismo tiempo, considerando que la resolución ultra alta puede no ser necesaria en todos los escenarios, el modelo admite un amplio rango de resoluciones diversas, desde 336 píxeles hasta el estándar 4K, ampliando significativamente su ámbito de aplicabilidad. Específicamente, esta investigación avanza el paradigma de división de parches al introducir una novedosa extensión: resolución dinámica con configuración automática de parches. Mantiene las proporciones de aspecto de las imágenes de entrenamiento mientras varía automáticamente el número de parches y configura los diseños basándose en un Transformer de Visión (ViT) preentrenado (336 x 336), lo que resulta en una resolución de entrenamiento dinámica que va desde 336 píxeles hasta el estándar 4K. Nuestra investigación demuestra que escalar la resolución de entrenamiento hasta 4K HD conduce a mejoras consistentes en el rendimiento sin alcanzar un límite en las posibles mejoras. InternLM-XComposer2-4KHD muestra una capacidad excepcional que iguala o incluso supera a GPT-4V y Gemini Pro en 10 de los 16 puntos de referencia. La serie de modelos InternLM-XComposer2-4KHD con 7B parámetros está disponible públicamente en https://github.com/InternLM/InternLM-XComposer.
El creciente interés en desarrollar Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) con hasta billones de parámetros ha generado preocupaciones respecto a la eficiencia de recursos y los costos prácticos, especialmente considerando el inmenso gasto que implica la experimentación. Este escenario resalta la importancia de explorar el potencial de los Modelos de Lenguaje Pequeños (SLMs, por sus siglas en inglés) como una alternativa eficiente en términos de recursos. En este contexto, presentamos MiniCPM, específicamente las variantes de 1.2B y 2.4B parámetros no embebidos, que no solo sobresalen en sus respectivas categorías, sino que también demuestran capacidades comparables a LLMs de 7B-13B. Aunque nos enfocamos en SLMs, nuestro enfoque muestra escalabilidad tanto en las dimensiones del modelo como de los datos para futuras investigaciones en LLMs. Respecto a la escalabilidad del modelo, empleamos extensos experimentos en túnel de viento para lograr un escalado estable y óptimo. Para la escalabilidad de datos, introducimos un planificador de tasa de aprendizaje (LRS, por sus siglas en inglés) de Calentamiento-Establecimiento-Decaimiento (WSD, por sus siglas en inglés), propicio para el entrenamiento continuo y la adaptación de dominio. Presentamos un análisis detallado de las dinámicas de entrenamiento intrigantes que ocurrieron en el LRS WSD. Con el LRS WSD, ahora podemos estudiar eficientemente la ley de escalado de datos-modelo sin necesidad de extensos experimentos de reentrenamiento en ambos ejes de modelo y datos, de los cuales derivamos una relación óptima de datos-modelo mucho más alta que la Óptima de Chinchilla. Además, presentamos la familia MiniCPM, que incluye MiniCPM-DPO, MiniCPM-MoE y MiniCPM-128K, cuyo excelente rendimiento consolida aún más la base de MiniCPM en diversas aplicaciones de SLMs. Los modelos MiniCPM están disponibles públicamente en https://github.com/OpenBMB/MiniCPM.
El ajuste por instrucciones ha surgido como clave para alinear los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) con instrucciones específicas de tareas, mitigando así la discrepancia entre el objetivo de predicción del siguiente token y los objetivos reales de los usuarios. Para reducir el costo de tiempo y esfuerzo en la recopilación o anotación de datos por parte de humanos, los investigadores han comenzado a explorar el uso de LLMs para generar datos sintéticos alineados con instrucciones. Trabajos recientes se centran en generar instrucciones diversas y aplicar LLMs para aumentar la complejidad de las instrucciones, a menudo descuidando los casos de uso posteriores. Aún no está claro cómo adaptar datos de alta calidad para fomentar mejores habilidades de seguimiento de instrucciones en diferentes distribuciones de instrucciones objetivo y LLMs. Con este fin, presentamos CodecLM, un marco general para generar de manera adaptativa datos sintéticos de alta calidad para alinear LLMs con diferentes distribuciones de instrucciones posteriores y LLMs. Basándonos en los principios de Codificación-Decodificación, utilizamos LLMs como códecs para guiar el proceso de generación de datos. Primero codificamos instrucciones iniciales en metadatos, que son palabras clave concisas generadas sobre la marcha para capturar la distribución de instrucciones objetivo, y luego decodificamos los metadatos para crear instrucciones personalizadas. También introducimos Autoevaluaciones y Filtrado Contrastante durante la decodificación para adaptar muestras eficientes en datos. Experimentos extensos en cuatro benchmarks de seguimiento de instrucciones de dominio abierto validan la efectividad de CodecLM sobre los métodos más avanzados actuales.
En este artículo, exploramos la aplicación de Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) al preentrenamiento de música. Si bien el uso predominante de MIDI en el modelado musical está bien establecido, nuestros hallazgos sugieren que los LLMs son inherentemente más compatibles con la Notación ABC, que se alinea más estrechamente con su diseño y fortalezas, mejorando así el rendimiento del modelo en la composición musical. Para abordar los desafíos asociados con las medidas desalineadas de diferentes pistas durante la generación, proponemos el desarrollo de una Notación ABC Multi-Pista Sincronizada (SMT-ABC Notation), que tiene como objetivo preservar la coherencia entre múltiples pistas musicales. Nuestras contribuciones incluyen una serie de modelos capaces de manejar hasta 8192 tokens, cubriendo el 90\% de los datos de música simbólica en nuestro conjunto de entrenamiento. Además, exploramos las implicaciones de la Ley de Escalado de Música Simbólica (SMS Law) en el rendimiento del modelo. Los resultados indican una dirección prometedora para futuras investigaciones en generación musical, ofreciendo recursos extensos para la investigación liderada por la comunidad a través de nuestras contribuciones de código abierto.
La evolución del modelado generativo 3D ha sido notablemente impulsada por la adopción de modelos de difusión 2D. A pesar de este progreso, el engorroso proceso de optimización en sí mismo representa un obstáculo crítico para la eficiencia. En este artículo, presentamos Hash3D, una aceleración universal para la generación 3D sin necesidad de entrenamiento de modelos. El núcleo de Hash3D radica en la observación de que la redundancia en los mapas de características es prevalente en las imágenes renderizadas desde posiciones de cámara y pasos de tiempo de difusión cercanos. Al hashear y reutilizar eficazmente estos mapas de características entre pasos de tiempo y ángulos de cámara vecinos, Hash3D previene sustancialmente los cálculos redundantes, acelerando así la inferencia del modelo de difusión en tareas de generación 3D. Logramos esto mediante un hashing basado en una cuadrícula adaptativa. Sorprendentemente, este mecanismo de compartición de características no solo acelera la generación, sino que también mejora la suavidad y la consistencia visual de los objetos 3D sintetizados. Nuestros experimentos, que abarcan 5 modelos de texto-a-3D y 3 modelos de imagen-a-3D, demuestran la versatilidad de Hash3D para acelerar la optimización, mejorando la eficiencia entre 1.3 y 4 veces. Además, la integración de Hash3D con el splatting de Gaussianas 3D acelera en gran medida la creación de modelos 3D, reduciendo el procesamiento de texto-a-3D a aproximadamente 10 minutos y la conversión de imagen-a-3D a unos 30 segundos. La página del proyecto se encuentra en https://adamdad.github.io/hash3D/.
A pesar de la amplia disponibilidad de los LLM (Modelos de Lenguaje de Gran Escala), persiste una brecha significativa en sus capacidades y accesibilidad en diversos idiomas. Un enfoque para abordar estos problemas ha sido tomar un LLM preentrenado existente y continuar su entrenamiento en nuevos idiomas. Si bien trabajos previos han experimentado con la adaptación lingüística, muchas preguntas sobre las mejores prácticas y metodologías no han sido cubiertas. En este artículo, presentamos una investigación exhaustiva sobre la adaptación de LLM a nuevos idiomas. Nuestro estudio abarca los componentes clave de este proceso, incluyendo la extensión del vocabulario, la optimización directa de preferencias y el problema de escasez de datos para la alineación humana en idiomas de bajos recursos. Escalamos estos experimentos en 9 idiomas y 2 escalas de parámetros (7B y 70B). Comparamos nuestros modelos con Llama 2, Aya-101, XGLM, BLOOM y expertos lingüísticos existentes, superando todas las líneas base publicadas previamente. Además, todo el código de evaluación y los puntos de control se hacen públicos para facilitar futuras investigaciones.
La generación de texto a 3D ha logrado un éxito notable gracias a los modelos de difusión a gran escala de texto a imagen. Sin embargo, no existe un paradigma para escalar esta metodología a nivel urbano. Las escenas urbanas, caracterizadas por numerosos elementos, relaciones de disposición intrincadas y una escala vasta, presentan una barrera formidable para la interpretabilidad de descripciones textuales ambiguas en la optimización efectiva de modelos. En este trabajo, superamos estas limitaciones al introducir una representación composicional de disposición 3D en el paradigma de texto a 3D, sirviendo como un prior adicional. Esta consta de un conjunto de primitivas semánticas con estructuras geométricas simples y relaciones de disposición explícitas, complementando las descripciones textuales y permitiendo una generación direccionable. Sobre esto, proponemos dos modificaciones: (1) Introducimos la Distilación de Puntuación Variacional Guiada por Disposición para abordar las insuficiencias en la optimización del modelo. Esta condiciona el proceso de muestreo de distilación de puntuación con restricciones geométricas y semánticas de las disposiciones 3D. (2) Para manejar la naturaleza ilimitada de las escenas urbanas, representamos la escena 3D con una estructura de Malla de Hash Escalable, adaptándose incrementalmente a la creciente escala de las escenas urbanas. Experimentos extensos respaldan la capacidad de nuestro marco para escalar la generación de texto a 3D a escenas urbanas a gran escala que cubren más de 1000m de distancia de conducción por primera vez. También presentamos varias demostraciones de edición de escenas, mostrando las capacidades de la generación direccionable de escenas urbanas. Sitio web: https://urbanarchitect.github.io.
En este artículo, abordamos las limitaciones del Control Adaptativo de Densidad (ADC) en el método de representación de escenas conocido como 3D Gaussian Splatting (3DGS), el cual logra resultados fotorealistas de alta calidad para la síntesis de nuevas vistas. ADC fue introducido para la gestión automática de primitivas de puntos 3D, controlando la densificación y poda, aunque presenta ciertas limitaciones en su lógica de densificación. Nuestra principal contribución es una formulación más fundamentada y basada en el error por píxel para el control de densidad en 3DGS, utilizando una función auxiliar de error por píxel como criterio para la densificación. Además, introducimos un mecanismo para controlar el número total de primitivas generadas por escena y corregimos un sesgo en la estrategia actual de manejo de opacidad de ADC durante las operaciones de clonación. Nuestro enfoque conduce a mejoras consistentes en la calidad en una variedad de escenas de referencia, sin sacrificar la eficiencia del método.
Aprovechando el rápido desarrollo de los modelos de difusión 2D, la creación de contenido 3D ha logrado avances significativos recientemente. Una solución prometedora implica el ajuste fino de modelos de difusión 2D preentrenados para aprovechar su capacidad de producir imágenes multi-vista, que luego se transforman en modelos 3D precisos mediante métodos como fast-NeRFs o modelos de reconstrucción a gran escala. Sin embargo, debido a la persistencia de inconsistencias y la resolución generada limitada, los resultados de generación de tales métodos aún carecen de texturas intrincadas y geometrías complejas. Para resolver este problema, proponemos Magic-Boost, un modelo de difusión condicionado multi-vista que refina significativamente los resultados generativos iniciales mediante un breve período de optimización SDS (sim15min). En comparación con los modelos de difusión basados en texto o en una sola imagen, Magic-Boost exhibe una capacidad robusta para generar imágenes con alta consistencia a partir de imágenes multi-vista pseudo-sintetizadas. Proporciona una guía SDS precisa que se alinea bien con la identidad de las imágenes de entrada, enriqueciendo los detalles locales tanto en la geometría como en la textura de los resultados generativos iniciales. Experimentos extensos muestran que Magic-Boost mejora considerablemente las entradas iniciales y genera activos 3D de alta calidad con ricos detalles geométricos y texturales. (Página del proyecto: https://magic-research.github.io/magic-boost/)
Los objetos manipulados por la mano (es decir, manipulanda) son particularmente desafiantes de reconstruir a partir de imágenes o videos RGB en entornos naturales. No solo la mano ocluye gran parte del objeto, sino que además el objeto suele ser visible solo en un pequeño número de píxeles de la imagen. Al mismo tiempo, surgen dos anclajes fuertes en este contexto: (1) las manos 3D estimadas ayudan a desambiguar la ubicación y la escala del objeto, y (2) el conjunto de manipulanda es pequeño en comparación con todos los objetos posibles. Con estas ideas en mente, presentamos un paradigma escalable para la reconstrucción de objetos sostenidos por la mano que se basa en avances recientes en modelos de lenguaje/visión a gran escala y conjuntos de datos de objetos 3D. Nuestro modelo, MCC-Hand-Object (MCC-HO), reconstruye conjuntamente la geometría de la mano y el objeto a partir de una única imagen RGB y una mano 3D inferida como entradas. Posteriormente, utilizamos GPT-4(V) para recuperar un modelo 3D del objeto que coincida con el objeto en la imagen y alineamos rígidamente el modelo con la geometría inferida por la red; denominamos a esta alineación Reconstrucción Aumentada por Recuperación (RAR, por sus siglas en inglés). Los experimentos demuestran que MCC-HO logra un rendimiento de vanguardia en conjuntos de datos de laboratorio y de Internet, y mostramos cómo RAR puede utilizarse para obtener automáticamente etiquetas 3D para imágenes en entornos naturales de interacciones mano-objeto.
Si bien muchos han demostrado cómo los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) pueden aplicarse a una amplia variedad de tareas, los problemas críticos de la contaminación de datos y la memorización a menudo se pasan por alto. En este trabajo, abordamos esta preocupación en el contexto de datos tabulares. Específicamente, introducimos una variedad de técnicas diferentes para evaluar si un modelo de lenguaje ha visto un conjunto de datos tabulares durante su entrenamiento. Esta investigación revela que los LLMs han memorizado muchos conjuntos de datos tabulares populares de manera literal. Luego, comparamos el rendimiento de los LLMs en aprendizaje de pocos ejemplos (few-shot learning) en conjuntos de datos que fueron vistos durante el entrenamiento con el rendimiento en conjuntos de datos publicados después del entrenamiento. Encontramos que los LLMs tienen un mejor desempeño en los conjuntos de datos vistos durante el entrenamiento, lo que indica que la memorización conduce a un sobreajuste. Al mismo tiempo, los LLMs muestran un rendimiento no trivial en conjuntos de datos nuevos y son sorprendentemente robustos frente a transformaciones de datos. Posteriormente, investigamos las capacidades de aprendizaje estadístico en contexto (in-context statistical learning) de los LLMs. Sin ajuste fino (fine-tuning), encontramos que estas capacidades son limitadas. Esto sugiere que gran parte del rendimiento en pocos ejemplos en conjuntos de datos nuevos se debe al conocimiento general del mundo que poseen los LLMs. En general, nuestros resultados destacan la importancia de verificar si un LLM ha visto un conjunto de datos de evaluación durante su preentrenamiento. Hemos puesto a disposición las pruebas de exposición que desarrollamos como el paquete de Python tabmemcheck en https://github.com/interpretml/LLM-Tabular-Memorization-Checker.