Artículos de investigación en IA seleccionados diariamente con traducciones
Generar respuestas naturales y significativas para comunicarse con entradas humanas multimodales es una capacidad fundamental de los Modelos de Lenguaje y Visión a Gran Escala (LVLMs, por sus siglas en inglés). Si bien los LVLMs de código abierto actuales demuestran un rendimiento prometedor en escenarios simplificados, como entradas de una sola imagen y un solo turno, se quedan cortos en escenarios de conversación del mundo real, como seguir instrucciones en un contexto histórico largo con múltiples turnos e imágenes. Los puntos de referencia existentes para LVLMs se centran principalmente en preguntas de opción única o respuestas breves, lo que no evalúa adecuadamente las capacidades de los LVLMs en aplicaciones de interacción humano-IA del mundo real. Por ello, presentamos MMDU, un punto de referencia integral, y MMDU-45k, un conjunto de datos de ajuste de instrucciones a gran escala, diseñados para evaluar y mejorar las habilidades de los LVLMs en conversaciones con múltiples turnos e imágenes. Empleamos un algoritmo de agrupamiento para encontrar las imágenes y descripciones textuales relevantes de Wikipedia de código abierto y construimos pares de preguntas y respuestas mediante anotadores humanos con la asistencia del modelo GPT-4. MMDU tiene un máximo de 18k tokens de imagen+texto, 20 imágenes y 27 turnos, lo que es al menos 5 veces más largo que los puntos de referencia anteriores y plantea desafíos a los LVLMs actuales. Nuestro análisis en profundidad de 15 LVLMs representativos utilizando MMDU revela que los LVLMs de código abierto están rezagados respecto a sus contrapartes de código cerrado debido a datos limitados de ajuste de instrucciones conversacionales. Demostramos que el ajuste fino de los LVLMs de código abierto en MMDU-45k aborda significativamente esta brecha, generando conversaciones más largas y precisas, y mejorando las puntuaciones en MMDU y en puntos de referencia existentes (MMStar: +1.1%, MathVista: +1.5%, ChartQA: +1.2%). Nuestras contribuciones allanan el camino para cerrar la brecha entre los modelos LVLM actuales y las demandas de aplicaciones del mundo real. Este proyecto está disponible en https://github.com/Liuziyu77/MMDU.
Presentamos DataComp for Language Models (DCLM), un banco de pruebas para experimentos controlados con conjuntos de datos con el objetivo de mejorar los modelos de lenguaje. Como parte de DCLM, proporcionamos un corpus estandarizado de 240T tokens extraídos de Common Crawl, recetas efectivas de preentrenamiento basadas en el marco OpenLM y una amplia suite de 53 evaluaciones posteriores. Los participantes en el benchmark DCLM pueden experimentar con estrategias de curación de datos, como deduplicación, filtrado y mezcla de datos, en escalas de modelos que van desde 412M hasta 7B parámetros. Como línea base para DCLM, realizamos extensos experimentos y encontramos que el filtrado basado en modelos es clave para ensamblar un conjunto de entrenamiento de alta calidad. El conjunto de datos resultante, DCLM-Baseline, permite entrenar un modelo de lenguaje de 7B parámetros desde cero hasta un 64% de precisión en 5-shot en MMLU con 2.6T tokens de entrenamiento. En comparación con MAP-Neo, el anterior estado del arte en modelos de lenguaje de datos abiertos, DCLM-Baseline representa una mejora de 6.6 puntos porcentuales en MMLU mientras se entrena con un 40% menos de cómputo. Nuestro modelo base también es comparable a Mistral-7B-v0.3 y Llama 3 8B en MMLU (63% y 66%), y tiene un rendimiento similar en un promedio de 53 tareas de comprensión del lenguaje natural mientras se entrena con 6.6 veces menos cómputo que Llama 3 8B. Nuestros resultados destacan la importancia del diseño de conjuntos de datos para el entrenamiento de modelos de lenguaje y ofrecen un punto de partida para futuras investigaciones sobre la curación de datos.
La optimización directa de preferencias (DPO, por sus siglas en inglés) ha demostrado ser un método efectivo para la alineación de modelos de lenguaje de gran escala (LLM). Trabajos recientes han intentado aplicar DPO a escenarios multimodales, pero han encontrado dificultades para lograr mejoras consistentes. Mediante un experimento comparativo, identificamos el problema de preferencia incondicional en la optimización de preferencias multimodales, donde el modelo pasa por alto la condición de la imagen. Para abordar este problema, proponemos mDPO, un objetivo DPO multimodal que evita la priorización excesiva de preferencias basadas únicamente en el lenguaje al optimizar también la preferencia de la imagen. Además, introducimos un anclaje de recompensa que fuerza a que la recompensa sea positiva para las respuestas seleccionadas, evitando así la disminución de su probabilidad, un problema intrínseco de la optimización de preferencias relativas. Los experimentos realizados en dos LLM multimodales de diferentes tamaños y tres puntos de referencia ampliamente utilizados demuestran que mDPO aborda efectivamente el problema de preferencia incondicional en la optimización de preferencias multimodales y mejora significativamente el rendimiento del modelo, particularmente en la reducción de alucinaciones.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son capaces de procesar historiales de diálogo extensos durante interacciones prolongadas con los usuarios sin necesidad de módulos de memoria adicionales; sin embargo, sus respuestas tienden a pasar por alto o recordar incorrectamente información del pasado. En este artículo, revisitamos la generación de respuestas aumentada con memoria en la era de los LLMs. Mientras que trabajos previos se centran en eliminar recuerdos obsoletos, argumentamos que dichos recuerdos pueden proporcionar pistas contextuales que ayudan a los sistemas de diálogo a comprender el desarrollo de eventos pasados y, por lo tanto, beneficiar la generación de respuestas. Presentamos Theanine, un marco que aumenta la generación de respuestas de los LLMs con líneas de tiempo de memoria —series de recuerdos que demuestran el desarrollo y la causalidad de eventos pasados relevantes—. Junto con Theanine, introducimos TeaFarm, una canalización de preguntas y respuestas basada en contrafactuales que aborda la limitación de G-Eval en conversaciones a largo plazo. Los videos complementarios de nuestros métodos y el conjunto de datos TeaBag para la evaluación de TeaFarm están disponibles en https://theanine-693b0.web.app/.
Recientemente, los activos 3D creados mediante reconstrucción y generación han igualado la calidad de los activos elaborados manualmente, destacando su potencial de reemplazo. Sin embargo, este potencial está en gran parte sin realizarse porque estos activos siempre necesitan ser convertidos en mallas para aplicaciones en la industria 3D, y las mallas producidas por los métodos actuales de extracción de mallas son significativamente inferiores a las Mallas Creadas por Artistas (AMs), es decir, mallas creadas por artistas humanos. Específicamente, los métodos actuales de extracción de mallas dependen de caras densas e ignoran las características geométricas, lo que lleva a ineficiencias, postprocesamiento complicado y una menor calidad de representación. Para abordar estos problemas, presentamos MeshAnything, un modelo que trata la extracción de mallas como un problema de generación, produciendo AMs alineadas con formas especificadas. Al convertir activos 3D en cualquier representación 3D en AMs, MeshAnything puede integrarse con diversos métodos de producción de activos 3D, mejorando así su aplicación en la industria 3D. La arquitectura de MeshAnything comprende un VQ-VAE y un transformador decodificador condicionado por la forma. Primero aprendemos un vocabulario de mallas utilizando el VQ-VAE, luego entrenamos el transformador decodificador condicionado por la forma en este vocabulario para la generación autoregresiva de mallas condicionada por la forma. Nuestros extensos experimentos muestran que nuestro método genera AMs con cientos de veces menos caras, mejorando significativamente la eficiencia de almacenamiento, renderizado y simulación, mientras alcanza una precisión comparable a los métodos anteriores.
A pesar de la observación reciente de que los modelos de lenguaje de gran escala (LLMs) pueden almacenar un conocimiento factual sustancial, existe una comprensión limitada de los mecanismos mediante los cuales adquieren este conocimiento factual a través del preentrenamiento. Este trabajo aborda esta brecha al estudiar cómo los LLMs adquieren conocimiento factual durante el preentrenamiento. Los hallazgos revelan varias ideas importantes sobre la dinámica de la adquisición de conocimiento factual durante este proceso. En primer lugar, de manera contraintuitiva, observamos que el preentrenamiento con más datos no muestra una mejora significativa en la capacidad del modelo para adquirir y mantener conocimiento factual. En segundo lugar, existe una relación de ley de potencia entre los pasos de entrenamiento y el olvido de la memorización y generalización del conocimiento factual, y los LLMs entrenados con datos duplicados exhiben un olvido más rápido. En tercer lugar, entrenar LLMs con tamaños de lote más grandes puede mejorar la robustez de los modelos frente al olvido. En general, nuestras observaciones sugieren que la adquisición de conocimiento factual en el preentrenamiento de LLMs ocurre al aumentar progresivamente la probabilidad del conocimiento factual presentado en los datos de preentrenamiento en cada paso. Sin embargo, este aumento se diluye debido al olvido posterior. Basándonos en esta interpretación, demostramos que podemos proporcionar explicaciones plausibles para comportamientos recientemente observados en LLMs, como el bajo rendimiento de los LLMs en conocimiento de cola larga y los beneficios de deduplicar el corpus de preentrenamiento.
Los modelos de lenguaje grandes (LLM) recientes han sido mejorados con capacidades visuales, permitiéndoles comprender imágenes, videos y contenido intercalado de visión y lenguaje. Sin embargo, los métodos de aprendizaje de estos modelos multimodales grandes suelen tratar los videos como clips predeterminados, lo que los hace menos efectivos y eficientes al manejar entradas de video en tiempo real. En este artículo, proponemos un marco novedoso llamado Aprendizaje-en-Flujo-de-Video (LIVE, por sus siglas en inglés), que permite conversaciones alineadas temporalmente, de contexto largo y en tiempo real dentro de un flujo de video continuo. Nuestro marco LIVE incluye enfoques integrales para lograr diálogos en flujos de video, abarcando: (1) un objetivo de entrenamiento diseñado para realizar modelado de lenguaje en entradas de flujo continuo, (2) un esquema de generación de datos que convierte anotaciones temporales offline en un formato de diálogo en flujo, y (3) una canalización de inferencia optimizada para acelerar las respuestas del modelo en flujos de video del mundo real. Con nuestro marco LIVE, construimos el modelo VideoLLM-online basado en Llama-2/Llama-3 y demostramos sus ventajas significativas en el procesamiento de videos en tiempo real. Por ejemplo, en promedio, nuestro modelo puede soportar diálogos en flujo en un clip de video de 5 minutos a más de 10 FPS en una GPU A100. Además, también muestra un rendimiento de vanguardia en benchmarks públicos de video offline, como reconocimiento, subtitulado y predicción. El código, modelo, datos y demo están disponibles en https://showlab.github.io/videollm-online.
El despliegue de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) a menudo se ve obstaculizado por los extensos requisitos de memoria de la caché de Clave-Valor (KV), especialmente a medida que aumentan las longitudes de contexto. Los enfoques existentes para reducir el tamaño de la caché KV implican ajustar el modelo para aprender una estrategia de compresión o aprovechar las puntuaciones de atención para reducir la longitud de la secuencia. Analizamos las distribuciones de atención en modelos basados en Transformers de solo decodificación y observamos que los patrones de asignación de atención se mantienen consistentes en la mayoría de las capas. Sorprendentemente, encontramos una clara correlación entre la norma L_2 y las puntuaciones de atención sobre los pares KV almacenados en caché, donde una norma L_2 baja de una incrustación de clave generalmente conduce a una puntuación de atención alta durante la decodificación. Este hallazgo indica que la influencia de un par KV está potencialmente determinada por la propia incrustación de clave antes de ser consultada. Basándonos en esta observación, comprimimos la caché KV en función de la norma L_2 de las incrustaciones de clave. Nuestros resultados experimentales muestran que esta estrategia simple puede reducir el tamaño de la caché KV en un 50% en tareas de modelado de lenguaje y de búsqueda de aguja en un pajar, y en un 90% en tareas de recuperación de claves de acceso, sin perder precisión.
Los modelos de lenguaje grande (LLMs, por sus siglas en inglés) basados en transformadores de solo decodificador han demostrado capacidades superiores de comprensión de texto en comparación con los modelos de la serie CLIP y T5. Sin embargo, el paradigma para utilizar los LLMs avanzados actuales en modelos de difusión de texto a imagen aún está por explorar. Observamos un fenómeno inusual: el uso directo de un modelo de lenguaje grande como codificador de instrucciones degrada significativamente la capacidad de seguimiento de instrucciones en la generación de imágenes. Identificamos dos obstáculos principales detrás de este problema. Uno es la desalineación entre el entrenamiento de predicción del siguiente token en los LLMs y la necesidad de características discriminativas de instrucciones en los modelos de difusión. El otro es el sesgo posicional intrínseco introducido por la arquitectura de solo decodificador. Para abordar este problema, proponemos un marco novedoso para aprovechar plenamente las capacidades de los LLMs. A través de una guía de uso cuidadosamente diseñada, mejoramos efectivamente la capacidad de representación de texto para la codificación de instrucciones y eliminamos su sesgo posicional inherente. Esto nos permite integrar LLMs de última generación en el modelo de generación de texto a imagen de manera flexible. Además, también proporcionamos una forma efectiva de fusionar múltiples LLMs en nuestro marco. Considerando el excelente rendimiento y las capacidades de escalabilidad demostradas por la arquitectura de transformadores, diseñamos además un Transformer de Difusión Infundido con LLM (LI-DiT) basado en este marco. Realizamos extensos experimentos para validar LI-DiT en términos de tamaño del modelo y tamaño de los datos. Gracias a la capacidad inherente de los LLMs y a nuestros diseños innovadores, el rendimiento de comprensión de instrucciones de LI-DiT supera fácilmente a los modelos de código abierto más avanzados, así como a los modelos comerciales de código cerrado más populares, incluyendo Stable Diffusion 3, DALL-E 3 y Midjourney V6. El potente LI-DiT-10B estará disponible después de una mayor optimización y verificaciones de seguridad.
La percepción y comprensión de sonidos no verbales y del habla no verbal es esencial para tomar decisiones que nos ayuden a interactuar con nuestro entorno. En este artículo, proponemos GAMA, un novedoso Modelo de Lenguaje y Audio de Propósito General (LALM, por sus siglas en inglés) con Capacidades Avanzadas de Comprensión de Audio y Razonamiento Complejo. Construimos GAMA integrando un LLM con múltiples tipos de representaciones de audio, incluyendo características de un Audio Q-Former personalizado, un agregador multicapa que combina características de múltiples capas de un codificador de audio. Ajustamos GAMA en un conjunto de datos a gran escala de audio y lenguaje, lo que lo dota de capacidades de comprensión de audio. A continuación, proponemos CompA-R (Ajuste por Instrucciones para Razonamiento Complejo en Audio), un conjunto de datos de ajuste por instrucciones (IT) generado sintéticamente con instrucciones que requieren que el modelo realice un razonamiento complejo sobre el audio de entrada. Ajustamos GAMA con CompA-R para dotarlo de habilidades de razonamiento complejo, donde además añadimos un prompt suave como entrada con evidencia semántica de alto nivel aprovechando las etiquetas de eventos del audio de entrada. Finalmente, también proponemos CompA-R-test, un conjunto de datos de evaluación etiquetado por humanos para evaluar las capacidades de los LALMs en tareas de preguntas y respuestas abiertas sobre audio que requieren razonamiento complejo. Mediante evaluaciones automatizadas y por expertos humanos, demostramos que GAMA supera a todos los demás LALMs en la literatura en diversas tareas de comprensión de audio con márgenes del 1% al 84%. Además, GAMA ajustado con CompA-R demuestra ser superior en sus capacidades de razonamiento complejo y seguimiento de instrucciones.
Los conjuntos de datos intercalados multimodales que presentan secuencias intercaladas de forma libre de imágenes y texto son cruciales para entrenar modelos multimodales grandes (LMMs) de vanguardia. A pesar del rápido avance de los LMMs de código abierto, sigue existiendo una notable escasez de conjuntos de datos intercalados multimodales a gran escala y diversos de código abierto. En respuesta, presentamos MINT-1T, el conjunto de datos Multimodal INTerleaved más extenso y diverso de código abierto hasta la fecha. MINT-1T comprende un billón de tokens de texto y tres mil millones de imágenes, un aumento de 10 veces en escala respecto a los conjuntos de datos de código abierto existentes. Además, incluimos fuentes previamente no explotadas, como PDFs y artículos de ArXiv. Dado que escalar conjuntos de datos intercalados multimodales requiere un esfuerzo de ingeniería sustancial, compartir el proceso de curación de datos y liberar el conjunto de datos beneficia enormemente a la comunidad. Nuestros experimentos muestran que los LMMs entrenados en MINT-1T rivalizan con el rendimiento de los modelos entrenados en el conjunto de datos líder anterior, OBELICS. Nuestros datos y código serán liberados en https://github.com/mlfoundations/MINT-1T.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado una excelente comprensión de imágenes y datos 3D. Sin embargo, ambas modalidades presentan limitaciones para capturar de manera holística la apariencia y la geometría de los objetos. Mientras tanto, los Campos de Radiancia Neural (NeRFs, por sus siglas en inglés), que codifican información en los pesos de una Red Perceptrón Multicapa (MLP, por sus siglas en inglés) simple, han surgido como una modalidad cada vez más extendida que codifica simultáneamente la geometría y la apariencia fotorrealista de los objetos. Este artículo investiga la viabilidad y efectividad de integrar NeRF en MLLM. Creamos LLaNA, el primer asistente de propósito general que combina NeRF y lenguaje, capaz de realizar nuevas tareas como la generación de descripciones (captioning) y preguntas y respuestas (Q&A) sobre NeRFs. Destacablemente, nuestro método procesa directamente los pesos de la MLP del NeRF para extraer información sobre los objetos representados, sin necesidad de renderizar imágenes o materializar estructuras de datos 3D. Además, construimos un conjunto de datos de NeRFs con anotaciones de texto para diversas tareas de lenguaje-NeRF sin intervención humana. Basándonos en este conjunto de datos, desarrollamos un punto de referencia (benchmark) para evaluar la capacidad de comprensión de NeRF de nuestro método. Los resultados muestran que procesar los pesos de NeRF supera favorablemente a la extracción de representaciones 2D o 3D a partir de NeRFs.
El entrenamiento de grandes modelos de visión y lenguaje requiere pares extensos y de alta calidad de imágenes y texto. Sin embargo, los conjuntos de datos extraídos de la web existentes son ruidosos y carecen de descripciones detalladas de las imágenes. Para cerrar esta brecha, presentamos PixelProse, un conjunto de datos integral que contiene más de 16 millones de descripciones generadas sintéticamente, aprovechando modelos de vanguardia de visión y lenguaje para obtener descripciones detalladas y precisas. Para garantizar la integridad de los datos, analizamos rigurosamente nuestro conjunto de datos en busca de contenido problemático, incluyendo material de abuso sexual infantil (CSAM), información personal identificable (PII) y toxicidad. También proporcionamos metadatos valiosos, como la presencia de marcas de agua y puntuaciones estéticas, que ayudan en el filtrado adicional del conjunto de datos. Esperamos que PixelProse sea un recurso valioso para futuras investigaciones en visión y lenguaje. PixelProse está disponible en https://huggingface.co/datasets/tomg-group-umd/pixelprose.
El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) es una solución prometedora para alinear más estrechamente los modelos de lenguaje grandes (LLMs) con los valores humanos. La optimización de preferencias fuera de política, donde los datos de preferencia se obtienen de otros modelos, es ampliamente adoptada debido a su eficiencia en costos y escalabilidad. Sin embargo, la optimización de preferencias fuera de política a menudo sufre de una brecha distribucional entre la política utilizada para la recolección de datos y la política objetivo, lo que lleva a una optimización subóptima. En este artículo, proponemos una estrategia novedosa para mitigar este problema simulando el aprendizaje en política con datos de preferencia fuera de política. Nuestro método de Optimización de Preferencias Ponderadas (WPO) adapta los datos fuera de política para que se asemejen más a los datos en política, reasignando peso a los pares de preferencia según su probabilidad bajo la política actual. Este método no solo aborda el problema de la brecha distribucional, sino que también mejora el proceso de optimización sin incurrir en costos adicionales. Validamos nuestro método en puntos de referencia de seguimiento de instrucciones, incluyendo Alpaca Eval 2 y MT-bench. WPO no solo supera a la Optimización Directa de Preferencias (DPO) en hasta un 5.6% en Alpaca Eval 2, sino que también establece una tasa de victoria controlada por longitud notable del 48.6% frente a GPT-4-turbo basado en Llama-3-8B-Instruct, convirtiéndolo en el modelo de 8B más fuerte en el ranking. Publicaremos el código y los modelos en https://github.com/wzhouad/WPO.
El paradigma existente de ajuste fino para modelos de lenguaje es frágil en escenarios de edición de conocimiento, donde el modelo debe incorporar nueva información sin un extenso reentrenamiento. Esta fragilidad a menudo resulta en sobreajuste, reducción del rendimiento y generación de lenguaje poco natural. Para abordar esto, proponemos Consistent In-Context Editing (ICE), un enfoque novedoso que aprovecha la capacidad de aprendizaje en contexto del modelo para ajustarse hacia una distribución contextual en lugar de un objetivo categórico. ICE introduce un marco de optimización sencillo que incluye tanto un objetivo como un procedimiento, mejorando la robustez y efectividad de los métodos de ajuste basados en gradientes. Ofrecemos análisis detallados de ICE en cuatro aspectos críticos de la edición de conocimiento: precisión, localidad, generalización y calidad lingüística, mostrando sus ventajas. Los resultados experimentales en cuatro conjuntos de datos confirman la efectividad de ICE y demuestran su potencial para la edición continua, asegurando que la información actualizada se incorpore mientras se preserva la integridad del modelo.
Los modelos del mundo simulan estados futuros del mundo en respuesta a diferentes acciones. Facilitan la creación de contenido interactivo y proporcionan una base para un razonamiento fundamentado y de largo alcance. Los modelos base actuales no cumplen plenamente con las capacidades de los modelos generales del mundo: los modelos de lenguaje grandes (LLMs) están limitados por su dependencia de la modalidad del lenguaje y su comprensión limitada del mundo físico, mientras que los modelos de video carecen de control interactivo sobre las simulaciones del mundo. Este artículo da un paso hacia la construcción de un modelo general del mundo al presentar Pandora, un modelo híbrido autoregresivo-difusión que simula estados del mundo generando videos y permite un control en tiempo real con acciones de texto libre. Pandora logra generalidad de dominio, consistencia de video y controlabilidad mediante un entrenamiento previo a gran escala y ajuste por instrucciones. Crucialmente, Pandora evita el costo de entrenar desde cero al integrar un LLM preentrenado (7B) y un modelo de video preentrenado, requiriendo solo un ajuste fino adicional ligero. Ilustramos extensas salidas de Pandora en diversos dominios (interior/exterior, natural/urbano, humano/robot, 2D/3D, etc.). Los resultados indican un gran potencial para construir modelos generales del mundo más robustos con un entrenamiento a mayor escala.
Los recientes avances en los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) destacan la necesidad de evaluar las preferencias humanas en interacciones multimodales del mundo real. Para abordar esta brecha, lanzamos WildVision-Arena (WV-Arena), una plataforma en línea que recopila preferencias humanas para evaluar VLMs. Curatoriamos WV-Bench seleccionando 500 muestras de alta calidad entre 8,000 envíos de usuarios en WV-Arena. WV-Bench utiliza GPT-4 como juez para comparar cada VLM con Claude-3-Sonnet, logrando una correlación de Spearman de 0.94 con el Elo de WV-Arena. Esto supera significativamente otros puntos de referencia como MMVet, MMMU y MMStar. Nuestro análisis exhaustivo de 20,000 interacciones del mundo real revela insights importantes sobre los casos de falla de los VLMs más destacados. Por ejemplo, encontramos que, aunque GPT-4V supera a muchos otros modelos como Reka-Flash, Opus y Yi-VL-Plus en tareas simples de reconocimiento visual y razonamiento, aún enfrenta desafíos con señales contextuales sutiles, razonamiento espacial, imaginación visual y conocimiento de dominio experto. Además, los VLMs actuales presentan problemas con alucinaciones y seguridad cuando son provocados intencionalmente. Estamos liberando nuestros datos de chat y retroalimentación para impulsar aún más la investigación en el campo de los VLMs.
Presentamos L4GM, el primer Modelo de Reconstrucción Grande 4D que genera objetos animados a partir de una entrada de video de una sola vista — en un único paso de avance que toma solo un segundo. Clave para nuestro éxito es un nuevo conjunto de datos de videos multivista que contiene objetos animados renderizados y curados de Objaverse. Este conjunto de datos representa 44K objetos diversos con 110K animaciones renderizadas en 48 puntos de vista, resultando en 12M videos con un total de 300M cuadros. Mantenemos nuestro L4GM simple para escalabilidad y lo construimos directamente sobre LGM, un Modelo de Reconstrucción Grande 3D preentrenado que genera elipsoides de Gaussianas 3D a partir de entradas de imágenes multivista. L4GM produce una representación de Splatting de Gaussianas 3D por cuadro a partir de fotogramas de video muestreados a una baja tasa de fps y luego aumenta la representación a una tasa de fps más alta para lograr suavidad temporal. Añadimos capas de auto-atención temporal al LGM base para ayudarlo a aprender consistencia a lo largo del tiempo, y utilizamos una pérdida de renderizado multivista por paso de tiempo para entrenar el modelo. La representación se aumenta a una tasa de cuadros más alta entrenando un modelo de interpolación que produce representaciones intermedias de Gaussianas 3D. Demostramos que L4GM, entrenado únicamente con datos sintéticos, generaliza extremadamente bien en videos del mundo real, produciendo activos 3D animados de alta calidad.
En el mundo real, los documentos están organizados en diferentes formatos y diversas modalidades. Los pipelines de recuperación tradicionales requieren técnicas de análisis de documentos personalizadas y módulos de extracción de contenido para preparar la entrada para la indexación. Este proceso es tedioso, propenso a errores y conlleva pérdida de información. Con este fin, proponemos Document Screenshot Embedding (DSE), un nuevo paradigma de recuperación que considera las capturas de pantalla de documentos como un formato de entrada unificado, el cual no requiere ningún preprocesamiento de extracción de contenido y preserva toda la información en un documento (por ejemplo, texto, imagen y diseño). DSE aprovecha un modelo grande de visión y lenguaje para codificar directamente las capturas de pantalla de documentos en representaciones densas para la recuperación. Para evaluar nuestro método, primero creamos el conjunto de datos de Wiki-SS, un corpus de 1.3 millones de capturas de pantalla de páginas web de Wikipedia, para responder a las preguntas del conjunto de datos Natural Questions. En este entorno de recuperación de documentos intensivo en texto, DSE muestra una efectividad competitiva en comparación con otros métodos de recuperación de texto que dependen del análisis. Por ejemplo, DSE supera a BM25 por 17 puntos en la precisión de recuperación top-1. Además, en una tarea de modalidad mixta de recuperación de diapositivas, DSE supera significativamente a los métodos de recuperación de texto OCR por más de 15 puntos en nDCG@10. Estos experimentos muestran que DSE es un paradigma efectivo de recuperación de documentos para diversos tipos de documentos. Los puntos de control del modelo, el código y la colección Wiki-SS serán publicados.
Los puntos de referencia para los modelos de lenguaje multimodal (MLM) a gran escala ahora sirven para evaluar simultáneamente las capacidades generales de los modelos en lugar de evaluar una capacidad específica. Como resultado, cuando un desarrollador quiere identificar qué modelos utilizar para su aplicación, se ve abrumado por la cantidad de puntos de referencia y permanece inseguro sobre cuáles resultados son más representativos para su caso de uso específico. Este artículo presenta Task-Me-Anything, un motor de generación de puntos de referencia que produce un punto de referencia adaptado a las necesidades del usuario. Task-Me-Anything mantiene una taxonomía extensible de recursos visuales y puede generar programáticamente un gran número de instancias de tareas. Además, aborda algorítmicamente las consultas de los usuarios sobre el rendimiento de los MLM de manera eficiente dentro de un presupuesto computacional. Contiene 113K imágenes, 10K videos, 2K recursos de objetos 3D, más de 365 categorías de objetos, 655 atributos y 335 relaciones. Puede generar 750M pares de preguntas y respuestas de imágenes/videos, que se centran en evaluar las capacidades perceptivas de los MLM. Task-Me-Anything revela insights críticos: los MLM de código abierto sobresalen en el reconocimiento de objetos y atributos, pero carecen de comprensión espacial y temporal; cada modelo exhibe fortalezas y debilidades únicas; los modelos más grandes generalmente tienen un mejor rendimiento, aunque existen excepciones; y GPT4o demuestra desafíos en el reconocimiento de objetos en rotación/movimiento y en la distinción de colores.
Una frontera reciente en visión por computadora ha sido la tarea de generación de videos 3D, que consiste en generar una representación 3D de una escena que varía en el tiempo. Para generar escenas 3D dinámicas, los métodos actuales modelan explícitamente la dinámica temporal 3D optimizando conjuntamente la consistencia tanto en el tiempo como en las vistas de la escena. En este artículo, investigamos si es necesario imponer explícitamente la consistencia multivista a lo largo del tiempo, como lo hacen los enfoques actuales, o si es suficiente que un modelo genere representaciones 3D de cada paso de tiempo de manera independiente. Por ello, proponemos un modelo, Vid3D, que aprovecha la difusión de videos 2D para generar videos 3D, primero generando una "semilla" 2D de la dinámica temporal del video y luego generando de forma independiente una representación 3D para cada paso de tiempo en el video semilla. Evaluamos Vid3D frente a dos métodos de última generación en generación de videos 3D y encontramos que Vid3D logra resultados comparables a pesar de no modelar explícitamente la dinámica temporal 3D. Además, analizamos cómo la calidad de Vid3D depende del número de vistas generadas por fotograma. Si bien observamos cierta degradación con menos vistas, la disminución en el rendimiento sigue siendo menor. Nuestros resultados sugieren, por tanto, que el conocimiento temporal 3D podría no ser necesario para generar escenas 3D dinámicas de alta calidad, lo que potencialmente permitiría algoritmos generativos más simples para esta tarea.
Es ampliamente aceptado que una red neuronal puede ajustarse a un conjunto de entrenamiento que contenga al menos tantas muestras como parámetros tenga, lo que sustenta las nociones de modelos sobreparametrizados y subparametrizados. Sin embargo, en la práctica, solo encontramos soluciones accesibles a través de nuestro procedimiento de entrenamiento, incluyendo el optimizador y los regularizadores, lo que limita la flexibilidad. Además, la parametrización exacta de la clase de funciones, integrada en una arquitectura, moldea su superficie de pérdida e influye en los mínimos que encontramos. En este trabajo, examinamos la capacidad de las redes neuronales para ajustarse a los datos en la práctica. Nuestros hallazgos indican que: (1) los optimizadores estándar encuentran mínimos donde el modelo solo puede ajustarse a conjuntos de entrenamiento con significativamente menos muestras que parámetros; (2) las redes convolucionales son más eficientes en términos de parámetros que las MLP y las ViT, incluso en datos con etiquetas aleatorias; (3) aunque se piensa que el entrenamiento estocástico tiene un efecto regularizador, el SGD en realidad encuentra mínimos que se ajustan a más datos de entrenamiento que el descenso de gradiente por lotes completos; (4) la diferencia en la capacidad para ajustarse a muestras correctamente etiquetadas e incorrectamente etiquetadas puede ser predictiva de la generalización; (5) las funciones de activación ReLU resultan en la búsqueda de mínimos que se ajustan a más datos, a pesar de estar diseñadas para evitar los problemas de gradientes que desaparecen o explotan en arquitecturas profundas.
Presentamos un novedoso conjunto de datos de preferencias multimodales para tareas creativas, que consta de más de 250 millones de valoraciones humanas sobre más de 2.2 millones de subtítulos, recopilados a través de datos de calificación por crowdsourcing para el concurso semanal de subtítulos de caricaturas de The New Yorker durante los últimos ocho años. Este conjunto de datos único respalda el desarrollo y evaluación de modelos de lenguaje multimodal de gran escala y algoritmos de ajuste fino basados en preferencias para la generación de subtítulos humorísticos. Proponemos nuevos puntos de referencia para juzgar la calidad de los subtítulos generados por modelos, utilizando tanto GPT4 como juicios humanos para establecer estrategias de evaluación basadas en clasificación. Nuestros resultados experimentales destacan las limitaciones de los métodos actuales de ajuste fino, como RLHF y DPO, cuando se aplican a tareas creativas. Además, demostramos que incluso modelos de última generación como GPT4 y Claude actualmente tienen un rendimiento inferior al de los mejores concursantes humanos en la generación de subtítulos humorísticos. Al concluir este extenso esfuerzo de recopilación de datos, liberamos todo el conjunto de datos de preferencias a la comunidad investigadora, fomentando avances adicionales en la generación y evaluación de humor en IA.
El rápido auge de los Modelos de Lenguaje (LMs) ha ampliado su uso en diversas aplicaciones. Sin embargo, debido a limitaciones en el tamaño del modelo, costos asociados o restricciones de propiedad, no siempre es factible utilizar los LMs de última generación (SOTA). Con la aparición de LMs más pequeños y abiertos, más aplicaciones pueden aprovechar sus capacidades, pero seleccionar el LM adecuado puede ser un desafío. Este trabajo realiza un análisis experimental en profundidad de la corrección semántica de las salidas de 10 LMs más pequeños y abiertos, abarcando tres aspectos: tipos de tareas, dominios de aplicación y tipos de razonamiento, utilizando diversos estilos de prompts. Demostramos que los modelos y estilos de prompts más efectivos varían según los requisitos específicos. Nuestro análisis proporciona una evaluación comparativa de LMs y estilos de prompts utilizando un esquema propuesto de tres niveles de aspectos para su selección estratégica basada en el caso de uso y otras restricciones. También mostramos que, si se utilizan adecuadamente, estos LMs pueden competir y, en ocasiones, superar a LMs SOTA como DeepSeek-v2, GPT-3.5-Turbo y GPT-4o.
Los transformadores basados en atención se han convertido en la arquitectura estándar en muchos campos del aprendizaje profundo, principalmente debido a su capacidad para modelar dependencias de largo alcance y manejar secuencias de entrada de longitud variable. Sin embargo, el mecanismo de atención, con su complejidad cuadrática, representa un cuello de botella significativo en la arquitectura del transformador. Este algoritmo es unidireccional en el decodificador y converge a un patrón estático en modelos de solo decodificador sobreparametrizados. Abordo este problema desarrollando una función generativa como reemplazo de la atención o activación. Aún conserva el carácter autorregresivo al comparar cada token con el anterior. En mi configuración de pruebas con nanoGPT, esto resulta en una pérdida menor mientras se utiliza un modelo más pequeño. La pérdida disminuye aún más al incorporar un vector de contexto promedio. Este concepto de reemplazo de atención se distribuye bajo la licencia GNU AGPL v3 en https://gitlab.com/Bachstelze/causal_generation.
Una miríada de diferentes Modelos de Lenguaje de Gran Escala (LLMs) enfrentan un desafío común al analizar contextualmente tareas de preguntas y respuestas sobre tablas. Estos desafíos surgen de (1) ventanas de contexto finitas para tablas grandes, (2) discrepancias multifacéticas entre los patrones de tokenización y los límites de las celdas, y (3) diversas limitaciones derivadas de la confidencialidad de los datos en el proceso de utilizar modelos externos como gpt-3.5-turbo. Proponemos un juego cooperativo llamado "HiddenTables" como una posible resolución a este desafío. En esencia, "HiddenTables" se juega entre el LLM generador de código "Solver" y el "Oracle", que evalúa la capacidad de los agentes LLM para resolver tareas de preguntas y respuestas sobre tablas. Este juego se basa en esquemas de lenguaje natural y, lo que es más importante, garantiza la seguridad de los datos subyacentes. Proporcionamos experimentos evidenciados en un conjunto diverso de tablas que demuestran la incapacidad colectiva de un LLM para generalizar y desempeñarse en consultas complejas, manejar dependencias composicionales y alinear el lenguaje natural con comandos programáticos cuando se proporcionan esquemas de tablas concretos. A diferencia de los modelos basados en codificadores, hemos ampliado los límites de "HiddenTables" para que no estén restringidos por el número de filas, lo que demuestra una mayor eficiencia en los tokens de solicitud y finalización. Nuestra infraestructura ha generado un nuevo conjunto de datos llamado "PyQTax" que abarca 116,671 tripletas de pregunta-tabla-respuesta y proporciona desgloses adicionales y etiquetas detalladas para diversas taxonomías de preguntas. Por lo tanto, junto con nuestras contribuciones académicas sobre la deficiencia de los LLMs en tareas de TableQA, "HiddenTables" es una manifestación tangible de cómo los LLMs pueden interactuar con conjuntos de datos masivos mientras garantizan la seguridad de los datos y minimizan los costos de generación.
La selección de datos de alta calidad para el preentrenamiento es crucial para determinar el rendimiento de los modelos de lenguaje en tareas posteriores. Un desafío importante radica en identificar este subconjunto óptimo, un problema generalmente considerado intratable, lo que hace necesario el uso de heurísticas escalables y efectivas. En este trabajo, proponemos un método de selección de datos, CoLoR-Filter (Filtrado de Reducción de Pérdida Condicional), que aprovecha un enfoque inspirado en la estadística bayesiana empírica para derivar un criterio de selección simple y computacionalmente eficiente basado en los valores de pérdida relativa de dos modelos auxiliares. Además de la fundamentación del modelo, evaluamos CoLoR-Filter empíricamente en dos tareas de modelado de lenguaje: (1) selección de datos de C4 para adaptación de dominio en la evaluación de libros y (2) selección de datos de C4 para un conjunto de tareas posteriores de respuesta a preguntas de opción múltiple. Demostramos un escalado favorable tanto al subseleccionar de manera más agresiva como al utilizar modelos auxiliares pequeños para seleccionar datos para modelos objetivo grandes. Como resultado destacado, los datos seleccionados con CoLoR-Filter utilizando un par de modelos auxiliares de 150 millones de parámetros pueden entrenar un modelo objetivo de 1.200 millones de parámetros para igualar el rendimiento de un modelo de 1.200 millones de parámetros entrenado con 25.000 millones de tokens seleccionados al azar, utilizando 25 veces menos datos para libros y 11 veces menos datos para las tareas posteriores. Código: https://github.com/davidbrandfonbrener/color-filter-olmo Datos filtrados: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
La Pintura Generativa 3D se encuentra entre los principales impulsores de productividad en la gestión y reciclaje de activos 3D de alta resolución. Desde que los modelos de texto a imagen se hicieron accesibles para inferencia en hardware de consumo, el rendimiento de los métodos de Pintura 3D ha mejorado constantemente y actualmente está cerca de alcanzar una meseta. En el núcleo de la mayoría de estos modelos se encuentra la difusión de eliminación de ruido en el espacio latente, un proceso iterativo inherentemente lento. Recientemente, se han desarrollado múltiples técnicas para acelerar la generación y reducir las iteraciones de muestreo en órdenes de magnitud. Diseñadas para la generación de imágenes 2D, estas técnicas no incluyen métodos para trasladarlas al ámbito 3D. En este artículo, abordamos esta limitación proponiendo una adaptación del Modelo de Consistencia Latente (LCM) para la tarea en cuestión. Analizamos las fortalezas y debilidades del modelo propuesto y lo evaluamos cuantitativa y cualitativamente. Basándonos en el estudio de muestras del conjunto de datos Objaverse, nuestro método de pintura 3D obtiene una fuerte preferencia en todas las evaluaciones. El código fuente está disponible en https://github.com/kongdai123/consistency2.
El aprovechamiento de las preferencias humanas para guiar el comportamiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ha demostrado un éxito notable en los últimos años. Sin embargo, la selección y etiquetado de datos siguen siendo un cuello de botella para estos sistemas, particularmente a gran escala. Por lo tanto, seleccionar los puntos más informativos para obtener retroalimentación humana puede reducir considerablemente el costo del etiquetado de preferencias y potenciar el desarrollo adicional de los LLMs. El Aprendizaje Activo Bayesiano proporciona un marco teórico sólido para abordar este desafío y ha demostrado un éxito notable en diversos entornos. No obstante, intentos previos de emplearlo para el Modelado de Preferencias no cumplieron con tales expectativas. En este trabajo, identificamos que la estimación ingenua de la incertidumbre epistémica conduce a la adquisición de muestras redundantes. Abordamos esto proponiendo el Aprendiz Activo Bayesiano para el Modelado de Preferencias (BAL-PM, por sus siglas en inglés), una novedosa política de adquisición estocástica que no solo apunta a puntos de alta incertidumbre epistémica según el modelo de preferencias, sino que también busca maximizar la entropía de la distribución de prompts adquiridos en el espacio de características abarcado por el LLM empleado. Cabe destacar que nuestros experimentos demuestran que BAL-PM requiere entre un 33% y un 68% menos de etiquetas de preferencia en dos conjuntos de datos populares de preferencias humanas y supera a las políticas de adquisición bayesianas estocásticas anteriores.