Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos LayerSkip, una solución integral para acelerar la inferencia de modelos de lenguaje grandes (LLMs). Primero, durante el entrenamiento aplicamos dropout por capas, con tasas de dropout bajas para las capas iniciales y tasas más altas para las capas posteriores, junto con una pérdida de salida temprana donde todas las capas del transformador comparten la misma salida. Segundo, durante la inferencia, demostramos que esta estrategia de entrenamiento aumenta la precisión de la salida temprana en las capas iniciales, sin añadir capas o módulos auxiliares al modelo. Tercero, presentamos una novedosa solución de decodificación auto-especulativa donde salimos en las capas iniciales y verificamos y corregimos con las capas restantes del modelo. Nuestro enfoque de decodificación auto-especulativa propuesto tiene una huella de memoria menor que otros enfoques de decodificación especulativa y se beneficia del cómputo y activaciones compartidos entre las etapas de borrador y verificación. Realizamos experimentos en diferentes tamaños de modelos Llama con distintos tipos de entrenamiento: preentrenamiento desde cero, preentrenamiento continuo, ajuste fino en un dominio de datos específico y ajuste fino en una tarea específica. Implementamos nuestra solución de inferencia y mostramos aceleraciones de hasta 2.16x en resúmenes de documentos CNN/DM, 1.82x en codificación y 2.0x en la tarea de análisis semántico TOPv2. Publicamos nuestro código y checkpoints en https://github.com/facebookresearch/LayerSkip.
En este informe, presentamos InternVL 1.5, un modelo de lenguaje multimodal de gran escala (MLLM) de código abierto diseñado para reducir la brecha de capacidades entre los modelos comerciales propietarios y los de código abierto en comprensión multimodal. Introducimos tres mejoras sencillas: (1) Codificador Visual Potente: exploramos una estrategia de aprendizaje continuo para el modelo de visión de gran escala InternViT-6B, potenciando sus capacidades de comprensión visual y permitiendo su transferencia y reutilización en diferentes modelos de lenguaje. (2) Resolución Dinámica Alta: dividimos las imágenes en mosaicos que van de 1 a 40 de 448x448 píxeles según la relación de aspecto y la resolución de las imágenes de entrada, lo que permite manejar entradas de hasta 4K de resolución. (3) Conjunto de Datos Bilingüe de Alta Calidad: recopilamos cuidadosamente un conjunto de datos bilingüe de alta calidad que cubre escenas comunes e imágenes de documentos, anotadas con pares de preguntas y respuestas en inglés y chino, mejorando significativamente el rendimiento en tareas relacionadas con OCR y el idioma chino. Evaluamos InternVL 1.5 mediante una serie de benchmarks y estudios comparativos. En comparación con modelos tanto de código abierto como propietarios, InternVL 1.5 muestra un rendimiento competitivo, logrando resultados de vanguardia en 8 de los 18 benchmarks. El código ha sido publicado en https://github.com/OpenGVLab/InternVL.
Si bien muchos modelos de lenguaje grandes (LLMs) contemporáneos pueden procesar entradas extensas, aún tienen dificultades para utilizar completamente la información dentro de contextos largos, un desafío conocido como "lost-in-the-middle" (perdido en el medio). Nuestra hipótesis es que esto se debe a una supervisión explícita insuficiente durante el entrenamiento de contextos largos, que no enfatiza que cualquier posición en un contexto extenso puede contener información crucial. Basándonos en esta intuición, nuestro estudio presenta el entrenamiento intensivo en información (IN2), una solución puramente basada en datos para superar el problema de "lost-in-the-middle". Específicamente, el entrenamiento IN2 aprovecha un conjunto de datos sintetizado de preguntas y respuestas de contexto largo, donde la respuesta requiere (1) conciencia de información detallada en un segmento corto (~128 tokens) dentro de un contexto largo sintetizado (4K-32K tokens), y (2) la integración y razonamiento de información de dos o más segmentos cortos. Al aplicar este entrenamiento intensivo en información a Mistral-7B, presentamos FILM-7B (FILl-in-the-Middle). Para evaluar exhaustivamente la capacidad de FILM-7B para utilizar contextos largos, diseñamos tres tareas de sondeo que abarcan diversos estilos de contexto (documento, código y contexto de datos estructurados) y patrones de recuperación de información (recuperación hacia adelante, hacia atrás y bidireccional). Los resultados de sondeo demuestran que FILM-7B puede recuperar información de manera robusta desde diferentes posiciones en su ventana de contexto de 32K. Más allá de estas tareas de sondeo, FILM-7B mejora significativamente el rendimiento en tareas del mundo real de contexto largo (por ejemplo, un aumento de 23.5 a 26.9 en la puntuación F1 en NarrativeQA), mientras mantiene un rendimiento comparable en tareas de contexto corto (por ejemplo, 59.3 a 59.2 de precisión en MMLU). Enlace de Github: https://github.com/microsoft/FILM.
La generación de objetos 3D ha experimentado avances significativos, produciendo resultados de alta calidad. Sin embargo, aún no logra un control preciso por parte del usuario, generando a menudo resultados que no se alinean con las expectativas del usuario, lo que limita su aplicabilidad. La generación de objetos 3D basada en la visión del usuario enfrenta desafíos importantes para materializar sus conceptos utilizando los modelos generativos actuales, debido a capacidades de interacción limitadas. Los métodos existentes ofrecen principalmente dos enfoques: (i) interpretar instrucciones textuales con una controlabilidad restringida, o (ii) reconstruir objetos 3D a partir de imágenes 2D. Ambos enfoques limitan la personalización a los confines de la referencia 2D y pueden introducir artefactos no deseados durante el proceso de elevación a 3D, restringiendo el alcance para modificaciones 3D directas y versátiles. En este trabajo, presentamos Interactive3D, un marco innovador para la generación interactiva de objetos 3D que otorga a los usuarios un control preciso sobre el proceso generativo a través de amplias capacidades de interacción 3D. Interactive3D se construye en dos etapas en cascada, utilizando representaciones 3D distintas. La primera etapa emplea Gaussian Splatting para la interacción directa del usuario, permitiendo modificaciones y guía de la dirección generativa en cualquier paso intermedio mediante (i) Adición y Eliminación de componentes, (ii) Arrastre Deformable y Rígido, (iii) Transformaciones Geométricas, y (iv) Edición Semántica. Posteriormente, los splats gaussianos se transforman en InstantNGP. Introducimos un nuevo módulo de (v) Refinamiento de Hash Interactivo para agregar más detalles y extraer la geometría en la segunda etapa. Nuestros experimentos demuestran que Interactive3D mejora notablemente la controlabilidad y la calidad de la generación 3D. Nuestra página web del proyecto está disponible en https://interactive-3d.github.io/.
Las tecnologías basadas en difusión han logrado avances significativos, particularmente en la generación de rostros personalizados y adaptados. Sin embargo, los métodos existentes enfrentan desafíos para lograr una alta fidelidad y una consistencia detallada en la identidad (ID), principalmente debido a un control insuficiente y granular sobre las áreas faciales y la falta de una estrategia integral para la preservación de la ID al considerar plenamente los detalles faciales intrincados y el rostro en su conjunto. Para abordar estas limitaciones, presentamos ConsistentID, un método innovador diseñado para la generación de retratos que preservan la identidad de manera diversa bajo indicaciones faciales multimodales y granulares, utilizando solo una imagen de referencia. ConsistentID consta de dos componentes clave: un generador de indicaciones faciales multimodales que combina características faciales, descripciones faciales correspondientes y el contexto facial general para mejorar la precisión en los detalles faciales, y una red de preservación de la ID optimizada mediante una estrategia de localización de atención facial, destinada a mantener la consistencia de la ID en las regiones faciales. Juntos, estos componentes mejoran significativamente la precisión en la preservación de la ID al introducir información multimodal granular de la ID a partir de las regiones faciales. Para facilitar el entrenamiento de ConsistentID, presentamos un conjunto de datos de retratos granulares, FGID, con más de 500,000 imágenes faciales, que ofrece una mayor diversidad y exhaustividad que los conjuntos de datos faciales públicos existentes. Los resultados experimentales confirman que nuestro ConsistentID logra una precisión y diversidad excepcionales en la generación de rostros personalizados, superando a los métodos existentes en el conjunto de datos MyStyle. Además, aunque ConsistentID introduce más información multimodal de la ID, mantiene una velocidad de inferencia rápida durante la generación.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades profundas en comprensión y generación de lenguaje, facilitando una amplia gama de aplicaciones. Sin embargo, existe una notable escasez de metodologías detalladas y de código abierto sobre cómo escalar eficientemente LLMs más allá de los 50 mil millones de parámetros con un mínimo costo de prueba y error y recursos computacionales. En este informe, presentamos Tele-FLM (también conocido como FLM-2), un modelo de lenguaje multilingüe de 52 mil millones de parámetros de código abierto que cuenta con un paradigma de preentrenamiento estable y eficiente, además de capacidades mejoradas de juicio factual. Tele-FLM demuestra habilidades superiores en modelado de lenguaje multilingüe, medido por BPB en corpus textuales. Además, en evaluaciones de modelos base tanto en inglés como en chino, es comparable a modelos de código abierto fuertes que involucran un mayor número de FLOPs de preentrenamiento, como Llama2-70B y DeepSeek-67B. Además de los pesos del modelo, compartimos los diseños centrales, prácticas de ingeniería y detalles de entrenamiento, lo que esperamos beneficie tanto a la comunidad académica como a la industrial.
El enfoque Set-of-Mark (SoM) Prompting libera la capacidad de anclaje visual de GPT-4V, permitiendo al modelo asociar objetos visuales con etiquetas insertadas en la imagen. Estas etiquetas, marcadas con caracteres alfanuméricos, pueden ser indexadas mediante tokens de texto para una referencia sencilla. A pesar del rendimiento excepcional de GPT-4V, observamos que otros Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) tienen dificultades para comprender estas etiquetas visuales. Para fomentar el aprendizaje del enfoque SoM en modelos de código abierto, proponemos un nuevo paradigma de aprendizaje: "enumerar elementos uno por uno", que solicita al modelo enumerar y describir todas las etiquetas visuales colocadas en la imagen siguiendo el orden alfanumérico de las etiquetas. Al integrar nuestro conjunto de datos curado con otros conjuntos de datos de ajuste de instrucciones visuales, logramos dotar a los MLLMs existentes con la capacidad de SoM Prompting. Además, evaluamos nuestros modelos SoM ajustados en cinco puntos de referencia para MLLMs. Descubrimos que este nuevo conjunto de datos, incluso con un tamaño relativamente pequeño (10k-30k imágenes con etiquetas), mejora significativamente las capacidades de razonamiento visual y reduce las alucinaciones en los MLLMs. Sorprendentemente, estas mejoras persisten incluso cuando las etiquetas visuales se omiten en las imágenes de entrada durante la inferencia. Esto sugiere el potencial de "enumerar elementos uno por uno" como un nuevo paradigma para entrenar MLLMs, que fortalece la alineación objeto-texto mediante el uso de etiquetas visuales en la etapa de entrenamiento. Finalmente, realizamos análisis al sondear modelos entrenados para comprender el mecanismo de funcionamiento de SoM. Nuestro código y datos están disponibles en https://github.com/zzxslp/SoM-LLaVA.
Si bien los modelos generativos de texto a imagen (T2I) se han vuelto omnipresentes, no siempre generan imágenes que se alineen con un prompt dado. Aunque trabajos anteriores han evaluado la alineación de T2I proponiendo métricas, benchmarks y plantillas para recopilar juicios humanos, la calidad de estos componentes no se mide sistemáticamente. Los conjuntos de prompts evaluados por humanos suelen ser pequeños y la confiabilidad de las calificaciones —y, por ende, del conjunto de prompts utilizado para comparar modelos— no se evalúa. Abordamos esta brecha realizando un estudio extensivo que evalúa métricas de auto-evaluación y plantillas humanas. Proporcionamos tres contribuciones principales: (1) Introducimos un benchmark integral basado en habilidades que puede discriminar modelos en diferentes plantillas humanas. Este benchmark basado en habilidades categoriza los prompts en sub-habilidades, permitiendo a un profesional identificar no solo qué habilidades son desafiantes, sino también en qué nivel de complejidad una habilidad se vuelve difícil. (2) Recopilamos calificaciones humanas en cuatro plantillas y cuatro modelos T2I, totalizando más de 100K anotaciones. Esto nos permite entender dónde surgen diferencias debido a la ambigüedad inherente en el prompt y dónde se deben a diferencias en la calidad de la métrica y del modelo. (3) Finalmente, introducimos una nueva métrica de auto-evaluación basada en preguntas y respuestas (QA) que está mejor correlacionada con las calificaciones humanas que las métricas existentes, tanto en nuestro nuevo conjunto de datos como en diferentes plantillas humanas y en TIFA160.
Presentamos NeRF-XL, un método fundamentado para distribuir Campos de Radiancia Neural (NeRFs) en múltiples GPUs, permitiendo así el entrenamiento y renderizado de NeRFs con una capacidad arbitrariamente grande. Comenzamos revisando los enfoques existentes de múltiples GPUs, que descomponen escenas grandes en múltiples NeRFs entrenados de manera independiente, e identificamos varios problemas fundamentales en estos métodos que dificultan las mejoras en la calidad de la reconstrucción a medida que se utilizan más recursos computacionales (GPUs) durante el entrenamiento. NeRF-XL soluciona estos problemas y permite el entrenamiento y renderizado de NeRFs con un número arbitrario de parámetros simplemente utilizando más hardware. En el núcleo de nuestro método se encuentra una formulación novedosa de entrenamiento y renderizado distribuido, que es matemáticamente equivalente al caso clásico de una sola GPU y minimiza la comunicación entre GPUs. Al desbloquear NeRFs con recuentos de parámetros arbitrariamente grandes, nuestro enfoque es el primero en revelar las leyes de escalado de múltiples GPUs para NeRFs, mostrando mejoras en la calidad de la reconstrucción con recuentos de parámetros más grandes y mejoras de velocidad con más GPUs. Demostramos la efectividad de NeRF-XL en una amplia variedad de conjuntos de datos, incluyendo el conjunto de datos de código abierto más grande hasta la fecha, MatrixCity, que contiene 258K imágenes cubriendo un área de 25km² de una ciudad.
Comprender el contenido visual rico en texto es fundamental para la aplicación práctica de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés), ya que los escenarios ricos en texto son omnipresentes en el mundo real, caracterizados por la presencia de textos extensos incrustados en imágenes. Recientemente, la aparición de MLLMs con una versatilidad impresionante ha elevado el listón de lo que podemos esperar de estos modelos. Sin embargo, su competencia en escenarios ricos en texto aún no ha sido evaluada de manera exhaustiva y objetiva, ya que los puntos de referencia actuales para MLLMs se centran principalmente en evaluar la comprensión visual general. En este trabajo, presentamos SEED-Bench-2-Plus, un punto de referencia diseñado específicamente para evaluar la comprensión visual rica en texto de los MLLMs. Nuestro punto de referencia comprende 2.3K preguntas de opción múltiple con anotaciones humanas precisas, abarcando tres categorías amplias: Gráficos, Mapas y Webs, cada una de las cuales cubre un amplio espectro de escenarios ricos en texto en el mundo real. Estas categorías, debido a su inherente complejidad y diversidad, simulan de manera efectiva entornos reales ricos en texto. Además, llevamos a cabo una evaluación exhaustiva que involucra a 34 MLLMs destacados (incluyendo GPT-4V, Gemini-Pro-Vision y Claude-3-Opus) y destacamos las limitaciones actuales de los MLLMs en la comprensión visual rica en texto. Esperamos que nuestro trabajo pueda servir como una valiosa adición a los puntos de referencia existentes para MLLMs, proporcionando observaciones perspicaces e inspirando más investigaciones en el área de la comprensión visual rica en texto con MLLMs. El conjunto de datos y el código de evaluación pueden accederse en https://github.com/AILab-CVC/SEED-Bench.