Artículos de investigación en IA seleccionados diariamente con traducciones
El campo de los modelos visión-lenguaje (VLMs), que toman imágenes y textos como entradas y producen textos como salida, está evolucionando rápidamente y aún no ha alcanzado un consenso sobre varios aspectos clave del proceso de desarrollo, incluidos los datos, la arquitectura y los métodos de entrenamiento. Este artículo puede considerarse como un tutorial para construir un VLM. Comenzamos proporcionando una visión general exhaustiva de los enfoques actuales más avanzados, destacando las fortalezas y debilidades de cada uno, abordando los principales desafíos en el campo y sugiriendo direcciones de investigación prometedoras para áreas poco exploradas. Luego, detallamos los pasos prácticos para construir Idefics3-8B, un potente VLM que supera significativamente a su predecesor Idefics2-8B, siendo entrenado de manera eficiente, exclusivamente en conjuntos de datos abiertos y utilizando un proceso directo. Estos pasos incluyen la creación de Docmatix, un conjunto de datos para mejorar las capacidades de comprensión de documentos, que es 240 veces más grande que los conjuntos de datos disponibles anteriormente. Publicamos el modelo junto con los conjuntos de datos creados para su entrenamiento.
La evaluación exhaustiva de los Modelos de Lenguaje Multimodales Grandes (MLLMs, por sus siglas en inglés) ha ganado recientemente una amplia atención en la comunidad de investigación. Sin embargo, observamos que los benchmarks existentes presentan varias barreras comunes que dificultan medir los desafíos significativos a los que se enfrentan los modelos en el mundo real, incluyendo: 1) la escala de datos pequeña conduce a una gran variabilidad en el rendimiento; 2) la dependencia de anotaciones basadas en modelos resulta en una calidad de datos restringida; 3) una dificultad de tarea insuficiente, especialmente causada por la limitada resolución de imagen. Para abordar estos problemas, presentamos MME-RealWorld. Específicamente, recopilamos más de 300K imágenes de conjuntos de datos públicos e Internet, filtrando 13,366 imágenes de alta calidad para su anotación. Esto implica los esfuerzos de 25 anotadores profesionales y 7 expertos en MLLMs, contribuyendo con 29,429 pares de preguntas-respuestas que cubren 43 subtareas en 5 escenarios del mundo real, extremadamente desafiantes incluso para los humanos. Hasta donde sabemos, MME-RealWorld es el benchmark manualmente anotado más grande hasta la fecha, destacando por su alta resolución y un enfoque específico en aplicaciones del mundo real. Además, realizamos una evaluación exhaustiva que involucra a 28 prominentes MLLMs, como GPT-4o, Gemini 1.5 Pro y Claude 3.5 Sonnet. Nuestros resultados muestran que incluso los modelos más avanzados tienen dificultades con nuestros benchmarks, donde ninguno alcanza el 60% de precisión. Los desafíos de percibir imágenes de alta resolución y comprender escenarios del mundo real complejos siguen siendo problemas urgentes por abordar. Los datos y el código de evaluación se encuentran disponibles en https://mme-realworld.github.io/.
La generación de escenas inmersivas en 3D es una tarea desafiante pero crítica en visión por computadora y gráficos. Una escena virtual 3D deseada debe 1) mostrar consistencia de vista omnidireccional, y 2) permitir una exploración libre en jerarquías de escenas complejas. Los métodos existentes se basan en la expansión sucesiva de escenas a través de inpainting o emplean representación de panoramas para mostrar entornos de escenas con un amplio campo de visión. Sin embargo, la escena generada sufre de desviación semántica durante la expansión y no puede manejar la oclusión entre las jerarquías de escenas. Para abordar estos desafíos, presentamos LayerPano3D, un marco novedoso para la generación de escenas panorámicas 3D de vista completa y explorables a partir de una única indicación de texto. Nuestra idea clave es descomponer un panorama 2D de referencia en múltiples capas en diferentes niveles de profundidad, donde cada capa revela el espacio no visto desde las vistas de referencia a través de una difusión previa. LayerPano3D incluye múltiples diseños dedicados: 1) introducimos un innovador pipeline de síntesis de vista anclada guiada por texto para una generación de panoramas de alta calidad y consistencia. 2) Pioneramos el Panorama 3D en Capas como representación subyacente para gestionar jerarquías de escenas complejas y lo elevamos a Gaussianas en 3D para proyectar escenas omnidireccionales detalladas de 360 grados con trayectorias de visualización sin restricciones. Experimentos extensos demuestran que nuestro marco genera una escena panorámica 3D de última generación tanto en consistencia de vista completa como en experiencia inmersiva de exploración. Creemos que LayerPano3D promete avanzar en la creación de escenas panorámicas 3D con numerosas aplicaciones.
La complejidad computacional cuadrática en el mecanismo de autoatención de las arquitecturas de transformadores populares plantea desafíos significativos para el entrenamiento y la inferencia, especialmente en términos de eficiencia y requisitos de memoria. Para abordar estos desafíos, este artículo introduce un nuevo método de cálculo rápido de gradientes en modelos de transformadores de múltiples capas. Nuestro enfoque permite el cálculo de gradientes para todo el modelo de transformador de múltiples capas en casi tiempo lineal n^{1+o(1)}, donde n es la longitud de la secuencia de entrada. Este avance reduce significativamente el cuello de botella computacional asociado con la complejidad temporal cuadrática tradicional. Nuestra teoría es válida para cualquier función de pérdida y mantiene un error de aproximación acotado en todo el modelo. Además, nuestro análisis puede aplicarse cuando el modelo de transformador de múltiples capas contiene muchos submódulos prácticos, como conexiones residuales, máscaras casuales y atención multi-cabeza. Al mejorar la eficiencia del cálculo de gradientes en modelos de lenguaje grandes, esperamos que nuestro trabajo facilite el entrenamiento y despliegue más efectivos de modelos de lenguaje de largo contexto basados en nuestros resultados teóricos.
Recientemente, una amplia variedad de algoritmos de entrenamiento LLM eficientes en memoria han ganado una considerable popularidad. Estos métodos aprovechan la estructura de bajo rango de los gradientes para proyectar los estados del optimizador en un subespacio utilizando una matriz de proyección encontrada mediante descomposición en valores singulares (SVD). Sin embargo, la convergencia de estos algoritmos depende en gran medida de las reglas de actualización de su matriz de proyección. En este trabajo, proporcionamos la primera garantía de convergencia para reglas de actualización arbitrarias de la matriz de proyección. Esta garantía es generalmente aplicable a optimizadores que pueden ser analizados con Descenso Hamiltoniano, incluyendo los más comunes, como LION, Adam. Inspirados por nuestra comprensión teórica, proponemos Descenso de Subespacio en Línea, una nueva familia de optimizadores de descenso de subespacio sin SVD. En lugar de actualizar la matriz de proyección con autovectores, Descenso de Subespacio en Línea actualiza la matriz de proyección con PCA en línea. Descenso de Subespacio en Línea es flexible e introduce solo un mínimo sobrecosto al entrenamiento. Mostramos que para la tarea de preentrenamiento de modelos LLaMA que van desde 60M hasta 7B parámetros en el conjunto de datos C4, Descenso de Subespacio en Línea logra una menor perplejidad y un mejor rendimiento en tareas posteriores que los métodos de entrenamiento de bajo rango de vanguardia en diferentes configuraciones, y reduce la brecha con los baselines de rango completo.
La síntesis de movimiento 3D impulsada por voz busca crear animaciones realistas basadas en el habla humana, con posibles aplicaciones en realidad virtual, videojuegos y producción cinematográfica. Los enfoques existentes se basan únicamente en el audio del habla para la generación de movimiento, lo que resulta en resultados de síntesis inexactos e inflexibles. Para mitigar este problema, presentamos un novedoso método de síntesis de movimiento humano 3D guiado por texto, denominado T3M. A diferencia de los enfoques tradicionales, T3M permite un control preciso sobre la síntesis de movimiento a través de la entrada textual, mejorando el grado de diversidad y personalización del usuario. Los resultados experimentales demuestran que T3M puede superar ampliamente a los métodos de vanguardia tanto en métricas cuantitativas como en evaluaciones cualitativas. Hemos publicado nuestro código de forma gratuita en https://github.com/Gloria2tt/T3M.git.
La generación de video personalizado tiene como objetivo generar videos de alta calidad guiados por indicaciones de texto e imágenes de referencia del sujeto. Sin embargo, dado que solo se entrena con imágenes estáticas, el proceso de ajuste fino del aprendizaje del sujeto interrumpe las habilidades de los modelos de difusión de video (VDMs) para combinar conceptos y generar movimientos. Para restaurar estas habilidades, algunos métodos utilizan videos adicionales similares a la indicación para ajustar o guiar el modelo. Esto requiere cambios frecuentes de videos guía e incluso volver a ajustar el modelo al generar diferentes movimientos, lo cual es muy incómodo para los usuarios. En este documento, proponemos CustomCrafter, un nuevo marco que preserva la generación de movimiento del modelo y las habilidades de combinación conceptual sin video adicional y ajuste fino para la recuperación. Para preservar la habilidad de combinación conceptual, diseñamos un módulo plug-and-play para actualizar unos pocos parámetros en los VDMs, mejorando la capacidad del modelo para capturar los detalles de apariencia y la habilidad de combinación de conceptos para nuevos sujetos. Para la generación de movimiento, observamos que los VDMs tienden a restaurar el movimiento del video en la etapa temprana de eliminación de ruido, centrándose en la recuperación de los detalles del sujeto en la etapa posterior. Por lo tanto, proponemos la Estrategia de Muestreo de Video con Peso Dinámico. Utilizando la capacidad de enchufabilidad de nuestros módulos de aprendizaje de sujetos, reducimos el impacto de este módulo en la generación de movimiento en la etapa temprana de eliminación de ruido, preservando la capacidad de generar movimiento de los VDMs. En la etapa posterior de eliminación de ruido, restauramos este módulo para reparar los detalles de apariencia del sujeto especificado, garantizando así la fidelidad de la apariencia del sujeto. Los resultados experimentales muestran que nuestro método tiene una mejora significativa en comparación con métodos anteriores.
Los Modelos de Visión-Lenguaje de Alta Resolución (VLMs) se han utilizado ampliamente en tareas multimodales para mejorar la precisión al preservar información detallada de la imagen. Sin embargo, estos modelos a menudo generan tokens visuales excesivos debido a la codificación de múltiples particiones de la imagen de entrada. Procesar estos tokens visuales excesivos supone un desafío computacional, especialmente en entornos con limitaciones de recursos y GPUs de consumo. Para respaldar imágenes de alta resolución cumpliendo con las restricciones de recursos, proponemos Early Dropping de Alta Resolución (HiRED), un esquema de eliminación de tokens que opera dentro de un presupuesto de tokens fijo antes de la etapa del Modelo de Lenguaje Grande (LLM). HiRED puede integrarse con los VLMs de alta resolución existentes de forma plug-and-play, ya que no requiere entrenamiento adicional y aún así mantiene una precisión superior. Utilizamos estratégicamente la atención del codificador de visión en las capas iniciales para evaluar el contenido visual de cada partición de la imagen y asignar el presupuesto de tokens en consecuencia. Luego, utilizando la atención en la capa final, seleccionamos los tokens visuales más importantes de cada partición dentro del presupuesto asignado, eliminando el resto. Empíricamente, al aplicar HiRED con un presupuesto de tokens del 20% en LLaVA-Next-7B en una GPU NVIDIA TESLA P40, se aumenta la velocidad de generación de tokens en un 4.7, se reduce la latencia de generación del primer token en 15 segundos y se ahorra 2.3 GB de memoria de GPU para una sola inferencia.
El Aprendizaje Federado (FL) ofrece un enfoque prometedor para el aprendizaje automático colaborativo en dispositivos distribuidos. Sin embargo, su adopción se ve obstaculizada por la complejidad de construir arquitecturas de comunicación confiables y la necesidad de experiencia tanto en aprendizaje automático como en programación de redes. Este documento presenta una solución integral que simplifica la orquestación de tareas de FL mientras integra automatización basada en intenciones. Desarrollamos una aplicación web fácil de usar que admite el algoritmo de promedio federado (FedAvg), lo que permite a los usuarios configurar parámetros a través de una interfaz intuitiva. La solución backend gestiona eficientemente la comunicación entre el servidor de parámetros y los nodos periféricos. También implementamos algoritmos de compresión y programación de modelos para optimizar el rendimiento de FL. Además, exploramos la automatización basada en intenciones en FL utilizando un Modelo de Lenguaje Afinado (LLM) entrenado en un conjunto de datos personalizado, lo que permite a los usuarios realizar tareas de FL utilizando indicaciones de alto nivel. Observamos que la solución automatizada basada en LLM logra una precisión de prueba comparable a la solución estándar basada en web, al tiempo que reduce los bytes transferidos hasta un 64% y el tiempo de CPU hasta un 46% para tareas de FL. Además, aprovechamos la búsqueda de arquitectura neuronal (NAS) y la optimización de hiperparámetros (HPO) utilizando LLM para mejorar el rendimiento. Observamos que al utilizar este enfoque la precisión de prueba puede mejorar entre un 10% y un 20% para las tareas de FL realizadas.
La técnica de Splatting Gaussiano en 3D (3DGS) logra renderizaciones rápidas y de alta calidad mediante el uso de numerosas pequeñas distribuciones gaussianas, lo que resulta en un consumo significativo de memoria. Esta dependencia de un gran número de gaussianas limita la aplicación de modelos basados en 3DGS en dispositivos económicos debido a restricciones de memoria. Sin embargo, simplemente reducir el número de gaussianas para adaptarse a dispositivos con menor capacidad de memoria conlleva a una calidad inferior en comparación con la que se puede lograr en hardware de gama alta. Para abordar esta falta de escalabilidad, proponemos integrar un Nivel de Detalle Flexible (FLoD) al 3DGS, permitiendo que una escena se renderice en diferentes niveles de detalle según las capacidades del hardware. Mientras que los 3DGS existentes con LoD se centran en una reconstrucción detallada, nuestro método proporciona reconstrucciones utilizando un pequeño número de gaussianas para reducir los requisitos de memoria, y un mayor número de gaussianas para obtener mayor detalle. Experimentos demuestran nuestras diversas opciones de renderizado con compensaciones entre calidad de renderizado y uso de memoria, permitiendo así el renderizado en tiempo real en diferentes restricciones de memoria. Además, mostramos que nuestro método se generaliza a diferentes marcos de trabajo de 3DGS, lo que indica su potencial para integrarse en futuros desarrollos de vanguardia. Página del proyecto: https://3dgs-flod.github.io/flod.github.io/
Con los avances en los Modelos de Lenguaje de Gran Tamaño (LLMs), un caso de uso principal que ha surgido es la consulta a bases de datos en inglés sencillo, traduciendo las preguntas de los usuarios en consultas de base de datos ejecutables, lo cual ha mejorado significativamente. Sin embargo, los conjuntos de datos del mundo real a menudo presentan una amplia gama de atributos y valores complejos, complicando la tarea de los LLMs de identificar con precisión columnas o valores relevantes a partir de consultas en lenguaje natural. Los métodos tradicionales no pueden transmitir completamente el tamaño y la complejidad de los conjuntos de datos al LLM. Para abordar estos desafíos, proponemos un marco novedoso que aprovecha la Búsqueda de Texto Completo (FTS) en la tabla de entrada. Este enfoque no solo permite la detección precisa de valores y columnas específicos, sino que también reduce el espacio de búsqueda para los modelos de lenguaje, mejorando así la precisión de las consultas. Además, admite una función de autocompletar personalizada que sugiere consultas basadas en los datos de la tabla. Esta integración refina significativamente la interacción entre el usuario y conjuntos de datos complejos, ofreciendo una solución sofisticada a las limitaciones de las capacidades actuales de consulta de tablas. Este trabajo está acompañado por una aplicación para plataformas Mac y Windows, que los lectores pueden probar por sí mismos con sus propios datos.
La generación de imágenes condicionada facilita la edición fluida y la creación de imágenes fotorrealistas. Sin embargo, condicionar imágenes ruidosas o fuera de distribución (Out-of-Distribution, OoD) plantea desafíos significativos, especialmente en el equilibrio entre la fidelidad a la entrada y el realismo de la salida. Presentamos Confident Ordinary Differential Editing (CODE), un enfoque novedoso para la síntesis de imágenes que maneja de manera efectiva imágenes guía OoD. Utilizando un modelo de difusión como prior generativo, CODE mejora las imágenes a través de actualizaciones basadas en puntuaciones a lo largo de la trayectoria de la Ecuación Diferencial Ordinaria (ODE) de flujo de probabilidad. Este método no requiere entrenamiento específico de tareas, módulos hechos a mano ni suposiciones sobre las corrupciones que afectan la imagen de condicionamiento. Nuestro método es compatible con cualquier modelo de difusión. Situado en la intersección de la generación de imágenes condicionada y la restauración de imágenes a ciegas, CODE opera de manera totalmente ciega, confiando únicamente en un modelo generativo pre-entrenado. Nuestro método presenta un enfoque alternativo para la restauración a ciegas: en lugar de apuntar a una imagen de verdad específica basada en suposiciones sobre la corrupción subyacente, CODE tiene como objetivo aumentar la probabilidad de la imagen de entrada manteniendo la fidelidad. Esto resulta en la imagen más probable dentro de la distribución alrededor de la imagen de entrada. Nuestras contribuciones son dobles. En primer lugar, CODE introduce un método de edición novedoso basado en ODE, que proporciona un control, realismo y fidelidad mejorados en comparación con su contraparte basada en SDE. En segundo lugar, presentamos un método de recorte basado en intervalos de confianza, que mejora la efectividad de CODE al permitirle ignorar ciertos píxeles o información, mejorando así el proceso de restauración de manera ciega. Los resultados experimentales demuestran la efectividad de CODE sobre los métodos existentes, especialmente en escenarios que involucran degradación severa o entradas OoD.