Artículos de investigación en IA seleccionados diariamente con traducciones
La información estructural es crucial para comprender la semántica de imágenes ricas en texto, como documentos, tablas y gráficos. Los Modelos de Lenguaje Multimodales (MLLMs) existentes para la Comprensión Visual de Documentos están equipados con capacidad de reconocimiento de texto, pero carecen de habilidades generales de comprensión estructural para imágenes de documentos ricos en texto. En este trabajo, enfatizamos la importancia de la información estructural en la Comprensión Visual de Documentos y proponemos el Aprendizaje Unificado de Estructuras para mejorar el rendimiento de los MLLMs. Nuestro Aprendizaje Unificado de Estructuras comprende tareas de análisis con conciencia estructural y tareas de localización de texto multigranular en 5 dominios: documento, página web, tabla, gráfico e imagen natural. Para codificar mejor la información estructural, diseñamos un módulo visión-a-texto simple y efectivo llamado H-Reducer, que no solo mantiene la información de diseño, sino que también reduce la longitud de las características visuales fusionando parches adyacentes horizontalmente mediante convolución, permitiendo que el LLM comprenda imágenes de alta resolución de manera más eficiente. Además, al construir secuencias de texto con conciencia estructural y pares multigranulares de textos y cuadros delimitadores para imágenes ricas en texto disponibles públicamente, creamos un conjunto de entrenamiento integral llamado DocStruct4M para apoyar el aprendizaje estructural. Finalmente, construimos un pequeño pero de alta calidad conjunto de datos de ajuste de razonamiento llamado DocReason25K para activar la capacidad de explicación detallada en el dominio de documentos. Nuestro modelo DocOwl 1.5 logra un rendimiento de vanguardia en 10 puntos de referencia de comprensión visual de documentos, mejorando el rendimiento SOTA de los MLLMs con un LLM de 7B en más de 10 puntos en 5/10 puntos de referencia. Nuestros códigos, modelos y conjuntos de datos están disponibles públicamente en https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.
Este artículo se centra en la compresión de prompts independiente de la tarea para mejorar la generalización y la eficiencia. Considerando la redundancia en el lenguaje natural, los enfoques existentes comprimen los prompts eliminando tokens o unidades léxicas según su entropía de información obtenida de un modelo de lenguaje causal como LLaMa-7B. El desafío es que la entropía de información puede ser una métrica de compresión subóptima: (i) solo aprovecha el contexto unidireccional y puede no capturar toda la información esencial necesaria para la compresión de prompts; (ii) no está alineada con el objetivo de compresión de prompts. Para abordar estos problemas, proponemos un procedimiento de destilación de datos para derivar conocimiento de un modelo de lenguaje grande (LLM) y comprimir los prompts sin perder información crucial, y al mismo tiempo, introducimos un conjunto de datos de compresión de texto extractiva. Formulamos la compresión de prompts como un problema de clasificación de tokens para garantizar la fidelidad del prompt comprimido al original, y utilizamos un codificador Transformer como arquitectura base para capturar toda la información esencial para la compresión de prompts desde el contexto bidireccional completo. Nuestro enfoque reduce la latencia al aprender explícitamente el objetivo de compresión con modelos más pequeños como XLM-RoBERTa-large y mBERT. Evaluamos nuestro método en conjuntos de datos tanto dentro como fuera del dominio, incluyendo MeetingBank, LongBench, ZeroScrolls, GSM8K y BBH. A pesar de su tamaño reducido, nuestro modelo muestra ganancias significativas de rendimiento sobre líneas base sólidas y demuestra una capacidad de generalización robusta en diferentes LLMs. Además, nuestro modelo es 3x-6x más rápido que los métodos existentes de compresión de prompts, mientras acelera la latencia de extremo a extremo en 1.6x-2.9x con ratios de compresión de 2x-5x.
Transformar texto no estructurado en formas estructuradas y significativas, organizadas mediante etiquetas de categorías útiles, es un paso fundamental en la minería de texto para análisis y aplicaciones posteriores. Sin embargo, la mayoría de los métodos existentes para producir taxonomías de etiquetas y construir clasificadores de texto basados en etiquetas aún dependen en gran medida de la experiencia de dominio y la curación manual, lo que hace que el proceso sea costoso y lento. Esto es particularmente desafiante cuando el espacio de etiquetas está subespecificado y no se dispone de anotaciones de datos a gran escala. En este artículo, abordamos estos desafíos con Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), cuya interfaz basada en prompts facilita la inducción y el uso de etiquetas pseudo a gran escala. Proponemos TnT-LLM, un marco de trabajo de dos fases que emplea LLMs para automatizar el proceso de generación y asignación de etiquetas de extremo a extremo con un esfuerzo humano mínimo para cualquier caso de uso. En la primera fase, introducimos un enfoque de razonamiento en múltiples etapas y sin ejemplos previos (zero-shot) que permite a los LLMs producir y refinar una taxonomía de etiquetas de manera iterativa. En la segunda fase, los LLMs se utilizan como etiquetadores de datos que generan muestras de entrenamiento para que se puedan construir, implementar y servir clasificadores supervisados ligeros de manera confiable y a gran escala. Aplicamos TnT-LLM al análisis de la intención del usuario y el dominio conversacional de Bing Copilot (anteriormente Bing Chat), un motor de búsqueda de chat de dominio abierto. Experimentos extensos utilizando métricas de evaluación tanto humanas como automáticas demuestran que TnT-LLM genera taxonomías de etiquetas más precisas y relevantes en comparación con los métodos de referencia más avanzados, y logra un equilibrio favorable entre precisión y eficiencia para la clasificación a gran escala. También compartimos nuestras experiencias prácticas y reflexiones sobre los desafíos y oportunidades de usar LLMs para la minería de texto a gran escala en aplicaciones del mundo real.
Los modelos de lenguaje de gran escala (LLMs) de código abierto han logrado un gran éxito en diversas tareas de Procesamiento del Lenguaje Natural (NLP), sin embargo, aún están muy por debajo de los modelos basados en API cuando actúan como agentes. Cómo integrar la capacidad de agente en los LLMs generales se convierte en un problema crucial y urgente. Este artículo presenta primero tres observaciones clave: (1) el corpus de entrenamiento actual para agentes está entrelazado tanto con el seguimiento de formatos como con el razonamiento de agentes, lo que se desvía significativamente de la distribución de sus datos de preentrenamiento; (2) los LLMs exhiben diferentes velocidades de aprendizaje en las capacidades requeridas por las tareas de agente; y (3) los enfoques actuales tienen efectos secundarios al mejorar las habilidades de los agentes, introduciendo alucinaciones. Basándonos en estos hallazgos, proponemos Agent-FLAN para ajustar eficazmente los modelos de lenguaje para agentes. A través de una cuidadosa descomposición y rediseño del corpus de entrenamiento, Agent-FLAN permite que Llama2-7B supere los trabajos previos más destacados en un 3.5% en varios conjuntos de datos de evaluación de agentes. Con muestras negativas construidas de manera exhaustiva, Agent-FLAN mitiga en gran medida los problemas de alucinación según nuestro benchmark de evaluación establecido. Además, mejora consistentemente la capacidad de agente de los LLMs al escalar el tamaño de los modelos, mientras que también mejora ligeramente la capacidad general de los LLMs. El código estará disponible en https://github.com/InternLM/Agent-FLAN.
Presentamos AnimateDiff-Lightning para la generación ultrarrápida de videos. Nuestro modelo utiliza destilación difusiva adversaria progresiva para alcanzar un nuevo estado del arte en la generación de videos con pocos pasos. Discutimos nuestras modificaciones para adaptarlo a la modalidad de video. Además, proponemos destilar simultáneamente el flujo de probabilidad de múltiples modelos de difusión base, lo que resulta en un único módulo de movimiento destilado con mayor compatibilidad de estilos. Nos complace lanzar nuestro modelo destilado AnimateDiff-Lightning para el uso de la comunidad.
Mientras que los sistemas robóticos a gran escala suelen depender de instrucciones textuales para realizar tareas, este trabajo explora un enfoque diferente: ¿pueden los robots inferir la tarea directamente al observar a los humanos? Este cambio requiere que el robot sea capaz de decodificar la intención humana y traducirla en acciones ejecutables dentro de sus limitaciones físicas y entorno. Presentamos Vid2Robot, un novedoso marco de aprendizaje basado en video de extremo a extremo para robots. Dada una demostración en video de una tarea de manipulación y las observaciones visuales actuales, Vid2Robot produce directamente acciones robóticas. Esto se logra mediante un modelo de representación unificado entrenado en un gran conjunto de datos de videos humanos y trayectorias robóticas. El modelo aprovecha mecanismos de atención cruzada para fusionar las características del video de referencia con el estado actual del robot y generar acciones apropiadas que imiten la tarea observada. Para mejorar aún más el rendimiento de la política, proponemos pérdidas contrastivas auxiliares que mejoran la alineación entre las representaciones de video humano y robot. Evaluamos Vid2Robot en robots del mundo real, demostrando una mejora del 20% en el rendimiento en comparación con otras políticas condicionadas por video cuando se utilizan videos de demostración humana. Además, nuestro modelo exhibe capacidades emergentes, como transferir con éxito movimientos observados de un objeto a otro y composición de largo alcance, mostrando así su potencial para aplicaciones en el mundo real. Sitio web del proyecto: vid2robot.github.io
Los modelos de visión-lenguaje (VLMs) están logrando un rendimiento cada vez más sólido en tareas multimodales. Sin embargo, las capacidades de razonamiento siguen siendo limitadas, especialmente en los VLMs más pequeños, mientras que las de los modelos de lenguaje grandes (LLMs) han experimentado numerosas mejoras. Proponemos una técnica para transferir capacidades de los LLMs a los VLMs. En la recientemente introducida ChartQA, nuestro método obtiene un rendimiento de vanguardia cuando se aplica al VLM PaLI3-5B de chen2023pali3, al mismo tiempo que permite un rendimiento mucho mejor en PlotQA y FigureQA. Primero mejoramos la representación de gráficos continuando la etapa de preentrenamiento utilizando una versión mejorada de la tarea de traducción de gráficos a tablas de liu2023deplot. Luego proponemos construir un conjunto de datos 20 veces más grande que el conjunto de entrenamiento original. Para mejorar las capacidades generales de razonamiento y las operaciones numéricas, sintetizamos trazas de razonamiento utilizando la representación tabular de los gráficos. Por último, nuestro modelo se ajusta mediante la pérdida multitarea introducida por hsieh2023distilling. Nuestra variante ChartPaLI-5B supera incluso a modelos 10 veces más grandes como PaLIX-55B sin utilizar un sistema OCR previo, manteniendo el tiempo de inferencia constante en comparación con la línea base PaLI3-5B. Cuando las razones se refinan aún más con un simple prompt de "programa-de-pensamiento" de chen2023program, nuestro modelo supera al recientemente introducido Gemini Ultra y GPT-4V.
La creación de campos 4D de Gaussian Splatting a partir de imágenes o videos es una tarea desafiante debido a su naturaleza sub-restringida. Si bien la optimización puede basarse en referencias fotométricas de los videos de entrada o ser regulada por modelos generativos, la supervisión directa de los movimientos gaussianos sigue siendo poco explorada. En este artículo, introducimos un concepto novedoso, el flujo gaussiano, que conecta la dinámica de los gaussianos 3D con las velocidades de píxeles entre fotogramas consecutivos. El flujo gaussiano puede obtenerse de manera eficiente al proyectar la dinámica gaussiana en el espacio de la imagen. Este proceso diferenciable permite una supervisión dinámica directa a partir del flujo óptico. Nuestro método beneficia significativamente la generación de contenido dinámico 4D y la síntesis de nuevas vistas 4D con Gaussian Splatting, especialmente para contenidos con movimientos complejos que son difíciles de manejar con métodos existentes. El problema común de deriva de color que ocurre en la generación 4D también se resuelve con una dinámica gaussiana mejorada. La calidad visual superior en experimentos extensos demuestra la efectividad de nuestro método. Evaluaciones cuantitativas y cualitativas muestran que nuestro método alcanza resultados de vanguardia en ambas tareas de generación 4D y síntesis de nuevas vistas 4D. Página del proyecto: https://zerg-overmind.github.io/GaussianFlow.github.io/
La generación de activos 3D de alta calidad a partir de una imagen dada es altamente deseable en diversas aplicaciones como AR/VR. Los avances recientes en la generación 3D a partir de una sola imagen exploran modelos de avance que aprenden a inferir el modelo 3D de un objeto sin optimización. Aunque se han logrado resultados prometedores en la generación de objetos individuales, estos métodos suelen tener dificultades para modelar activos 3D complejos que contienen inherentemente múltiples objetos. En este trabajo, presentamos ComboVerse, un marco de generación 3D que produce activos 3D de alta calidad con composiciones complejas al aprender a combinar múltiples modelos. 1) Primero realizamos un análisis en profundidad de esta "brecha de múltiples objetos" desde las perspectivas del modelo y los datos. 2) Luego, con modelos 3D reconstruidos de diferentes objetos, buscamos ajustar sus tamaños, ángulos de rotación y ubicaciones para crear un activo 3D que coincida con la imagen dada. 3) Para automatizar este proceso, aplicamos el muestreo de destilación de puntuación espacialmente consciente (SSDS) a partir de modelos de difusión preentrenados para guiar la ubicación de los objetos. Nuestro marco propuesto enfatiza la alineación espacial de los objetos, en comparación con el muestreo de destilación de puntuación estándar, logrando así resultados más precisos. Experimentos extensos validan que ComboVerse logra mejoras claras sobre los métodos existentes en la generación de activos 3D composicionales.
En este estudio, profundizamos en la generación de imágenes de alta resolución a partir de modelos de difusión preentrenados, abordando desafíos persistentes, como patrones repetitivos y distorsiones estructurales, que surgen cuando los modelos se aplican más allá de las resoluciones para las que fueron entrenados. Para abordar este problema, presentamos un enfoque innovador y libre de entrenamiento, denominado FouriScale, desde la perspectiva del análisis en el dominio de la frecuencia. Reemplazamos las capas convolucionales originales en los modelos de difusión preentrenados incorporando una técnica de dilatación junto con una operación de paso bajo, con el objetivo de lograr consistencia estructural y consistencia de escala entre diferentes resoluciones, respectivamente. Mejorado aún más por una estrategia de relleno y recorte, nuestro método puede manejar de manera flexible la generación de imágenes a partir de texto con diversas relaciones de aspecto. Al utilizar FouriScale como guía, nuestro método logra equilibrar la integridad estructural y la fidelidad de las imágenes generadas, alcanzando una capacidad asombrosa para la generación de imágenes de alta resolución, alta calidad y tamaño arbitrario. Con su simplicidad y compatibilidad, nuestro método puede proporcionar valiosas ideas para futuras exploraciones en la síntesis de imágenes de ultra alta resolución. El código será publicado en https://github.com/LeonHLJ/FouriScale.
La notable eficacia de los modelos de difusión de texto a imagen ha motivado una extensa exploración de su potencial aplicación en dominios de video. Los métodos de cero disparos buscan extender los modelos de difusión de imagen a videos sin necesidad de entrenamiento del modelo. Los métodos recientes se centran principalmente en incorporar correspondencia inter-fotograma en los mecanismos de atención. Sin embargo, la restricción suave impuesta al determinar dónde atender a características válidas puede ser a veces insuficiente, resultando en inconsistencia temporal. En este artículo, presentamos FRESCO, que combina correspondencia intra-fotograma junto con correspondencia inter-fotograma para establecer una restricción espacio-temporal más robusta. Esta mejora asegura una transformación más consistente de contenido semánticamente similar a través de los fotogramas. Más allá de la mera guía de atención, nuestro enfoque implica una actualización explícita de las características para lograr una alta consistencia espacio-temporal con el video de entrada, mejorando significativamente la coherencia visual de los videos traducidos resultantes. Experimentos extensos demuestran la efectividad de nuestro marco propuesto en la producción de videos de alta calidad y coherentes, marcando una mejora notable sobre los métodos existentes de cero disparos.
En los últimos años, el splatting de Gaussianas 3D ha surgido como una técnica poderosa para la reconstrucción y generación 3D, reconocida por sus capacidades de renderizado rápido y de alta calidad. Para abordar estas limitaciones, este artículo introduce un marco novedoso basado en difusión, GVGEN, diseñado para generar eficientemente representaciones de Gaussianas 3D a partir de entradas de texto. Proponemos dos técnicas innovadoras: (1) Representación Volumétrica Estructurada. Primero organizamos puntos desordenados de Gaussianas 3D en una forma estructurada llamada GaussianVolume. Esta transformación permite capturar detalles intrincados de textura dentro de un volumen compuesto por un número fijo de Gaussianas. Para optimizar mejor la representación de estos detalles, proponemos un método único de poda y densificación denominado Estrategia de Piscina de Candidatos, que mejora la fidelidad de los detalles mediante optimización selectiva. (2) Pipeline de Generación de Coarse-to-fine. Para simplificar la generación de GaussianVolume y permitir que el modelo genere instancias con geometría 3D detallada, proponemos un pipeline de coarse-to-fine. Inicialmente construye una estructura geométrica básica, seguida de la predicción de atributos completos de Gaussianas. Nuestro marco, GVGEN, demuestra un rendimiento superior en evaluaciones cualitativas y cuantitativas en comparación con los métodos existentes de generación 3D. Simultáneamente, mantiene una velocidad de generación rápida (∼7 segundos), logrando un equilibrio efectivo entre calidad y eficiencia.
Texturizar humanos 3D con mapas UV semánticos sigue siendo un desafío debido a la dificultad de adquirir UV razonablemente desplegados. A pesar de los recientes avances en texto-a-3D que supervisan renderizaciones multi-vista utilizando grandes modelos de texto-a-imagen (T2I), persisten problemas con la velocidad de generación, la consistencia del texto y la calidad de las texturas, lo que resulta en escasez de datos entre los conjuntos de datos existentes. Presentamos TexDreamer, el primer modelo de generación de texturas 3D de alta fidelidad para humanos multimodal y de cero-shot. Utilizando una estrategia eficiente de ajuste fino de adaptación de texturas, adaptamos un gran modelo T2I a una estructura UV semántica mientras preservamos su capacidad de generalización original. Aprovechando un novedoso módulo traductor de características, el modelo entrenado es capaz de generar texturas 3D de alta fidelidad para humanos a partir de texto o imagen en cuestión de segundos. Además, presentamos ArTicuLated humAn textureS (ATLAS), el mayor conjunto de datos de texturas 3D para humanos de alta resolución (1024 X 1024), que contiene 50k texturas de alta fidelidad con descripciones de texto.