Artículos de investigación en IA seleccionados diariamente con traducciones
La extracción de contenido de documentos es crucial en visión por computadora, especialmente para satisfacer las necesidades de datos de alta calidad de grandes modelos de lenguaje (LLMs) y tecnologías de generación con recuperación aumentada (RAG). Sin embargo, los métodos actuales de análisis de documentos sufren de limitaciones significativas en términos de diversidad y evaluación exhaustiva. Para abordar estos desafíos, presentamos OmniDocBench, un nuevo banco de pruebas multiorigen diseñado para avanzar en la extracción automatizada de contenido de documentos. OmniDocBench incluye un conjunto de datos de evaluación de alta calidad meticulosamente seleccionado y anotado que comprende nueve tipos de documentos diversos, como artículos académicos, libros de texto, diapositivas, entre otros. Nuestro banco de pruebas proporciona un marco de evaluación flexible y completo con 19 etiquetas de categorías de diseño y 14 etiquetas de atributos, lo que permite evaluaciones multinivel en conjuntos de datos completos, módulos individuales o tipos de datos específicos. Utilizando OmniDocBench, realizamos un análisis comparativo exhaustivo de los pipelines modulares existentes y los métodos multimodales de extremo a extremo, resaltando sus limitaciones en el manejo de la diversidad de documentos y asegurando una evaluación justa. OmniDocBench establece un estándar de evaluación robusto, diverso y justo para el campo de extracción de contenido de documentos, ofreciendo ideas cruciales para futuros avances y fomentando el desarrollo de tecnologías de análisis de documentos. Los códigos y el conjunto de datos están disponibles en https://github.com/opendatalab/OmniDocBench.
Los modelos de lenguaje grandes (LLMs) están limitados a razonar en el "espacio del lenguaje", donde típicamente expresan el proceso de razonamiento con una cadena de pensamiento (CoT) para resolver un problema de razonamiento complejo. Sin embargo, argumentamos que el espacio del lenguaje no siempre es óptimo para el razonamiento. Por ejemplo, la mayoría de los tokens de palabras son principalmente para coherencia textual y no esenciales para el razonamiento, mientras que algunos tokens críticos requieren una planificación compleja y plantean enormes desafíos para los LLMs. Para explorar el potencial del razonamiento de LLM en un espacio latente no restringido en lugar de utilizar lenguaje natural, introducimos un nuevo paradigma llamado Coconut (Cadena de Pensamiento Continuo). Utilizamos el último estado oculto del LLM como representación del estado de razonamiento (llamado "pensamiento continuo"). En lugar de decodificar esto en un token de palabra, lo alimentamos de vuelta al LLM como la incrustación de entrada subsiguiente directamente en el espacio continuo. Los experimentos muestran que Coconut puede mejorar efectivamente el LLM en varias tareas de razonamiento. Este novedoso paradigma de razonamiento latente conduce a patrones de razonamiento avanzados emergentes: el pensamiento continuo puede codificar múltiples pasos de razonamiento siguientes alternativos, lo que permite al modelo realizar una búsqueda en anchura (BFS) para resolver el problema, en lugar de comprometerse prematuramente con un único camino determinista como CoT. Coconut supera a CoT en ciertas tareas de razonamiento lógico que requieren un retroceso sustancial durante la planificación, con menos tokens de pensamiento durante la inferencia. Estos hallazgos demuestran la promesa del razonamiento latente y ofrecen valiosas perspectivas para futuras investigaciones.
Dado que los modelos de lenguaje suelen cometer errores al resolver problemas matemáticos, la identificación automatizada de errores en el proceso de razonamiento se vuelve cada vez más significativa para su supervisión escalable. En este documento, presentamos ProcessBench para medir la capacidad de identificar pasos erróneos en el razonamiento matemático. Consiste en 3,400 casos de prueba, centrados principalmente en problemas matemáticos de nivel de competición y olimpiadas. Cada caso de prueba contiene una solución paso a paso con la ubicación del error anotada por expertos humanos. Se requiere que los modelos identifiquen el paso más temprano que contiene un error, o concluyan que todos los pasos son correctos. Realizamos una evaluación exhaustiva en ProcessBench, que involucra dos tipos de modelos: modelos de recompensa de proceso (PRMs) y modelos críticos, donde para estos últimos incitamos a los modelos de lenguaje general a criticar cada paso de la solución. Extraemos dos observaciones principales: (1) Los PRMs existentes suelen fallar al generalizar a problemas matemáticos más desafiantes más allá de GSM8K y MATH. Tienen un rendimiento inferior tanto a los modelos críticos (es decir, modelos de lenguaje general incitados) como a nuestro propio PRM entrenado que se ajusta directamente en el conjunto de datos PRM800K. (2) El mejor modelo de código abierto, QwQ-32B-Preview, ha demostrado una capacidad de crítica competitiva con el modelo propietario GPT-4o, a pesar de que aún se rezaga detrás del o1-mini especializado en razonamiento. Esperamos que ProcessBench pueda fomentar futuras investigaciones en la evaluación del proceso de razonamiento, allanando el camino hacia la supervisión escalable de modelos de lenguaje.
La incorporación de memoria en agentes es esencial para numerosas tareas dentro del ámbito del Aprendizaje por Refuerzo (RL). En particular, la memoria es fundamental para tareas que requieren la utilización de información pasada, adaptación a entornos novedosos y una mayor eficiencia en el uso de muestras. Sin embargo, el término "memoria" abarca una amplia gama de conceptos, lo cual, junto con la falta de una metodología unificada para validar la memoria de un agente, conduce a juicios erróneos sobre las capacidades de memoria de los agentes y evita la comparación objetiva con otros agentes mejorados con memoria. Este documento tiene como objetivo racionalizar el concepto de memoria en RL proporcionando definiciones precisas y prácticas de tipos de memoria de agentes, como memoria a largo plazo versus memoria a corto plazo y memoria declarativa versus memoria procedural, inspiradas en la ciencia cognitiva. Utilizando estas definiciones, categorizamos diferentes clases de memoria de agentes, proponemos una metodología experimental sólida para evaluar las capacidades de memoria de los agentes de RL y estandarizamos las evaluaciones. Además, demostramos empíricamente la importancia de adherirse a la metodología propuesta al evaluar diferentes tipos de memoria de agentes mediante la realización de experimentos con diferentes agentes de RL y las consecuencias de su violación.
El rápido desarrollo de grandes Modelos Visión-Lenguaje (VLMs, por sus siglas en inglés) ha llevado a resultados impresionantes en pruebas académicas, principalmente en idiomas ampliamente hablados. Sin embargo, persisten brechas significativas en la capacidad de los actuales VLMs para manejar idiomas de recursos limitados y contextos culturales variados, en gran parte debido a la falta de datos de alta calidad, diversos y verificados en cuanto a seguridad. En consecuencia, estos modelos a menudo tienen dificultades para comprender idiomas de recursos limitados y matices culturales de manera libre de toxicidad. Para abordar estas limitaciones, presentamos Maya, un modelo Multimodal Multilingüe de código abierto. Nuestras contribuciones son triples: 1) un conjunto de datos de preentrenamiento imagen-texto multilingüe en ocho idiomas, basado en el conjunto de datos de preentrenamiento LLaVA; 2) un análisis exhaustivo de toxicidad dentro del conjunto de datos LLaVA, seguido por la creación de una versión novedosa libre de toxicidad en ocho idiomas; y 3) un modelo imagen-texto multilingüe que soporta estos idiomas, mejorando la comprensión cultural y lingüística en tareas de visión-lenguaje. Código disponible en https://github.com/nahidalam/maya.
La geolocalización visual global predice dónde se capturó una imagen en la Tierra. Dado que las imágenes varían en cuán precisamente pueden ser localizadas, esta tarea implica inherentemente un grado significativo de ambigüedad. Sin embargo, los enfoques existentes son deterministas y pasan por alto este aspecto. En este documento, nuestro objetivo es cerrar la brecha entre la geolocalización tradicional y los métodos generativos modernos. Proponemos el primer enfoque generativo de geolocalización basado en difusión y emparejamiento de flujo Riemanniano, donde el proceso de eliminación de ruido opera directamente en la superficie terrestre. Nuestro modelo logra un rendimiento de vanguardia en tres conjuntos de datos de geolocalización visual: OpenStreetView-5M, YFCC-100M e iNat21. Además, introducimos la tarea de geolocalización visual probabilística, donde el modelo predice una distribución de probabilidad sobre todas las posibles ubicaciones en lugar de un único punto. Presentamos nuevas métricas y líneas de base para esta tarea, demostrando las ventajas de nuestro enfoque basado en difusión. Los códigos y modelos estarán disponibles.
Los Modelos de Lenguaje Multimodales de Gran Tamaño (MLLMs) destacan en tareas de visión y lenguaje al pre-entrenarse únicamente con anotaciones de conceptos de grano grueso (por ejemplo, subtítulos de imágenes). Hipotetizamos que integrar anotaciones de conceptos de grano fino (por ejemplo, etiquetas de objetos y regiones de objetos) mejorará aún más el rendimiento, ya que ambas granularidades de datos se complementan en términos de amplitud y profundidad en la representación de conceptos. Introducimos un nuevo conjunto de datos que presenta Anotaciones de Conceptos Multimodales de Múltiples Granularidades (MMGiC) para MLLMs. Al construir MMGiC, exploramos el impacto de diferentes recetas de datos en la comprensión y generación multimodal. Nuestros análisis revelan que las anotaciones de conceptos de múltiples granularidades se integran y se complementan entre sí, bajo nuestra plantilla estructurada y un marco general de MLLM. Exploramos claramente y demostramos el potencial de MMGiC para ayudar a los MLLMs a localizar y aprender conceptos de manera más efectiva, alineando la visión y el lenguaje en múltiples granularidades. Validamos nuestra hipótesis investigando la comparación justa y la colaboración efectiva entre MMGiC y datos de imágenes y subtítulos en 12 puntos de referencia de comprensión y generación multimodal, por ejemplo, su combinación adecuada logra mejoras absolutas del 3.95% y 2.34% sobre los datos de imágenes y subtítulos solos en POPE y SEED-Bench. El código, los datos y los modelos estarán disponibles en https://github.com/LooperXX/MMGiC.
En los últimos años, ha habido un aumento significativo del interés en unificar la comprensión y generación de imágenes dentro de Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés). Este creciente interés nos ha llevado a explorar la extensión de esta unificación a videos. El desafío central radica en desarrollar un tokenizador de video versátil que capture tanto las características espaciales como la dinámica temporal de los videos para obtener representaciones para LLMs, y estas representaciones pueden ser decodificadas posteriormente en clips de video realistas para habilitar la generación de videos. En este trabajo, presentamos Divot, un Tokenizador de Video Potenciado por Difusión, que aprovecha el proceso de difusión para el aprendizaje de representaciones de video auto-supervisado. Sostenemos que si un modelo de difusión de video puede des ruidizar efectivamente clips de video tomando las características de un tokenizador de video como condición, entonces el tokenizador ha capturado con éxito información espacial y temporal robusta. Además, el modelo de difusión de video funciona inherentemente como un des-tokenizador, decodificando videos a partir de sus representaciones. Sobre la base del tokenizador Divot, presentamos Divot-Vicuna a través de la autoregresión de video a texto y la generación de texto a video modelando las distribuciones de características Divot de valores continuos con un Modelo de Mezcla Gaussiana. Los resultados experimentales demuestran que nuestro tokenizador de video basado en difusión, cuando se integra con un LLM pre-entrenado, logra un rendimiento competitivo en diversas pruebas de comprensión y generación de video. El Divot-Vicuna afinado con instrucciones también sobresale en la narración de video, generando narrativas entrelazadas y videos correspondientes.
Los modelos de generación 3D recientes suelen depender de 'etiquetas de oro' 3D de escala limitada o prioridades de difusión 2D para la creación de contenido 3D. Sin embargo, su rendimiento está limitado por prioridades 3D restringidas debido a la falta de paradigmas de aprendizaje escalables. En este trabajo, presentamos See3D, un modelo de difusión multi-vista condicional visual entrenado en videos de Internet a gran escala para la creación 3D de un mundo abierto. El modelo tiene como objetivo obtener conocimiento 3D simplemente viendo los contenidos visuales de los vastos y rápidamente crecientes datos de video: Lo Ves, Lo Tienes. Para lograr esto, primero escalamos los datos de entrenamiento utilizando un pipeline de curación de datos propuesto que filtra automáticamente inconsistencias multi-vista y observaciones insuficientes de videos fuente. Esto resulta en un conjunto de datos a gran escala, de alta calidad y ricamente diverso de imágenes multi-vista, denominado WebVi3D, que contiene 320 millones de fotogramas de 16 millones de videoclips. Sin embargo, aprender prioridades 3D genéricas de videos sin anotaciones explícitas de geometría 3D o posición de cámara es complicado, y anotar poses para videos a escala web es prohibitivamente costoso. Para eliminar la necesidad de condiciones de poses, introducimos una condición visual innovadora: una señal visual puramente inductiva 2D generada mediante la adición de ruido dependiente del tiempo a los datos de video enmascarados. Finalmente, presentamos un marco de generación 3D visual-condicional novedoso integrando See3D en un pipeline basado en deformaciones para la generación 3D de alta fidelidad. Nuestras comparaciones numéricas y visuales en referencias de reconstrucción única y dispersa muestran que See3D, entrenado en datos de video rentables y escalables, logra notables capacidades de generación de mundo abierto y de cero disparo, superando notablemente a los modelos entrenados en conjuntos de datos 3D costosos y restringidos. Por favor, consulte nuestra página de proyecto en: https://vision.baai.ac.cn/see3d
Los Transformadores Lineales han ganado atención como alternativas eficientes a los Transformadores estándar, pero su rendimiento en tareas de recuperación y contexto largo ha sido limitado. Para abordar estas limitaciones, trabajos recientes han explorado dos mecanismos distintos: el enrutamiento para el control adaptativo de la memoria y la regla de actualización delta para modificaciones precisas de la memoria. Observamos que estos mecanismos son complementarios: el enrutamiento permite un borrado rápido de la memoria mientras que la regla delta facilita actualizaciones dirigidas. Basándonos en esta percepción, presentamos la regla delta enrutada y desarrollamos un algoritmo de entrenamiento paralelo optimizado para hardware moderno. Nuestra arquitectura propuesta, Gated DeltaNet, supera consistentemente a modelos existentes como Mamba2 y DeltaNet en múltiples pruebas, incluyendo modelado de lenguaje, razonamiento de sentido común, recuperación en contexto, extrapolación de longitud y comprensión de contexto largo. Mejoramos aún más el rendimiento desarrollando arquitecturas híbridas que combinan capas de Gated DeltaNet con atención de ventana deslizante o capas de Mamba2, logrando tanto una eficiencia de entrenamiento mejorada como un rendimiento superior en las tareas.
En este trabajo, proponemos el primer enfoque de transferencia de movimiento en un transformador de difusión a través de la Guía de Puntuación Mixta (MSG), un marco fundamentado teóricamente para la transferencia de movimiento en modelos de difusión. Nuestra principal contribución teórica radica en reformular la puntuación condicional para descomponer la puntuación de movimiento y la puntuación de contenido en modelos de difusión. Al formular la transferencia de movimiento como una mezcla de energías potenciales, MSG conserva naturalmente la composición de la escena y permite transformaciones creativas de escenas manteniendo la integridad de los patrones de movimiento transferidos. Este muestreo novedoso opera directamente en modelos de difusión de video pre-entrenados sin necesidad de entrenamiento adicional o ajuste fino. A través de experimentos extensos, MSG demuestra un manejo exitoso de diversos escenarios que incluyen transferencia de movimiento de un solo objeto, múltiples objetos y transferencia de movimiento entre objetos, así como transferencia de movimientos de cámara complejos. Además, presentamos MotionBench, el primer conjunto de datos de transferencia de movimiento que consta de 200 videos fuente y 1000 movimientos transferidos, abarcando transferencias de un solo/múltiples objetos y movimientos de cámara complejos.
Con el creciente volumen de datos de observación de la Tierra presentes en los archivos de grandes programas como Copernicus, hay una creciente necesidad de representaciones vectoriales eficientes de los datos brutos subyacentes. El enfoque de extraer representaciones de características de redes neuronales profundas preentrenadas es un enfoque poderoso que puede proporcionar abstracciones semánticas de los datos de entrada. Sin embargo, la forma en que se realiza esto para archivos de imágenes que contienen datos geoespaciales aún no ha sido definida. En este trabajo, se propone una extensión a un proyecto comunitario existente, Major TOM, centrado en la provisión y estandarización de conjuntos de datos AI listos para la observación de la Tierra, abiertos y gratuitos. Además, se publican abierta y gratuitamente cuatro conjuntos de datos de incrustación globales y densos junto con la publicación de este manuscrito, lo que resulta en el conjunto de datos global abierto más completo de incrustaciones visuales geoespaciales en términos de la superficie terrestre cubierta.
En el aprendizaje de políticas visuomotoras robóticas, los modelos basados en difusión han logrado un éxito significativo en mejorar la precisión de la generación de trayectorias de acción en comparación con los modelos autoregresivos tradicionales. Sin embargo, sufren de ineficiencia debido a múltiples pasos de desruido y una flexibilidad limitada debido a restricciones complejas. En este documento, presentamos Coarse-to-Fine AutoRegressive Policy (CARP), un nuevo paradigma para el aprendizaje de políticas visuomotoras que redefine el proceso de generación de acciones autoregresivas como un enfoque de escala siguiente de grueso a fino. CARP desacopla la generación de acciones en dos etapas: primero, un autoencoder de acción aprende representaciones multinivel de toda la secuencia de acciones; luego, un transformador estilo GPT refina la predicción de secuencia a través de un proceso autoregresivo de grueso a fino. Este enfoque directo e intuitivo produce acciones altamente precisas y suaves, igualando o incluso superando el rendimiento de las políticas basadas en difusión mientras mantiene una eficiencia comparable con las políticas autoregresivas. Realizamos evaluaciones extensas en diversos entornos, incluidos escenarios de una sola tarea y multitarea en bancos de pruebas de simulación basados en estados e imágenes, así como tareas del mundo real. CARP logra tasas de éxito competitivas, con hasta un 10% de mejora, y ofrece una inferencia 10 veces más rápida en comparación con las políticas de vanguardia, estableciendo un paradigma de alto rendimiento, eficiente y flexible para la generación de acciones en tareas robóticas.
Presentamos un nuevo modelo de apariencia que realiza simultáneamente la recuperación explícita de mallas de superficie 3D de alta calidad y la síntesis fotorealista de nuevas vistas a partir de muestras de vista dispersas. Nuestra idea clave es modelar la geometría de escena subyacente como un Atlas de Cartas que renderizamos con surfels Gaussianos 2D (MAtCha Gaussianos). MAtCha destila detalles de alta frecuencia de la superficie de la escena de un estimador de profundidad monocular listo para usar y lo perfecciona a través de la renderización de surfels Gaussianos. Los surfels Gaussianos se adjuntan a las cartas sobre la marcha, satisfaciendo el fotorealismo de la renderización volumétrica neuronal y la geometría nítida de un modelo de malla, es decir, dos objetivos aparentemente contradictorios en un solo modelo. En el núcleo de MAtCha se encuentra un nuevo modelo de deformación neuronal y una pérdida de estructura que preserva los detalles finos de la superficie destilados de las profundidades monoculares aprendidas mientras aborda sus ambigüedades fundamentales de escala. Los resultados de una extensa validación experimental demuestran la calidad de vanguardia de la reconstrucción de superficies y el fotorealismo de MAtCha a la par de los principales competidores pero con una reducción drástica en el número de vistas de entrada y el tiempo computacional. Creemos que MAtCha servirá como una herramienta fundamental para cualquier aplicación visual en visión, gráficos y robótica que requiera geometría explícita además de fotorealismo. Nuestra página del proyecto es la siguiente: https://anttwo.github.io/matcha/
Proponemos un marca de agua de texto multi-bit imperceptible incrustada mediante parafraseo con Modelos de Lenguaje del Largo Plazo (LLMs). Ajustamos finamente un par de parafraseadores LLM diseñados para comportarse de manera diferente, de modo que su diferencia de parafraseo reflejada en la semántica del texto pueda ser identificada por un decodificador entrenado. Para incrustar nuestra marca de agua multi-bit, utilizamos alternativamente dos parafraseadores para codificar el código binario predefinido a nivel de oración. Luego utilizamos un clasificador de texto como decodificador para decodificar cada bit de la marca de agua. A través de experimentos extensos, demostramos que nuestras marcas de agua pueden lograr más del 99.99\% de AUC de detección con parafraseadores de texto pequeños (1.1B) mientras se mantiene la información semántica de la oración original. Más importante aún, nuestro proceso es robusto ante sustituciones de palabras y perturbaciones de parafraseo de oraciones, y generaliza bien a datos fuera de distribución. También demostramos la sigilosidad de nuestra marca de agua con evaluación basada en LLM. Ponemos el código fuente en código abierto en: https://github.com/xiaojunxu/multi-bit-text-watermark.
La fusión de modelos ha demostrado un gran potencial para combinar modelos expertos, pero el beneficio de fusionar es incierto al fusionar modelos "generalistas" entrenados en muchas tareas. Exploramos la fusión en el contexto de modelos grandes (aprox. 100 mil millones de parámetros), mediante el reciclaje de puntos de control que muestran compensaciones entre diferentes tareas. Estos puntos de control suelen crearse en el proceso de desarrollo de un modelo de vanguardia, y muchos subóptimos suelen descartarse. Dado un conjunto de puntos de control de modelos obtenidos de diferentes ejecuciones de entrenamiento (por ejemplo, diferentes etapas, objetivos, hiperparámetros y combinaciones de datos), que naturalmente muestran compensaciones en diferentes capacidades lingüísticas (por ejemplo, seguimiento de instrucciones vs. generación de código), investigamos si la fusión puede reciclar dichos modelos subóptimos en uno óptimo de Pareto. Nuestro algoritmo de optimización ajusta el peso de cada punto de control en una combinación lineal, lo que resulta en modelos óptimos de Pareto que superan tanto a los modelos individuales como a las líneas de base basadas en fusiones. Un análisis adicional muestra que las fusiones exitosas tienden a incluir casi todos los puntos de control con pesos no nulos, lo que indica que incluso los puntos de control iniciales aparentemente malos pueden contribuir a fusiones finales exitosas.
Presentamos Turbo3D, un sistema ultra rápido de texto a 3D capaz de generar activos de splatting gaussiano de alta calidad en menos de un segundo. Turbo3D emplea un generador de difusión de 4 pasos y 4 vistas rápidas y un eficiente reconstructor gaussiano feed-forward, ambos operando en un espacio latente. El generador de 4 pasos y 4 vistas es un modelo estudiante destilado a través de un enfoque novedoso de Doble-Profesor, que anima al estudiante a aprender consistencia de vistas de un profesor de múltiples vistas y realismo fotográfico de un profesor de una sola vista. Al desplazar las entradas del reconstructor gaussiano del espacio de píxeles al espacio latente, eliminamos el tiempo adicional de decodificación de imágenes y reducimos a la mitad la longitud de la secuencia del transformador para lograr la máxima eficiencia. Nuestro método demuestra resultados de generación 3D superiores en comparación con líneas base anteriores, mientras opera en una fracción de su tiempo de ejecución.