Artículos de investigación en IA seleccionados diariamente con traducciones
Muchas empresas de IA están entrenando sus grandes modelos de lenguaje (LLMs) en datos sin el permiso de los propietarios de los derechos de autor. La permisibilidad de hacerlo varía según la jurisdicción: en países como la UE y Japón, esto está permitido bajo ciertas restricciones, mientras que en los Estados Unidos, el panorama legal es más ambiguo. Independientemente del estado legal, las preocupaciones de los productores creativos han dado lugar a varios casos de alto perfil de demandas por derechos de autor, y la amenaza de litigio suele citarse como una razón para la tendencia reciente hacia la minimización de la información compartida sobre los conjuntos de datos de entrenamiento tanto por actores corporativos como de interés público. Esta tendencia de limitar la información de los datos causa daño al obstaculizar la transparencia, la responsabilidad y la innovación en el ecosistema en general al negar a los investigadores, auditores e individuos afectados el acceso a la información necesaria para comprender los modelos de IA. Aunque esto podría mitigarse entrenando modelos de lenguaje en datos de acceso abierto y de dominio público, en el momento de la escritura, no existen tales modelos (entrenados a una escala significativa) debido a los importantes desafíos técnicos y sociológicos para reunir el corpus necesario. Estos desafíos incluyen metadatos incompletos e poco confiables, el costo y la complejidad de digitalizar registros físicos, y el diverso conjunto de habilidades legales y técnicas requeridas para garantizar relevancia y responsabilidad en un panorama que cambia rápidamente. Avanzar hacia un futuro en el que los sistemas de IA puedan ser entrenados en datos con licencia abierta que estén curados y gobernados de manera responsable requiere colaboración en los ámbitos legal, técnico y de políticas, junto con inversiones en estándares de metadatos, digitalización y fomento de una cultura de apertura.
La recuperación de documentos multimodales está diseñada para identificar y recuperar diversos tipos de contenido multimodal, como figuras, tablas, gráficos e información de diseño de extensos documentos. A pesar de su importancia, existe una notable falta de un banco de pruebas sólido para evaluar eficazmente el rendimiento de los sistemas en la recuperación de documentos multimodales. Para abordar esta brecha, este trabajo presenta un nuevo banco de pruebas, denominado MMDocIR, que abarca dos tareas distintas: recuperación a nivel de página y a nivel de diseño. La primera se centra en localizar las páginas más relevantes dentro de un documento largo, mientras que la segunda se enfoca en la detección de diseños específicos, ofreciendo una granularidad más detallada que el análisis de página completa. Un diseño puede hacer referencia a una variedad de elementos como párrafos de texto, ecuaciones, figuras, tablas o gráficos. El banco de pruebas MMDocIR consta de un conjunto de datos rico que incluye etiquetas anotadas por expertos para 1,685 preguntas y etiquetas generadas automáticamente para 173,843 preguntas, convirtiéndolo en un recurso fundamental para avanzar en la recuperación de documentos multimodales tanto para entrenamiento como para evaluación. A través de experimentos rigurosos, revelamos que (i) los recuperadores visuales superan significativamente a sus contrapartes de texto, (ii) el conjunto de entrenamiento de MMDocIR puede beneficiar eficazmente el proceso de entrenamiento de recuperación de documentos multimodales y (iii) los recuperadores de texto que utilizan VLM-text tienen un rendimiento mucho mejor que aquellos que utilizan OCR-text. Estos hallazgos subrayan las ventajas potenciales de integrar elementos visuales para la recuperación de documentos multimodales.
La generación de escenas en 3D ha captado una creciente atención en los últimos años y ha avanzado significativamente. Generar ciudades en 4D es más desafiante que escenas en 3D debido a la presencia de objetos estructuralmente complejos y visualmente diversos como edificios y vehículos, y a la mayor sensibilidad humana a las distorsiones en entornos urbanos. Para abordar estos problemas, proponemos CityDreamer4D, un modelo generativo compositivo diseñado específicamente para generar ciudades en 4D ilimitadas. Nuestros principales insights son 1) la generación de ciudades en 4D debe separar objetos dinámicos (por ejemplo, vehículos) de escenas estáticas (por ejemplo, edificios y calles), y 2) todos los objetos en la escena en 4D deben estar compuestos por diferentes tipos de campos neuronales para edificios, vehículos y elementos de fondo. Específicamente, proponemos Generador de Escenarios de Tráfico y Generador de Diseño Ilimitado para producir escenarios de tráfico dinámicos y diseños de ciudad estáticos utilizando una representación BEV altamente compacta. Los objetos en las ciudades en 4D se generan combinando campos neuronales orientados a elementos y orientados a instancias para elementos de fondo, edificios y vehículos. Para adaptarse a las características distintivas de los elementos de fondo e instancias, los campos neuronales emplean cuadrículas de hash generativas personalizadas y embebidos posicionales periódicos como parametrizaciones de escena. Además, ofrecemos una amplia gama de conjuntos de datos para la generación de ciudades, incluyendo OSM, Google Earth y CityTopia. El conjunto de datos OSM proporciona una variedad de diseños de ciudades del mundo real, mientras que los conjuntos de datos de Google Earth y CityTopia ofrecen imágenes de ciudades a gran escala y de alta calidad completas con anotaciones de instancias en 3D. Aprovechando su diseño compositivo, CityDreamer4D admite una variedad de aplicaciones secundarias, como edición de instancias, estilización de ciudades y simulación urbana, al tiempo que ofrece un rendimiento de vanguardia en la generación de ciudades en 4D realistas.
La generación de videos ha logrado un progreso notable con la introducción de modelos de difusión, los cuales han mejorado significativamente la calidad de los videos generados. Sin embargo, la investigación reciente se ha centrado principalmente en escalar el entrenamiento del modelo, ofreciendo insights limitados sobre el impacto directo de las representaciones en el proceso de generación de videos. En este documento, investigamos inicialmente las características de las características en capas intermedias, encontrando variaciones sustanciales en los mapas de atención entre diferentes capas. Estas variaciones conducen a representaciones semánticas inestables y contribuyen a diferencias acumulativas entre características, lo que finalmente reduce la similitud entre fotogramas adyacentes y afecta negativamente la coherencia temporal. Para abordar esto, proponemos RepVideo, un marco de representación mejorado para modelos de difusión de texto a video. Al acumular características de capas vecinas para formar representaciones enriquecidas, este enfoque captura información semántica más estable. Estas representaciones mejoradas se utilizan luego como entradas al mecanismo de atención, mejorando así la expresividad semántica y asegurando la consistencia de características entre fotogramas adyacentes. Experimentos extensos demuestran que nuestro RepVideo no solo mejora significativamente la capacidad de generar apariencias espaciales precisas, como capturar relaciones espaciales complejas entre múltiples objetos, sino que también mejora la consistencia temporal en la generación de videos.
La difusión de video primero en entrar, primero en salir (FIFO), construida sobre un modelo pre-entrenado de texto a video, ha surgido recientemente como un enfoque efectivo para la generación de videos largos sin necesidad de ajustes. Esta técnica mantiene una cola de fotogramas de video con ruido progresivamente creciente, produciendo continuamente fotogramas limpios en la cabeza de la cola mientras se encola ruido gaussiano en la cola. Sin embargo, la Difusión FIFO a menudo lucha por mantener consistencia temporal a largo plazo en los videos generados debido a la falta de modelado de correspondencia entre fotogramas. En este documento, proponemos Ouroboros-Diffusion, un nuevo marco de trabajo de desruido de video diseñado para mejorar la consistencia estructural y de contenido (sujeto), permitiendo la generación de videos consistentes de longitud arbitraria. Específicamente, introducimos una nueva técnica de muestreo latente en la cola de la cola para mejorar la consistencia estructural, asegurando transiciones perceptualmente suaves entre fotogramas. Para mejorar la consistencia de sujetos, ideamos un mecanismo de Atención Cruzada entre Fotogramas Consciente del Sujeto (SACFA), que alinea sujetos entre fotogramas dentro de segmentos cortos para lograr una mejor coherencia visual. Además, introducimos orientación autorrecurrente. Esta técnica aprovecha la información de todos los fotogramas limpios anteriores en la parte delantera de la cola para guiar el desruido de los fotogramas más ruidosos al final, fomentando una interacción rica y contextual de información global. Experimentos extensos de generación de video largo en el banco de pruebas VBench demuestran la superioridad de nuestra Ouroboros-Diffusion, especialmente en términos de consistencia de sujetos, suavidad de movimiento y consistencia temporal.
Presentamos el primer estudio sobre cómo se debe inducir la capacidad de razonamiento de los Modelos de Lenguaje Multimodales (MLLMs) para evaluar la estética de las obras de arte. Para facilitar esta investigación, construimos MM-StyleBench, un nuevo conjunto de datos de alta calidad para la evaluación de la estilización artística. Luego desarrollamos un método basado en principios para modelar las preferencias humanas y realizamos un análisis sistemático de correlación entre las respuestas de los MLLMs y las preferencias humanas. Nuestros experimentos revelan un problema inherente de alucinación de los MLLMs en la evaluación artística, asociado con la subjetividad de las respuestas. Se propone ArtCoT, demostrando que la descomposición de tareas específicas del arte y el uso de un lenguaje concreto potencian la capacidad de razonamiento de los MLLMs para la estética. Nuestros hallazgos ofrecen valiosas perspectivas sobre los MLLMs para el arte y pueden beneficiar a una amplia gama de aplicaciones posteriores, como la transferencia de estilos y la generación de imágenes artísticas. Código disponible en https://github.com/songrise/MLLM4Art.
En los últimos años, se han logrado avances notables en el contenido generado por inteligencia artificial (CGIA) en los campos de síntesis de imágenes y generación de texto, generando contenido comparable al producido por humanos. Sin embargo, la calidad de la música generada por IA aún no ha alcanzado este estándar, principalmente debido al desafío de controlar eficazmente las emociones musicales y garantizar salidas de alta calidad. Este documento presenta un marco de generación de música simbólica generalizado, XMusic, que admite indicaciones flexibles (es decir, imágenes, videos, textos, etiquetas y tarareos) para generar música simbólica emocionalmente controlable y de alta calidad. XMusic consta de dos componentes principales, XProjector y XComposer. XProjector analiza las indicaciones de varias modalidades en elementos de música simbólica (es decir, emociones, géneros, ritmos y notas) dentro del espacio de proyección para generar música correspondiente. XComposer contiene un Generador y un Selector. El Generador genera música emocionalmente controlable y melodiosa basada en nuestra innovadora representación de música simbólica, mientras que el Selector identifica música simbólica de alta calidad mediante la construcción de un esquema de aprendizaje multi-tarea que involucra tareas de evaluación de calidad, reconocimiento de emociones y reconocimiento de géneros. Además, construimos XMIDI, un conjunto de datos de música simbólica a gran escala que contiene 108,023 archivos MIDI anotados con etiquetas precisas de emoción y género. Evaluaciones objetivas y subjetivas muestran que XMusic supera significativamente a los métodos actuales más avanzados con una calidad musical impresionante. Nuestro XMusic ha sido galardonado como uno de los nueve Destacados de Coleccionables en WAIC 2023. La página de inicio del proyecto XMusic es https://xmusic-project.github.io.
Las pirámides de imágenes son ampliamente adoptadas en los métodos de alto rendimiento para obtener características multi-escala para una percepción visual y comprensión precisa. Sin embargo, las pirámides de imágenes actuales utilizan el mismo modelo a gran escala para procesar múltiples resoluciones de imágenes, lo que conlleva un costo computacional significativo. Para abordar este desafío, proponemos una arquitectura de red novedosa, llamada Redes de Pirámide de Imágenes con Parámetros Invertidos (PIIP). Específicamente, PIIP utiliza modelos pre-entrenados (ViTs o CNNs) como ramas para procesar imágenes multi-escala, donde las imágenes de resoluciones más altas son procesadas por ramas de red más pequeñas para equilibrar el costo computacional y el rendimiento. Para integrar información de diferentes escalas espaciales, proponemos además un mecanismo novedoso de interacción de características entre ramas. Para validar PIIP, lo aplicamos a varios modelos de percepción y a un modelo de lenguaje multimodal representativo llamado LLaVA, y realizamos experimentos extensos en diversas tareas como detección de objetos, segmentación, clasificación de imágenes y comprensión multimodal. PIIP logra un rendimiento superior en comparación con enfoques de una sola rama y enfoques multi-resolución existentes con un menor costo computacional. Al aplicarlo a InternViT-6B, un modelo de visión a gran escala, PIIP puede mejorar su rendimiento en detección y segmentación en un 1%-2% con solo el 40%-60% de la computación original, logrando finalmente 60.0 box AP en MS COCO y 59.7 mIoU en ADE20K. Para la comprensión multimodal, nuestro PIIP-LLaVA logra un 73.0% de precisión en TextVQA y un 74.5% en MMBench con solo 2.8M datos de entrenamiento. Nuestro código está disponible en https://github.com/OpenGVLab/PIIP.
Frecuentemente interactuamos con partes no confiables. La priorización de la privacidad puede limitar la efectividad de estas interacciones, ya que lograr ciertos objetivos implica compartir datos privados. Tradicionalmente, abordar este desafío ha implicado buscar intermediarios de confianza o construir protocolos criptográficos que restringen la cantidad de datos revelados, como cálculos multipartes o pruebas de conocimiento cero. A pesar de los avances significativos en la escalabilidad de enfoques criptográficos, siguen siendo limitados en cuanto al tamaño y complejidad de las aplicaciones para las que se pueden utilizar. En este documento, argumentamos que modelos de aprendizaje automático capaces pueden desempeñar el papel de un tercero de confianza, lo que permite cálculos seguros para aplicaciones que anteriormente eran inviables. En particular, describimos Entornos de Modelos Capaces de Confianza (EMCC) como un enfoque alternativo para escalar la computación segura, donde modelo(s) de aprendizaje automático capaces interactúan bajo restricciones de entrada/salida, con control explícito de flujo de información y estado de no permanencia explícito. Este enfoque tiene como objetivo lograr un equilibrio entre la privacidad y la eficiencia computacional, permitiendo inferencias privadas donde las soluciones criptográficas clásicas son actualmente inviables. Describimos varios casos de uso habilitados por EMCC y demostramos que incluso algunos problemas criptográficos clásicos simples ya pueden resolverse con EMCC. Por último, delineamos las limitaciones actuales y discutimos el camino a seguir para implementarlas.
La coincidencia de imágenes tanto para vistas cruzadas como para modalidades cruzadas desempeña un papel crítico en la percepción multimodal. En la práctica, la brecha de modalidad causada por diferentes sistemas/estilos de imagen plantea grandes desafíos para la tarea de coincidencia. Los trabajos existentes intentan extraer características invariantes para modalidades específicas y entrenar en conjuntos de datos limitados, mostrando una pobre generalización. En este documento, presentamos MINIMA, un marco unificado de coincidencia de imágenes para múltiples casos cruzados de modalidad. Sin perseguir módulos sofisticados, nuestro MINIMA tiene como objetivo mejorar el rendimiento universal desde la perspectiva de la ampliación de datos. Con este propósito, proponemos un motor de datos simple pero efectivo que puede producir libremente un gran conjunto de datos que contenga múltiples modalidades, escenarios variados y etiquetas de coincidencia precisas. Específicamente, escalamos las modalidades desde datos de coincidencia solo RGB económicos pero ricos, mediante modelos generativos. Bajo esta configuración, las etiquetas de coincidencia y la rica diversidad del conjunto de datos RGB son heredadas por los datos multimodales generados. Beneficiándonos de esto, construimos MD-syn, un nuevo conjunto de datos integral que llena la brecha de datos para la coincidencia de imágenes multimodales generales. Con MD-syn, podemos entrenar directamente cualquier canalización de coincidencia avanzada en pares de modalidades seleccionados al azar para obtener capacidad cruzada de modalidad. Experimentos extensos en tareas de coincidencia dentro del dominio y de cero disparo, incluidos 19 casos cruzados de modalidad, demuestran que nuestro MINIMA puede superar significativamente a las líneas de base e incluso superar a los métodos específicos de modalidad. El conjunto de datos y el código están disponibles en https://github.com/LSXI7/MINIMA.
Interactuar con el mundo es una experiencia multi-sensorial: lograr una interacción efectiva de propósito general requiere hacer uso de todas las modalidades disponibles, incluyendo la visión, el tacto y el audio, para completar lagunas a partir de observaciones parciales. Por ejemplo, cuando la visión está obstruida al alcanzar dentro de una bolsa, un robot debería depender de sus sentidos del tacto y del sonido. Sin embargo, las políticas de robots generalistas de vanguardia suelen entrenarse en conjuntos de datos extensos para predecir acciones del robot únicamente a partir de observaciones visuales y propioceptivas. En este trabajo, proponemos FuSe, un enfoque novedoso que permite ajustar finamente políticas generalistas visuomotoras en modalidades sensoriales heterogéneas para las cuales no hay conjuntos de datos extensos disponibles aprovechando el lenguaje natural como un punto de anclaje común entre modalidades. Combinamos una pérdida contrastiva multimodal con una pérdida de generación de lenguaje fundamentado en los sentidos para codificar semántica de alto nivel. En el contexto de la manipulación de robots, demostramos que FuSe permite realizar tareas desafiantes que requieren razonamiento conjunto sobre modalidades como la visión, el tacto y el sonido en un entorno de cero disparos, como la solicitud multimodal, la solicitud compuesta entre modalidades y descripciones de objetos con los que interactúa. Mostramos que la misma receta es aplicable a políticas generalistas ampliamente diferentes, incluidas políticas generalistas basadas en difusión y modelos grandes de visión-lenguaje-acción (VLA). Experimentos extensos en el mundo real muestran que FuSe es capaz de aumentar las tasas de éxito en más del 20% en comparación con todas las líneas base consideradas.