Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos InternLM-XComposer2, un modelo de vanguardia en visión y lenguaje que sobresale en la composición y comprensión libre de texto e imágenes. Este modelo va más allá de la comprensión convencional de visión y lenguaje, creando hábilmente contenido intercalado de texto e imágenes a partir de diversas entradas como esquemas, especificaciones textuales detalladas e imágenes de referencia, lo que permite una creación de contenido altamente personalizable. InternLM-XComposer2 propone un enfoque de LoRA Parcial (PLoRA) que aplica parámetros adicionales de LoRA exclusivamente a los tokens de imagen para preservar la integridad del conocimiento lingüístico preentrenado, logrando un equilibrio entre la comprensión precisa de la visión y la composición de texto con talento literario. Los resultados experimentales demuestran la superioridad de InternLM-XComposer2, basado en InternLM2-7B, en la producción de contenido multimodal de texto largo de alta calidad y su excepcional rendimiento en comprensión de visión y lenguaje en varios benchmarks, donde no solo supera significativamente a los modelos multimodales existentes, sino que también iguala o incluso supera a GPT-4V y Gemini Pro en ciertas evaluaciones. Esto resalta su notable competencia en el ámbito de la comprensión multimodal. La serie de modelos InternLM-XComposer2 con 7B parámetros está disponible públicamente en https://github.com/InternLM/InternLM-XComposer.
Para los Modelos de Visión y Lenguaje a Gran Escala (LVLMs, por sus siglas en inglés), escalar el modelo puede mejorar efectivamente el rendimiento. Sin embargo, expandir los parámetros del modelo aumenta significativamente los costos de entrenamiento e inferencia, ya que todos los parámetros del modelo se activan para cada token en el cálculo. En este trabajo, proponemos una novedosa estrategia de entrenamiento llamada MoE-tuning para LVLMs, que permite construir un modelo disperso con un número extraordinario de parámetros pero con un costo computacional constante, abordando efectivamente la degradación del rendimiento típicamente asociada con el aprendizaje multimodal y la dispersión del modelo. Además, presentamos el marco MoE-LLaVA, una arquitectura de LVLM dispersa basada en MoE. Este marco activa únicamente a los k expertos principales a través de enrutadores durante el despliegue, manteniendo inactivos a los expertos restantes. Nuestros extensos experimentos destacan las excelentes capacidades de MoE-LLaVA en comprensión visual y su potencial para reducir las alucinaciones en las salidas del modelo. Notablemente, con solo 3 mil millones de parámetros dispersamente activados, MoE-LLaVA demuestra un rendimiento comparable al LLaVA-1.5-7B en varios conjuntos de datos de comprensión visual e incluso supera al LLaVA-1.5-13B en pruebas de alucinación de objetos. A través de MoE-LLaVA, nuestro objetivo es establecer una línea base para los LVLMs dispersos y proporcionar valiosas ideas para futuras investigaciones en el desarrollo de sistemas de aprendizaje multimodal más eficientes y efectivos. El código está disponible en https://github.com/PKU-YuanGroup/MoE-LLaVA.
Los modelos de lenguaje a gran escala se entrenan con grandes extracciones de la web, que a menudo están desestructuradas, son ruidosas y están mal redactadas. Las leyes de escalado actuales muestran que aprender de tales datos requiere una abundancia tanto de capacidad de cómputo como de datos, que crece con el tamaño del modelo que se está entrenando. Esto es inviable tanto por los altos costos de cómputo y la duración asociada con el preentrenamiento, como por la inminente escasez de datos de alta calidad en la web. En este trabajo, proponemos el Preentrenamiento Aumentado con Reformulación Web (WRAP, por sus siglas en inglés), que utiliza un modelo ajustado por instrucciones listo para usar, el cual se solicita para parafrasear documentos de la web en estilos específicos, como "al estilo de Wikipedia" o en "formato de pregunta-respuesta", para preentrenar conjuntamente modelos de lenguaje en reformulaciones reales y sintéticas. Primero, mostramos que el uso de WRAP en el conjunto de datos C4, que es naturalmente ruidoso, acelera el preentrenamiento en aproximadamente 3 veces. Con el mismo presupuesto de cómputo para el preentrenamiento, mejora la perplejidad en más del 10% en promedio en diferentes subconjuntos de The Pile, y aumenta la precisión en tareas de respuesta a preguntas de cero disparos en más del 2% en 13 tareas. Segundo, investigamos el impacto del estilo de reformulación en el rendimiento del modelo, ofreciendo insights sobre cómo la composición de los datos de entrenamiento puede afectar el rendimiento de los modelos de lenguaje en entornos fuera de distribución (OOD). Nuestros avances se atribuyen al hecho de que los datos sintéticos reformulados tienen una mayor utilidad que los datos reales, ya que (i) incorporan diversidad de estilos que reflejan de cerca el estilo de evaluación posterior, y (ii) tienen una 'calidad' más alta que los datos extraídos de la web.
Presentamos Motion-I2V, un marco novedoso para la generación consistente y controlable de video a partir de imágenes (I2V). A diferencia de métodos anteriores que aprenden directamente el mapeo complejo de imagen a video, Motion-I2V descompone I2V en dos etapas con un modelado explícito de movimiento. Para la primera etapa, proponemos un predictor de campo de movimiento basado en difusión, que se enfoca en deducir las trayectorias de los píxeles de la imagen de referencia. Para la segunda etapa, proponemos una atención temporal aumentada con movimiento para mejorar la limitada atención temporal unidimensional en los modelos de difusión latente de video. Este módulo puede propagar efectivamente las características de la imagen de referencia a los fotogramas sintetizados con la guía de las trayectorias predichas en la primera etapa. En comparación con métodos existentes, Motion-I2V puede generar videos más consistentes incluso en presencia de grandes variaciones de movimiento y punto de vista. Al entrenar un ControlNet de trayectorias dispersas para la primera etapa, Motion-I2V permite a los usuarios controlar con precisión las trayectorias y regiones de movimiento mediante anotaciones de trayectorias y regiones dispersas. Esto ofrece mayor controlabilidad en el proceso I2V que depender únicamente de instrucciones textuales. Además, la segunda etapa de Motion-I2V soporta naturalmente la traducción de video a video en modo zero-shot. Tanto las comparaciones cualitativas como cuantitativas demuestran las ventajas de Motion-I2V sobre enfoques previos en la generación consistente y controlable de video a partir de imágenes.
En los últimos años, se han logrado avances significativos en el campo del aprendizaje por refuerzo (RL, por sus siglas en inglés) robótico, permitiendo métodos que manejan observaciones complejas de imágenes, entrenan en el mundo real e incorporan datos auxiliares, como demostraciones y experiencia previa. Sin embargo, a pesar de estos avances, el RL robótico sigue siendo difícil de utilizar. Entre los profesionales, se reconoce que los detalles específicos de implementación de estos algoritmos son a menudo tan importantes (si no más) para el rendimiento como la elección del algoritmo. Planteamos que un desafío significativo para la adopción generalizada del RL robótico, así como para el desarrollo adicional de métodos de RL robótico, es la relativa inaccesibilidad de dichos métodos. Para abordar este desafío, desarrollamos una biblioteca cuidadosamente implementada que contiene un método eficiente de RL profundo fuera de política, junto con métodos para calcular recompensas y reiniciar el entorno, un controlador de alta calidad para un robot ampliamente adoptado y una serie de tareas de ejemplo desafiantes. Ofrecemos esta biblioteca como un recurso para la comunidad, describimos sus decisiones de diseño y presentamos resultados experimentales. Quizás sorprendentemente, encontramos que nuestra implementación puede lograr un aprendizaje muy eficiente, adquiriendo políticas para el ensamblaje de placas de circuito impreso, el enrutamiento de cables y la reubicación de objetos entre 25 y 50 minutos de entrenamiento por política en promedio, superando los resultados de última generación reportados para tareas similares en la literatura. Estas políticas logran tasas de éxito perfectas o casi perfectas, una robustez extrema incluso bajo perturbaciones y exhiben comportamientos emergentes de recuperación y corrección. Esperamos que estos resultados prometedores y nuestra implementación de código abierto de alta calidad proporcionen una herramienta para la comunidad de robótica que facilite desarrollos adicionales en el RL robótico. Nuestro código, documentación y videos se pueden encontrar en https://serl-robot.github.io/.
La síntesis de animaciones faciales 3D a partir del habla ha captado una atención considerable. Debido a la escasez de datos faciales 4D de alta calidad y etiquetas multimodales abundantes y bien anotadas, los métodos anteriores a menudo sufren de un realismo limitado y una falta de condicionamiento flexible. Abordamos este desafío a través de una trilogía. Primero, presentamos Generalized Neural Parametric Facial Asset (GNPFA), un codificador automático variacional eficiente que mapea la geometría facial y las imágenes a un espacio latente de expresiones altamente generalizado, desacoplando expresiones e identidades. Luego, utilizamos GNPFA para extraer expresiones de alta calidad y poses precisas de la cabeza a partir de una gran variedad de videos. Esto da lugar al conjunto de datos M2F-D, un conjunto de datos grande, diverso y de nivel de escaneo para animaciones faciales 3D co-speech, con etiquetas emocionales y de estilo bien anotadas. Finalmente, proponemos Media2Face, un modelo de difusión en el espacio latente de GNPFA para la generación de animaciones faciales co-speech, que acepta guías multimodales ricas de audio, texto e imagen. Experimentos extensos demuestran que nuestro modelo no solo logra una alta fidelidad en la síntesis de animaciones faciales, sino que también amplía el alcance de la expresividad y la adaptabilidad de estilo en las animaciones faciales 3D.
El agente de dispositivos móviles basado en Modelos de Lenguaje Multimodal de Gran Escala (MLLM) se está convirtiendo en una aplicación popular. En este artículo, presentamos Mobile-Agent, un agente autónomo multimodal para dispositivos móviles. Mobile-Agent primero utiliza herramientas de percepción visual para identificar y localizar con precisión tanto los elementos visuales como textuales dentro de la interfaz frontal de la aplicación. Basándose en el contexto visual percibido, planifica y descompone de manera autónoma la tarea de operación compleja, y navega por las aplicaciones móviles a través de operaciones paso a paso. A diferencia de soluciones anteriores que dependen de archivos XML de las aplicaciones o metadatos del sistema móvil, Mobile-Agent permite una mayor adaptabilidad en diversos entornos operativos móviles de manera centrada en la visión, eliminando así la necesidad de personalizaciones específicas del sistema. Para evaluar el rendimiento de Mobile-Agent, introdujimos Mobile-Eval, un punto de referencia para evaluar las operaciones de dispositivos móviles. Basándonos en Mobile-Eval, realizamos una evaluación exhaustiva de Mobile-Agent. Los resultados experimentales indican que Mobile-Agent logró una precisión y tasas de finalización notables. Incluso con instrucciones desafiantes, como operaciones multi-aplicación, Mobile-Agent aún puede completar los requisitos. El código y el modelo se publicarán en https://github.com/X-PLUG/MobileAgent.
Los recientes avances en los grandes modelos preentrenados de texto a imagen han demostrado capacidades sin precedentes para la generación de alta calidad centrada en humanos, sin embargo, la personalización de la identidad facial sigue siendo un problema intratable. Los métodos existentes no pueden garantizar una preservación estable de la identidad y una edición flexible, incluso con varias imágenes de cada sujeto durante el entrenamiento. En este trabajo, proponemos StableIdentity, que permite la recontextualización consistente en la identidad con solo una imagen facial. Más específicamente, empleamos un codificador facial con un previo de identidad para codificar la cara de entrada, y luego situamos la representación facial en un espacio con un previo editable, que se construye a partir de nombres de celebridades. Al incorporar el previo de identidad y el previo de editabilidad, la identidad aprendida puede inyectarse en cualquier lugar con diversos contextos. Además, diseñamos una pérdida de difusión enmascarada de dos fases para potenciar la percepción a nivel de píxel de la cara de entrada y mantener la diversidad de la generación. Experimentos extensivos demuestran que nuestro método supera a los métodos de personalización anteriores. Además, la identidad aprendida puede combinarse de manera flexible con módulos disponibles como ControlNet. Notablemente, hasta donde sabemos, somos los primeros en inyectar directamente la identidad aprendida de una sola imagen en la generación de video/3D sin ajuste fino. Creemos que el StableIdentity propuesto es un paso importante para unificar los modelos de generación personalizada de imágenes, videos y 3D.
A medida que los modelos de generación de texto a imagen a gran escala han logrado avances notables en el campo de la generación de texto a imagen, se han propuesto muchos métodos de ajuste fino. Sin embargo, estos modelos suelen tener dificultades con objetos novedosos, especialmente en escenarios de un solo ejemplo. Nuestro método propuesto busca abordar los desafíos de generalización y fidelidad de manera orientada a objetos, utilizando solo una imagen de entrada y las regiones de interés específicas del objeto. Para mejorar la generalización y mitigar el sobreajuste, en nuestro paradigma, se inicializa un embedding prototípico basado en la apariencia del objeto y su clase, antes de ajustar el modelo de difusión. Durante el ajuste fino, proponemos una regularización caracterizadora de clases para preservar el conocimiento previo de las clases de objetos. Para mejorar aún más la fidelidad, introducimos una pérdida específica del objeto, que también puede usarse para implantar múltiples objetos. En general, nuestro método orientado a objetos para implantar nuevos objetos puede integrarse sin problemas con conceptos existentes, además de ofrecer alta fidelidad y generalización. Nuestro método supera a varios trabajos existentes. El código será liberado.
A pesar de los avances significativos en los modelos de texto a imagen para generar imágenes de alta calidad, estos métodos aún tienen dificultades para garantizar la controlabilidad de las indicaciones textuales sobre las imágenes en el contexto de indicaciones complejas, especialmente cuando se trata de conservar los atributos y las relaciones de los objetos. En este artículo, proponemos CompAgent, un enfoque sin entrenamiento para la generación composicional de texto a imagen, con un agente de modelo de lenguaje grande (LLM) como núcleo. La idea fundamental detrás de CompAgent se basa en una metodología de divide y vencerás. Dada una indicación textual compleja que contiene múltiples conceptos, incluyendo objetos, atributos y relaciones, el agente LLM primero la descompone, lo que implica la extracción de objetos individuales, sus atributos asociados y la predicción de un diseño de escena coherente. Estos objetos individuales pueden luego ser abordados de manera independiente. Posteriormente, el agente realiza un razonamiento al analizar el texto, planifica y emplea herramientas para componer estos objetos aislados. Finalmente, se incorpora un mecanismo de verificación y retroalimentación humana en nuestro agente para corregir posibles errores de atributos y refinar las imágenes generadas. Guiado por el agente LLM, proponemos un modelo de personalización de múltiples conceptos sin ajuste y un modelo de generación de imagen a partir de diseño como herramientas para la composición de conceptos, y un método de edición local de imágenes como herramienta para interactuar con el agente para la verificación. El diseño de la escena controla el proceso de generación de imágenes entre estas herramientas para evitar confusiones entre múltiples objetos. Experimentos extensos demuestran la superioridad de nuestro enfoque para la generación composicional de texto a imagen: CompAgent logra una mejora de más del 10\% en T2I-CompBench, un punto de referencia integral para la generación composicional de T2I en mundo abierto. La extensión a varias tareas relacionadas también ilustra la flexibilidad de nuestro CompAgent para aplicaciones potenciales.
Los modelos visión-lenguaje existentes exhiben una fuerte generalización en diversos dominios visuales y tareas. Sin embargo, estos modelos principalmente realizan reconocimiento zero-shot de manera de conjunto cerrado, y por lo tanto, por diseño, tienen dificultades para manejar conceptos visuales de dominio abierto. Existen métodos recientes de ajuste fino, como el aprendizaje de prompts, que no solo estudian la discriminación entre muestras dentro de la distribución (ID) y fuera de la distribución (OOD), sino que también muestran algunas mejoras en las precisiones tanto ID como OOD. En este artículo, primero demostramos que los modelos visión-lenguaje, después de un ajuste fino suficientemente prolongado pero sin una regularización adecuada, tienden a sobreajustarse a las clases conocidas en el conjunto de datos dado, con un rendimiento degradado en las clases desconocidas. Luego, proponemos un enfoque novedoso, OGEN, para abordar este problema, con el enfoque principal en mejorar la generalización OOD de los modelos ajustados. Específicamente, se introduce un generador de características condicional a la clase para sintetizar características OOD utilizando solo el nombre de la clase de cualquier clase desconocida. Dichas características sintetizadas proporcionarán conocimiento útil sobre las desconocidas y ayudarán a regularizar el límite de decisión entre los datos ID y OOD cuando se optimizan conjuntamente. Igualmente importante es nuestro mecanismo de auto-distilación adaptativa para regularizar nuestro modelo de generación de características durante la optimización conjunta, es decir, transferir conocimiento de manera adaptativa entre estados del modelo para prevenir aún más el sobreajuste. Los experimentos validan que nuestro método produce ganancias convincentes en el rendimiento de generalización OOD en diferentes configuraciones.