Artículos de investigación en IA seleccionados diariamente con traducciones
El reciente desarrollo de los modelos multimodales grandes (LMMs), especialmente GPT-4V(isión) y Gemini, ha estado expandiendo rápidamente los límites de capacidad de los modelos multimodales más allá de tareas tradicionales como la generación de descripciones de imágenes y la respuesta a preguntas visuales. En este trabajo, exploramos el potencial de LMMs como GPT-4V como agentes web generalistas que pueden seguir instrucciones en lenguaje natural para completar tareas en cualquier sitio web dado. Proponemos SEEACT, un agente web generalista que aprovecha el poder de los LMMs para la comprensión visual integrada y la actuación en la web. Evaluamos en el reciente benchmark MIND2WEB. Además de la evaluación estándar offline en sitios web almacenados en caché, habilitamos un nuevo entorno de evaluación online mediante el desarrollo de una herramienta que permite ejecutar agentes web en sitios web en vivo. Demostramos que GPT-4V presenta un gran potencial para los agentes web: puede completar con éxito el 50% de las tareas en sitios web en vivo si fundamentamos manualmente sus planes textuales en acciones en los sitios web. Esto supera sustancialmente a LLMs basados únicamente en texto como GPT-4 o modelos más pequeños (FLAN-T5 y BLIP-2) específicamente ajustados para agentes web. Sin embargo, la fundamentación sigue siendo un desafío importante. Las estrategias de fundamentación existentes para LMMs, como el prompting de conjunto de marcas, resultan no ser efectivas para agentes web, y la mejor estrategia de fundamentación que desarrollamos en este artículo aprovecha tanto el texto HTML como los elementos visuales. Aún así, existe una brecha considerable con la fundamentación oráculo, dejando un amplio margen para futuras mejoras.
La mayoría de los modelos de difusión de video (VDMs) existentes se limitan a condiciones basadas únicamente en texto. Por ello, suelen carecer de control sobre la apariencia visual y la estructura geométrica de los videos generados. Este trabajo presenta Moonshot, un nuevo modelo de generación de video que se condiciona simultáneamente en entradas multimodales de imagen y texto. El modelo se basa en un módulo central, denominado bloque de video multimodal (MVB), que consta de capas espacio-temporales convencionales para representar características de video, y una capa de atención cruzada desacoplada para abordar las entradas de imagen y texto como condiciones de apariencia. Además, diseñamos cuidadosamente la arquitectura del modelo para que pueda integrarse opcionalmente con módulos ControlNet de imagen preentrenados para condiciones visuales geométricas, sin necesidad de sobrecarga de entrenamiento adicional, a diferencia de métodos anteriores. Los experimentos muestran que, con mecanismos de condicionamiento multimodal versátiles, Moonshot demuestra una mejora significativa en la calidad visual y la consistencia temporal en comparación con los modelos existentes. Además, el modelo puede reutilizarse fácilmente para una variedad de aplicaciones generativas, como la generación de videos personalizados, la animación de imágenes y la edición de video, revelando su potencial para servir como una arquitectura fundamental para la generación de video controlable. Los modelos estarán disponibles públicamente en https://github.com/salesforce/LAVIS.
Presentamos un modelo diferenciable que modela explícitamente los límites -- incluyendo contornos, esquinas y uniones -- utilizando un nuevo mecanismo que denominamos atención a los límites. Demostramos que nuestro modelo proporciona resultados precisos incluso cuando la señal del límite es muy débil o está inundada por ruido. En comparación con métodos clásicos previos para detectar límites tenues, nuestro modelo tiene las ventajas de ser diferenciable; ser escalable a imágenes más grandes; y adaptarse automáticamente a un nivel apropiado de detalle geométrico en cada parte de una imagen. En comparación con métodos profundos previos para encontrar límites mediante entrenamiento de extremo a extremo, tiene las ventajas de ofrecer precisión subpíxel, ser más resistente al ruido y poder procesar cualquier imagen en su resolución y relación de aspecto nativas.
Presentamos En3D, un esquema generativo mejorado para esculpir avatares humanos 3D de alta calidad. A diferencia de trabajos anteriores que dependen de conjuntos de datos 3D escasos o colecciones 2D limitadas con ángulos de visión desequilibrados y priores de pose imprecisos, nuestro enfoque busca desarrollar un esquema generativo 3D de tipo zero-shot capaz de producir humanos 3D visualmente realistas, geométricamente precisos y diversos en contenido, sin depender de activos 3D o 2D preexistentes. Para abordar este desafío, introducimos un flujo de trabajo meticulosamente diseñado que implementa modelado físico preciso para aprender el modelo generativo 3D mejorado a partir de datos 2D sintéticos. Durante la inferencia, integramos módulos de optimización para cerrar la brecha entre apariencias realistas y formas 3D aproximadas. Específicamente, En3D consta de tres módulos: un generador 3D que modela con precisión humanos 3D generalizables con apariencia realista a partir de imágenes humanas sintetizadas, equilibradas, diversas y estructuradas; un escultor de geometría que mejora la calidad de la forma utilizando restricciones de normales multi-vista para anatomía humana detallada; y un módulo de texturizado que desentrelaza mapas de textura explícitos con fidelidad y capacidad de edición, aprovechando particiones semánticas UV y un rasterizador diferenciable. Los resultados experimentales muestran que nuestro enfoque supera significativamente a trabajos anteriores en términos de calidad de imagen, precisión geométrica y diversidad de contenido. También demostramos la aplicabilidad de nuestros avatares generados para animación y edición, así como la escalabilidad de nuestro enfoque para la adaptación libre de contenido y estilo.
¿Qué enseña a los modelos de lenguaje grandes (LLMs) sobre el mundo visual el aprendizaje para modelar relaciones entre cadenas de texto? Evaluamos sistemáticamente las capacidades de los LLMs para generar y reconocer una variedad de conceptos visuales de complejidad creciente, y luego demostramos cómo se puede entrenar un sistema preliminar de aprendizaje de representaciones visuales utilizando modelos de texto. Dado que los modelos de lenguaje no tienen la capacidad de consumir o generar información visual en forma de píxeles, utilizamos código para representar imágenes en nuestro estudio. Aunque las imágenes generadas por LLMs no se asemejan a imágenes naturales, los resultados en la generación de imágenes y la capacidad de los modelos para corregir estas imágenes generadas indican que el modelado preciso de cadenas puede enseñar a los modelos de lenguaje sobre numerosos aspectos del mundo visual. Además, los experimentos en aprendizaje autosupervisado de representaciones visuales, utilizando imágenes generadas con modelos de texto, resaltan el potencial para entrenar modelos de visión capaces de realizar evaluaciones semánticas de imágenes naturales utilizando únicamente LLMs.
A medida que los grandes modelos de lenguaje (LLMs) ajustados mediante instrucciones ganan adopción global, su capacidad para seguir instrucciones en múltiples idiomas se vuelve cada vez más crucial. Un enfoque prometedor es la transferencia lingüística cruzada, donde un modelo adquiere una funcionalidad específica en algún idioma mediante ajuste fino en otro idioma. En este trabajo, investigamos cómo la multilingüidad durante el ajuste mediante instrucciones de un LLM multilingüe afecta el seguimiento de instrucciones en diferentes idiomas. Primero demostramos que muchos idiomas transfieren algunas capacidades de seguimiento de instrucciones a otros idiomas incluso con ajustes monolingües. Además, encontramos que solo 40 ejemplos multilingües en un conjunto de ajuste en inglés mejoran sustancialmente el seguimiento de instrucciones multilingüe, tanto en idiomas vistos como no vistos durante el ajuste. En general, observamos que los modelos ajustados con mezclas multilingües exhiben un rendimiento comparable o superior en varios idiomas en comparación con los modelos ajustados monolingüemente, a pesar de entrenarse con 10 veces menos ejemplos en esos idiomas. Finalmente, encontramos que aumentar el número de idiomas en el conjunto de ajuste mediante instrucciones de 1 a solo 2, 3 o 4 incrementa la generalización lingüística cruzada. Nuestros resultados sugieren que la construcción de modelos masivamente multilingües ajustados mediante instrucciones puede realizarse con un conjunto muy pequeño de pares de instrucción-respuesta multilingües.
A pesar del notable rendimiento de la destilación de puntuaciones en la generación de texto a 3D, estas técnicas son conocidas por sufrir problemas de inconsistencia de vistas, también conocidos como artefactos "Janus", donde los objetos generados simulan cada vista con múltiples caras frontales. Aunque métodos empíricamente efectivos han abordado este problema mediante la eliminación de sesgos en la puntuación o la ingeniería de prompts, una perspectiva más rigurosa para explicar y resolver este problema sigue siendo esquiva. En este artículo, revelamos que los marcos existentes de generación de texto a 3D basados en destilación de puntuaciones degeneran hacia la búsqueda de máxima verosimilitud en cada vista de manera independiente y, por lo tanto, sufren del problema de colapso modal, que se manifiesta como el artefacto Janus en la práctica. Para controlar el colapso modal, mejoramos la destilación de puntuaciones al restablecer un término de entropía en el objetivo variacional correspondiente, que se aplica a la distribución de imágenes renderizadas. Maximizar la entropía fomenta la diversidad entre las diferentes vistas en los activos 3D generados, mitigando así el problema Janus. Basándonos en este nuevo objetivo, derivamos una nueva regla de actualización para la destilación de puntuaciones 3D, denominada Destilación de Puntuaciones Entrópica (ESD, por sus siglas en inglés). Teóricamente, revelamos que ESD puede simplificarse e implementarse simplemente adoptando el truco de guía sin clasificador sobre la destilación de puntuaciones variacional. Aunque sorprendentemente sencillo, nuestros extensos experimentos demuestran con éxito que ESD puede ser un tratamiento efectivo para los artefactos Janus en la destilación de puntuaciones.
Este artículo presenta la API WordArt Designer, un marco novedoso para la síntesis de tipografía artística impulsada por el usuario que utiliza Modelos de Lenguaje a Gran Escala (LLMs) en ModelScope. Abordamos el desafío de simplificar la tipografía artística para no profesionales al ofrecer una alternativa dinámica, adaptable y computacionalmente eficiente a las plantillas rígidas tradicionales. Nuestro enfoque aprovecha el poder de los LLMs para comprender e interpretar la entrada del usuario, facilitando un proceso de diseño más intuitivo. A través de diversos estudios de caso, demostramos cómo los usuarios pueden expresar sus preferencias estéticas y requisitos funcionales, que el sistema luego traduce en diseños tipográficos únicos y creativos. Nuestras evaluaciones indican mejoras significativas en la satisfacción del usuario, la flexibilidad del diseño y la expresión creativa en comparación con los sistemas existentes. La API WordArt Designer no solo democratiza el arte de la tipografía, sino que también abre nuevas posibilidades para la comunicación y el diseño digital personalizados.