Artículos de investigación en IA seleccionados diariamente con traducciones
El Segment Anything Model (SAM) se ha consolidado como un potente modelo de segmentación de imágenes en modo zero-shot, utilizando indicaciones interactivas como puntos para generar máscaras. Este artículo presenta SAM-PT, un método que amplía la capacidad de SAM para rastrear y segmentar cualquier cosa en videos dinámicos. SAM-PT aprovecha técnicas robustas y dispersas de selección y propagación de puntos para la generación de máscaras, demostrando que un rastreador de segmentación basado en SAM puede ofrecer un rendimiento zero-shot sólido en benchmarks populares de segmentación de objetos en video, como DAVIS, YouTube-VOS y MOSE. En comparación con las estrategias tradicionales de propagación de máscaras centradas en objetos, utilizamos de manera única la propagación de puntos para explotar información de estructura local que es agnóstica a la semántica del objeto. Destacamos las ventajas del rastreo basado en puntos mediante una evaluación directa en el benchmark zero-shot de Objetos de Video No Identificados (UVO) en un entorno de mundo abierto. Para mejorar aún más nuestro enfoque, utilizamos clustering K-Medoids para la inicialización de puntos y rastreamos tanto puntos positivos como negativos para distinguir claramente el objeto objetivo. También empleamos múltiples pasadas de decodificación de máscaras para el refinamiento de las mismas y diseñamos una estrategia de reinicialización de puntos para mejorar la precisión del rastreo. Nuestro código integra diferentes rastreadores de puntos y benchmarks de segmentación de video, y será publicado en https://github.com/SysCV/sam-pt.
Los recientes modelos de difusión a gran escala guiados por texto ofrecen capacidades potentes de generación de imágenes. Actualmente, se dedica un esfuerzo significativo a permitir la modificación de estas imágenes utilizando únicamente texto como medio para ofrecer una edición intuitiva y versátil. Sin embargo, la edición resulta difícil para estos modelos generativos debido a la naturaleza inherente de las técnicas de edición, que implican preservar cierto contenido de la imagen original. Por el contrario, en los modelos basados en texto, incluso modificaciones menores al prompt de texto frecuentemente resultan en un resultado completamente distinto, lo que hace extremadamente desafiante lograr una generación en un solo intento que corresponda con precisión a la intención del usuario. Además, para editar una imagen real utilizando estas herramientas de vanguardia, primero es necesario invertir la imagen en el dominio del modelo preentrenado, lo que añade otro factor que afecta la calidad de la edición, así como la latencia. En este informe exploratorio, proponemos LEDITS, un enfoque ligero combinado para la edición de imágenes reales, que incorpora la técnica de inversión Edit Friendly DDPM con Guía Semántica, extendiendo así la Guía Semántica a la edición de imágenes reales, mientras aprovecha las capacidades de edición de la inversión DDPM. Este enfoque logra ediciones versátiles, tanto sutiles como extensas, así como alteraciones en la composición y el estilo, sin requerir optimización ni extensiones a la arquitectura.
La IA generativa ha logrado avances significativos en visión por computadora, particularmente en la síntesis de imágenes/videos condicionada por descripciones de texto. A pesar de estos avances, sigue siendo un desafío, especialmente en la generación de contenido centrado en humanos, como la síntesis de danza. Los métodos existentes de síntesis de danza luchan con la brecha entre el contenido sintetizado y los escenarios de danza del mundo real. En este artículo, definimos un nuevo problema: la Generación de Danza Humana Referencial, que se centra en escenarios de danza del mundo real con tres propiedades importantes: (i) Fidelidad: la síntesis debe conservar la apariencia tanto del sujeto humano en primer plano como del fondo de la imagen de referencia, y seguir precisamente la pose objetivo; (ii) Generalización: el modelo debe generalizar a sujetos humanos, fondos y poses no vistos; (iii) Composición: debe permitir la composición de sujetos, fondos y poses vistos/no vistos de diferentes fuentes. Para abordar estos desafíos, presentamos un enfoque novedoso, DISCO, que incluye una arquitectura de modelo con control desacoplado para mejorar la fidelidad y composición de la síntesis de danza, y un pre-entrenamiento efectivo de atributos humanos para una mejor generalización a humanos no vistos. Resultados cualitativos y cuantitativos extensos demuestran que DISCO puede generar imágenes y videos de danza humana de alta calidad con apariencias diversas y movimientos flexibles. El código, demo, video y visualizaciones están disponibles en: https://disco-dance.github.io/.
El surgimiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha revolucionado el procesamiento del lenguaje natural, permitiendo la generación de texto coherente y contextualmente relevante. A medida que los LLMs impulsan cada vez más a los agentes conversacionales, la personalidad sintetizada incorporada en estos modelos, producto de su entrenamiento con grandes cantidades de datos generados por humanos, atrae atención. Dado que la personalidad es un factor importante que determina la efectividad de la comunicación, presentamos un método integral para administrar pruebas psicométricas validadas y cuantificar, analizar y moldear los rasgos de personalidad exhibidos en el texto generado por LLMs ampliamente utilizados. Encontramos que: 1) la personalidad simulada en las salidas de algunos LLMs (bajo configuraciones específicas de indicaciones) es confiable y válida; 2) la evidencia de confiabilidad y validez de la personalidad simulada por LLMs es más fuerte en modelos más grandes y ajustados mediante instrucciones; y 3) la personalidad en las salidas de los LLMs puede moldearse en dimensiones deseadas para imitar perfiles de personalidad específicos. También discutimos las aplicaciones potenciales y las implicaciones éticas de nuestro marco de medición y moldeamiento, especialmente en lo que respecta al uso responsable de los LLMs.
Si bien los avances recientes en los modelos de visión y lenguaje han revolucionado la comprensión multimodal, aún no está claro si poseen las capacidades para comprender las imágenes generadas. En comparación con los datos reales, las imágenes sintéticas exhiben un mayor grado de diversidad tanto en contenido como en estilo, lo que presenta dificultades significativas para que los modelos las comprendan plenamente. Con este fin, presentamos un conjunto de datos a gran escala, JourneyDB, para la comprensión visual multimodal en imágenes generativas. Nuestro conjunto de datos cuidadosamente seleccionado abarca 4 millones de imágenes generadas diversas y de alta calidad, emparejadas con los textos de los prompts utilizados para producirlas. Además, diseñamos 4 puntos de referencia para cuantificar el rendimiento de la comprensión de imágenes generadas en términos de interpretación de contenido y estilo. Estos puntos de referencia incluyen inversión de prompts, recuperación de estilo, generación de descripciones de imágenes y respuesta a preguntas visuales. Por último, evaluamos el rendimiento de los modelos multimodales más avanzados cuando se aplican a JourneyDB, y proporcionamos un análisis detallado de sus fortalezas y limitaciones en la comprensión de contenido generado. Esperamos que el conjunto de datos y los puntos de referencia propuestos faciliten la investigación en el campo de la comprensión de contenido generativo. El conjunto de datos estará disponible en https://journeydb.github.io.
Este artículo presenta MVDiffusion, un método simple pero efectivo para la generación de imágenes multi-vista en escenarios donde están disponibles correspondencias píxel a píxel, como recortes de perspectiva a partir de panoramas o imágenes multi-vista con geometría dada (mapas de profundidad y poses). A diferencia de modelos anteriores que dependen de deformaciones iterativas de imágenes y técnicas de inpainting, MVDiffusion genera todas las imágenes de manera concurrente con una conciencia global, abarcando alta resolución y contenido rico, abordando eficazmente la acumulación de errores prevalente en modelos precedentes. MVDiffusion incorpora específicamente un mecanismo de atención consciente de correspondencias, permitiendo una interacción efectiva entre vistas. Este mecanismo sustenta tres módulos clave: 1) un módulo de generación que produce imágenes de baja resolución manteniendo correspondencias globales, 2) un módulo de interpolación que densifica la cobertura espacial entre imágenes, y 3) un módulo de super-resolución que escala las imágenes a salidas de alta resolución. En términos de imágenes panorámicas, MVDiffusion puede generar imágenes fotorrealistas de alta resolución de hasta 1024x1024 píxeles. Para la generación de imágenes multi-vista condicionadas por geometría, MVDiffusion demuestra ser el primer método capaz de generar un mapa texturizado de una malla de escena. La página del proyecto se encuentra en https://mvdiffusion.github.io.
Los enfoques basados en aprendizaje para la captura de movimiento monocular han mostrado recientemente resultados prometedores al aprender a realizar regresiones de manera impulsada por datos. Sin embargo, debido a los desafíos en la recopilación de datos y el diseño de redes, sigue siendo difícil para las soluciones existentes lograr una captura de cuerpo completo en tiempo real mientras se mantiene la precisión en el espacio mundial. En este trabajo, contribuimos con un esquema secuencial de aprendizaje de proxy a movimiento junto con un conjunto de datos proxy de secuencias de esqueletos 2D y movimientos rotacionales 3D en el espacio mundial. Dichos datos proxy nos permiten construir una red basada en aprendizaje con supervisión precisa de cuerpo completo, al mismo tiempo que mitigamos los problemas de generalización. Para predicciones más precisas y físicamente plausibles, se propone un módulo de descenso de movimiento neuronal consciente del contacto en nuestra red, de modo que pueda ser consciente del contacto pie-suelo y la desalineación del movimiento con las observaciones proxy. Además, compartimos la información de contexto cuerpo-mano en nuestra red para una recuperación más compatible de las poses de la muñeca con el modelo de cuerpo completo. Con la solución basada en aprendizaje propuesta, demostramos el primer sistema de captura de cuerpo completo monocular en tiempo real con un contacto pie-suelo plausible en el espacio mundial. Más resultados en video se pueden encontrar en nuestra página del proyecto: https://liuyebin.com/proxycap.
Los modelos de lenguaje preentrenados (PLMs, por sus siglas en inglés) son hoy en día el modelo principal para el procesamiento del lenguaje natural. A pesar de su impresionante rendimiento en tareas posteriores, puede ser difícil aplicar los PLMs a nuevos idiomas, lo que representa una barrera para hacer que sus capacidades sean universalmente accesibles. Si bien trabajos previos han demostrado que es posible abordar este problema aprendiendo una nueva capa de embeddings para el nuevo idioma, hacerlo resulta ineficiente tanto en términos de datos como de capacidad computacional. Proponemos utilizar un mecanismo de olvido activo durante el preentrenamiento como una forma sencilla de crear PLMs que puedan adaptarse rápidamente a nuevos idiomas. Concretamente, al reiniciar la capa de embeddings cada K actualizaciones durante el preentrenamiento, fomentamos que el PLM mejore su capacidad para aprender nuevos embeddings en un número limitado de actualizaciones, similar a un efecto de metaaprendizaje. Los experimentos con RoBERTa muestran que los modelos preentrenados con nuestro mecanismo de olvido no solo demuestran una convergencia más rápida durante la adaptación a nuevos idiomas, sino que también superan a los modelos estándar en escenarios de pocos datos, particularmente para idiomas que están lingüísticamente distantes del inglés.
Los modelos de lenguaje a gran escala muestran resultados impresionantes en tareas de NLP con pocos ejemplos. Sin embargo, estos modelos requieren un uso intensivo de memoria y cómputo. El meta-entrenamiento permite aprovechar modelos más pequeños para la generalización con pocos ejemplos de manera generalizada y agnóstica a la tarea; no obstante, estos métodos por sí solos resultan en modelos que pueden no tener suficiente parametrización o conocimiento para adaptarse rápidamente a una amplia variedad de tareas. Para superar este problema, proponemos el meta-entrenamiento con recuperación de demostraciones, donde utilizamos un recuperador de pasajes densos para obtener demostraciones etiquetadas semánticamente similares a cada ejemplo, proporcionando así una supervisión más variada. Al separar el conocimiento externo de los parámetros del modelo, podemos usar el meta-entrenamiento para entrenar modelos eficientes en parámetros que generalizan bien en una mayor variedad de tareas. Construimos un conjunto de meta-entrenamiento a partir de UnifiedQA y CrossFit, y proponemos un banco de demostraciones basado en tareas de UnifiedQA. Hasta donde sabemos, nuestro trabajo es el primero en combinar la recuperación con el meta-entrenamiento, en usar modelos DPR para recuperar demostraciones, y en aprovechar demostraciones de múltiples tareas simultáneamente, en lugar de muestrear aleatoriamente demostraciones del conjunto de entrenamiento de la tarea objetivo. Nuestro enfoque supera a una variedad de métodos eficientes en parámetros y aumentados con recuperación en tareas de QA, NLI y clasificación de texto (incluyendo SQuAD, QNLI y TREC). Nuestro enfoque puede ser meta-entrenado y ajustado rápidamente en una sola GPU.
Nuestro objetivo es que los robots sigan instrucciones en lenguaje natural como "pon la toalla junto al microondas". Sin embargo, obtener grandes cantidades de datos etiquetados, es decir, datos que contengan demostraciones de tareas etiquetadas con la instrucción en lenguaje natural, resulta prohibitivo. En contraste, obtener políticas que respondan a objetivos basados en imágenes es mucho más sencillo, ya que cualquier prueba autónoma o demostración puede etiquetarse a posteriori con su estado final como objetivo. En este trabajo, presentamos un método que aprovecha políticas condicionadas tanto por imágenes como por objetivos, utilizando solo una pequeña cantidad de datos lingüísticos. Trabajos previos han avanzado en este ámbito utilizando modelos de visión y lenguaje o entrenando conjuntamente políticas condicionadas por lenguaje y objetivos, pero hasta ahora ninguno de estos métodos ha escalado eficazmente a tareas robóticas del mundo real sin una anotación humana significativa. Nuestro método logra un rendimiento robusto en el mundo real al aprender un embedding a partir de los datos etiquetados que alinea el lenguaje no con la imagen objetivo, sino con el cambio deseado entre las imágenes de inicio y objetivo que corresponde a la instrucción. Luego entrenamos una política sobre este embedding: la política se beneficia de todos los datos no etiquetados, pero el embedding alineado proporciona una interfaz para que el lenguaje guíe la política. Demostramos la capacidad de seguir instrucciones en una variedad de tareas de manipulación en diferentes escenarios, con generalización a instrucciones lingüísticas fuera de los datos etiquetados. Los videos y el código de nuestro enfoque están disponibles en nuestro sitio web: http://tiny.cc/grif.
El modelado de avatares 3D beneficia diversos escenarios de aplicación como AR/VR, videojuegos y producción cinematográfica. Los rostros de los personajes aportan una diversidad y vivacidad significativas como componente vital de los avatares. Sin embargo, la creación de modelos 3D de rostros de personajes generalmente requiere una carga de trabajo considerable con herramientas comerciales, incluso para artistas experimentados. Diversas herramientas existentes basadas en bocetos no logran apoyar a los aficionados en el modelado de formas faciales diversas y detalles geométricos ricos. En este artículo, presentamos SketchMetaFace: un sistema de bocetos dirigido a usuarios aficionados para modelar rostros 3D de alta fidelidad en minutos. Diseñamos cuidadosamente tanto la interfaz de usuario como el algoritmo subyacente. Primero, se adoptan trazos conscientes de la curvatura para mejorar la controlabilidad al esculpir detalles faciales. Segundo, considerando el problema clave de mapear un boceto 2D a un modelo 3D, desarrollamos un novedoso método basado en aprendizaje denominado "Modelado de Malla Guiado por Representaciones Implícitas y de Profundidad" (IDGMM, por sus siglas en inglés). Este método fusiona las ventajas de las representaciones de malla, implícitas y de profundidad para lograr resultados de alta calidad con gran eficiencia. Además, para mejorar la usabilidad, presentamos un diseño de interfaz de bocetos 2D de coarse-to-fine y una herramienta de sugerencia de trazos basada en datos. Estudios con usuarios demuestran la superioridad de nuestro sistema frente a las herramientas de modelado existentes en términos de facilidad de uso y calidad visual de los resultados. Los análisis experimentales también muestran que IDGMM alcanza un mejor equilibrio entre precisión y eficiencia. SketchMetaFace está disponible en https://zhongjinluo.github.io/SketchMetaFace/.