Artículos de investigación en IA seleccionados diariamente con traducciones
El notable progreso de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) ha captado una atención sin precedentes, debido a su desempeño superior en contextos visuales. Sin embargo, sus capacidades para resolver problemas matemáticos visuales aún no han sido suficientemente evaluadas ni comprendidas. Investigamos los puntos de referencia actuales que incorporan contenido visual excesivo dentro de preguntas textuales, lo que potencialmente podría ayudar a los MLLMs a deducir respuestas sin interpretar verdaderamente los diagramas de entrada. Con este fin, presentamos MathVerse, un punto de referencia visual integral de matemáticas diseñado para una evaluación equitativa y profunda de los MLLMs. Meticulosamente recopilamos 2,612 problemas matemáticos de alta calidad y multidisciplinares con diagramas, provenientes de fuentes disponibles públicamente. Cada problema es luego transformado por anotadores humanos en seis versiones distintas, cada una ofreciendo diferentes grados de contenido informativo en multimodalidad, contribuyendo a un total de 15,000 muestras de prueba. Este enfoque permite que MathVerse evalúe de manera integral si y cuánto los MLLMs pueden comprender verdaderamente los diagramas visuales para el razonamiento matemático. Además, proponemos una estrategia de evaluación de Cadena de Pensamiento (CoT, por sus siglas en inglés) para una valoración detallada de las respuestas generadas. En lugar de juzgar de manera simplista como Verdadero o Falso, empleamos GPT-4(V) para extraer adaptativamente pasos cruciales de razonamiento, y luego calificar cada paso con un análisis detallado de errores, lo que puede revelar la calidad intermedia del razonamiento CoT por parte de los MLLMs. Esperamos que el punto de referencia MathVerse pueda proporcionar perspectivas únicas para guiar el desarrollo futuro de los MLLMs. Página del proyecto: https://mathverse-cuhk.github.io
La creación de contenido 3D a partir de indicaciones de texto ha mostrado un éxito notable recientemente. Sin embargo, los métodos actuales de texto a 3D suelen generar resultados que no se alinean bien con las preferencias humanas. En este artículo, presentamos un marco integral, denominado DreamReward, para aprender y mejorar los modelos de texto a 3D a partir de comentarios de preferencia humana. Para comenzar, recopilamos 25k comparaciones de expertos basadas en una canalización de anotación sistemática que incluye calificación y clasificación. Luego, construimos Reward3D, el primer modelo de recompensa de preferencia humana de texto a 3D de propósito general, para codificar eficazmente las preferencias humanas. Basándonos en el modelo de recompensa 3D, finalmente realizamos un análisis teórico y presentamos el Aprendizaje por Retroalimentación de Reward3D (DreamFL), un algoritmo de ajuste directo para optimizar los modelos de difusión de múltiples vistas con un evaluador redefinido. Respaldado por pruebas teóricas y extensas comparaciones experimentales, nuestro DreamReward genera con éxito resultados de alta fidelidad y consistencia 3D con mejoras significativas en la alineación de las indicaciones con la intención humana. Nuestros resultados demuestran el gran potencial de aprender de los comentarios humanos para mejorar los modelos de texto a 3D.
En los últimos años, la aplicación de modelos de lenguaje multimodal de gran escala (MLLM) en diversos campos ha logrado un éxito notable. Sin embargo, como modelo base para muchas tareas posteriores, los MLLM actuales están compuestos por la conocida red Transformer, que tiene una complejidad computacional cuadrática menos eficiente. Para mejorar la eficiencia de estos modelos básicos, proponemos Cobra, un MLLM con complejidad computacional lineal. Específicamente, Cobra integra el eficiente modelo de lenguaje Mamba en la modalidad visual. Además, exploramos y estudiamos varios esquemas de fusión modal para crear un Mamba multimodal efectivo. Experimentos exhaustivos demuestran que (1) Cobra logra un rendimiento extremadamente competitivo con los métodos actuales más eficientes computacionalmente, como LLaVA-Phi, TinyLLaVA y MobileVLM v2, y tiene una velocidad más rápida debido al modelado secuencial lineal de Cobra. (2) Curiosamente, los resultados de los puntos de referencia de predicción desafiantes de conjunto cerrado muestran que Cobra se desempeña bien en superar ilusiones visuales y juicios de relaciones espaciales. (3) Notablemente, Cobra incluso alcanza un rendimiento comparable a LLaVA con aproximadamente el 43% del número de parámetros. Haremos que todos los códigos de Cobra sean de código abierto y esperamos que el método propuesto pueda facilitar futuras investigaciones sobre problemas de complejidad en MLLM. Nuestra página del proyecto está disponible en: https://sites.google.com/view/cobravlm.
La edición de video a video implica modificar un video fuente junto con controles adicionales (como indicaciones de texto, sujetos o estilos) para generar un nuevo video que se alinee con el video original y los controles proporcionados. Los métodos tradicionales se han limitado a ciertos tipos de edición, lo que restringe su capacidad para satisfacer la amplia gama de demandas de los usuarios. En este artículo, presentamos AnyV2V, un marco novedoso que no requiere entrenamiento y está diseñado para simplificar la edición de video en dos pasos principales: (1) emplear un modelo de edición de imágenes preexistente (por ejemplo, InstructPix2Pix, InstantID, etc.) para modificar el primer fotograma, y (2) utilizar un modelo existente de generación de imágenes a video (por ejemplo, I2VGen-XL) para la inversión DDIM y la inyección de características. En la primera etapa, AnyV2V puede integrar cualquier herramienta de edición de imágenes existente para respaldar una amplia variedad de tareas de edición de video. Más allá de los métodos tradicionales de edición basados en indicaciones, AnyV2V también puede soportar tareas novedosas de edición de video, como la transferencia de estilo basada en referencias, la edición guiada por sujetos y la manipulación de identidad, que eran inalcanzables con métodos anteriores. En la segunda etapa, AnyV2V puede integrar cualquier modelo existente de imágenes a video para realizar la inversión DDIM y la inyección de características intermedias, manteniendo la consistencia en apariencia y movimiento con el video fuente. En la edición basada en indicaciones, demostramos que AnyV2V supera al mejor enfoque anterior en un 35\% en alineación de indicaciones y en un 25\% en preferencia humana. En las tres tareas novedosas, AnyV2V también logra una alta tasa de éxito. Creemos que AnyV2V continuará prosperando debido a su capacidad para integrar de manera fluida los métodos de edición de imágenes en rápida evolución. Esta compatibilidad puede ayudar a AnyV2V a aumentar su versatilidad para satisfacer diversas demandas de los usuarios.
Los recientes avances en los modelos de difusión guiados por texto han desbloqueado potentes capacidades de manipulación de imágenes. Sin embargo, aplicar estos métodos a imágenes reales requiere invertir las imágenes en el dominio del modelo de difusión preentrenado. Lograr una inversión fiel sigue siendo un desafío, particularmente para los modelos más recientes entrenados para generar imágenes con un número reducido de pasos de eliminación de ruido. En este trabajo, presentamos un método de inversión con una alta relación calidad-operación, mejorando la precisión de la reconstrucción sin aumentar el número de operaciones. Basándonos en la inversión del proceso de muestreo de difusión, nuestro método emplea un mecanismo iterativo de re-ruido en cada paso de muestreo de inversión. Este mecanismo refina la aproximación de un punto predicho a lo largo de la trayectoria de difusión hacia adelante, aplicando iterativamente el modelo de difusión preentrenado y promediando estas predicciones. Evaluamos el rendimiento de nuestra técnica ReNoise utilizando varios algoritmos de muestreo y modelos, incluyendo modelos de difusión acelerados recientes. A través de evaluaciones y comparaciones exhaustivas, demostramos su efectividad tanto en precisión como en velocidad. Además, confirmamos que nuestro método preserva la capacidad de edición mediante la demostración de edición de imágenes impulsada por texto en imágenes reales.
Los modelos de difusión de video han logrado recientemente grandes avances en la calidad de generación, pero aún están limitados por los altos requisitos de memoria y computación. Esto se debe a que los modelos actuales de difusión de video a menudo intentan procesar videos de alta dimensionalidad directamente. Para abordar este problema, proponemos el modelo de difusión latente de contenido-movimiento (CMD, por sus siglas en inglés), una extensión eficiente y novedosa de modelos de difusión de imágenes preentrenados para la generación de video. Específicamente, proponemos un autocodificador que codifica de manera sucinta un video como una combinación de un marco de contenido (similar a una imagen) y una representación latente de movimiento de baja dimensionalidad. El primero representa el contenido común, mientras que el segundo representa el movimiento subyacente en el video, respectivamente. Generamos el marco de contenido ajustando un modelo de difusión de imágenes preentrenado, y generamos la representación latente de movimiento entrenando un nuevo modelo de difusión ligero. Una innovación clave aquí es el diseño de un espacio latente compacto que puede utilizar directamente un modelo de difusión de imágenes preentrenado, algo que no se había hecho en modelos previos de difusión latente de video. Esto conduce a una generación de calidad considerablemente mejor y a costos computacionales reducidos. Por ejemplo, CMD puede muestrear un video 7.7 veces más rápido que enfoques anteriores, generando un video de resolución 512x1024 y longitud 16 en 3.1 segundos. Además, CMD logra un puntaje FVD de 212.7 en WebVid-10M, un 27.3% mejor que el estado del arte anterior de 292.4.
Los modelos recientes de visión y lenguaje a gran escala (VLMs, por sus siglas en inglés) han demostrado capacidades notables para comprender y generar descripciones textuales de contenido visual. Sin embargo, estos modelos carecen de comprensión de conceptos específicos del usuario. En este trabajo, damos un primer paso hacia la personalización de los VLMs, permitiéndoles aprender y razonar sobre conceptos proporcionados por el usuario. Por ejemplo, exploramos si estos modelos pueden aprender a reconocerte en una imagen y comunicar lo que estás haciendo, adaptando el modelo para reflejar tus experiencias personales y relaciones. Para reconocer efectivamente una variedad de conceptos específicos del usuario, aumentamos el VLM con cabezales de conceptos externos que funcionan como interruptores para el modelo, permitiendo que el VLM identifique la presencia de conceptos objetivo específicos en una imagen dada. Una vez reconocido el concepto, aprendemos una nueva incrustación de conceptos en el espacio de características intermedias del VLM. Esta incrustación tiene la tarea de guiar al modelo de lenguaje para integrar naturalmente el concepto objetivo en su respuesta generada. Aplicamos nuestra técnica a BLIP-2 y LLaVA para la generación de subtítulos de imágenes personalizados y además mostramos su aplicabilidad para la respuesta visual de preguntas personalizadas. Nuestros experimentos demuestran nuestra capacidad para generalizar a imágenes no vistas de conceptos aprendidos, preservando el comportamiento del modelo en entradas no relacionadas.
Presentamos GRM, un reconstructor a gran escala capaz de recuperar un activo 3D a partir de imágenes de vistas escasas en aproximadamente 0.1s. GRM es un modelo basado en transformadores de avance directo que incorpora eficientemente información multivista para traducir los píxeles de entrada en Gaussianas alineadas con píxeles, las cuales se desproyectan para crear un conjunto de Gaussianas 3D densamente distribuidas que representan una escena. Juntos, nuestra arquitectura de transformadores y el uso de Gaussianas 3D desbloquean un marco de reconstrucción escalable y eficiente. Los resultados experimentales extensivos demuestran la superioridad de nuestro método frente a alternativas tanto en calidad de reconstrucción como en eficiencia. También mostramos el potencial de GRM en tareas generativas, es decir, texto-a-3D e imagen-a-3D, al integrarlo con modelos de difusión multivista existentes. Nuestro sitio web del proyecto se encuentra en: https://justimyhxu.github.io/projects/grm/.
Proponemos Gaussian Frosting, una novedosa representación basada en mallas para la renderización de alta calidad y la edición de efectos 3D complejos en tiempo real. Nuestro enfoque se basa en el reciente marco de 3D Gaussian Splatting, que optimiza un conjunto de gaussianas 3D para aproximar un campo de radiancia a partir de imágenes. Proponemos primero extraer una malla base de las gaussianas durante la optimización, luego construir y refinar una capa adaptativa de gaussianas con un grosor variable alrededor de la malla para capturar mejor los detalles finos y los efectos volumétricos cerca de la superficie, como cabello o hierba. Llamamos a esta capa Gaussian Frosting, ya que se asemeja a una cobertura de glaseado sobre un pastel. Cuanto más difuso sea el material, más grueso será el glaseado. También introducimos una parametrización de las gaussianas para asegurar que permanezcan dentro de la capa de glaseado y ajustar automáticamente sus parámetros al deformar, escalar, editar o animar la malla. Nuestra representación permite una renderización eficiente mediante Gaussian Splatting, así como la edición y animación mediante la modificación de la malla base. Demostramos la efectividad de nuestro método en varias escenas sintéticas y reales, y mostramos que supera a los enfoques basados en superficie existentes. Liberaremos nuestro código y un visor basado en web como contribuciones adicionales. Nuestra página del proyecto es la siguiente: https://anttwo.github.io/frosting/
Introducimos la generación acotada como una tarea generalizada para controlar la generación de videos con el fin de sintetizar movimientos arbitrarios de cámara y sujetos basándose únicamente en un fotograma inicial y final dados. Nuestro objetivo es aprovechar al máximo la capacidad de generalización inherente de un modelo de imagen a video sin necesidad de entrenamiento adicional o ajuste fino del modelo original. Esto se logra mediante una nueva estrategia de muestreo propuesta, que denominamos Fusión de Inversión Temporal, la cual fusiona las trayectorias de eliminación de ruido hacia adelante y hacia atrás en el tiempo, condicionadas por el fotograma inicial y final, respectivamente. La trayectoria fusionada da como resultado un video que conecta suavemente los dos fotogramas, generando interpolaciones de movimientos fieles del sujeto, vistas novedosas de escenas estáticas y bucles de video perfectos cuando los dos fotogramas límite son idénticos. Hemos creado un conjunto de datos de evaluación diverso con pares de imágenes y lo hemos comparado con los métodos existentes más cercanos. Encontramos que la Fusión de Inversión Temporal supera a los trabajos relacionados en todas las subtareas, demostrando la capacidad de generar movimientos complejos y vistas consistentes en 3D guiadas por fotogramas límite. Consulte la página del proyecto en https://time-reversal.github.io.
Proponemos un método que puede generar cinemagraphs automáticamente a partir de una imagen fija de paisaje utilizando un StyleGAN preentrenado. Inspirados por el éxito de la generación incondicional de videos reciente, aprovechamos un potente generador de imágenes preentrenado para sintetizar cinemagraphs de alta calidad. A diferencia de enfoques anteriores que utilizan principalmente el espacio latente de un StyleGAN preentrenado, nuestro método aprovecha su espacio de características profundas tanto para la inversión de GAN como para la generación de cinemagraphs. Específicamente, proponemos el deformado de características profundas a múltiples escalas (MSDFW, por sus siglas en inglés), que deforma las características intermedias de un StyleGAN preentrenado en diferentes resoluciones. Al utilizar MSDFW, los cinemagraphs generados son de alta resolución y exhiben animaciones en bucle plausibles. Demostramos la superioridad de nuestro método mediante estudios de usuario y comparaciones cuantitativas con métodos de generación de cinemagraphs de última generación y un método de generación de videos que utiliza un StyleGAN preentrenado.
Los investigadores y desarrolladores dependen cada vez más de la puntuación de toxicidad para moderar las salidas de los modelos de lenguaje generativo, en contextos como el servicio al cliente, la recuperación de información y la generación de contenido. Sin embargo, la puntuación de toxicidad puede hacer que información relevante sea inaccesible, rigidizar o "bloquear" normas culturales, y obstaculizar los procesos de reclamación lingüística, especialmente para personas marginadas. En este trabajo, extendemos el concepto de recurso algorítmico a los modelos de lenguaje generativo: ofrecemos a los usuarios un mecanismo novedoso para lograr su predicción deseada mediante el establecimiento dinámico de umbrales para el filtrado de toxicidad. De esta manera, los usuarios ejercen un mayor control en comparación con las interacciones con el sistema base. Un estudio piloto (n = 30) respalda el potencial de nuestro mecanismo de recurso propuesto, mostrando mejoras en la usabilidad frente al filtrado de toxicidad con umbrales fijos en las salidas del modelo. Trabajos futuros deberían explorar la intersección entre la puntuación de toxicidad, la controlabilidad del modelo, el control del usuario y los procesos de reclamación lingüística, especialmente en relación con el sesgo que muchas comunidades enfrentan al interactuar con modelos de lenguaje generativo.