Artículos de investigación en IA seleccionados diariamente con traducciones
La generación en contexto es un componente clave de la capacidad de generalización de tareas abiertas de los modelos de lenguaje grandes (LLMs). Al aprovechar unos pocos ejemplos como contexto, los LLMs pueden realizar tareas tanto dentro como fuera del dominio. Los avances recientes en modelos visión-lenguaje auto-regresivos (VLMs) construidos sobre LLMs han demostrado un rendimiento impresionante en la generación de texto a imagen. Sin embargo, el potencial del aprendizaje en contexto para tareas generales de generación de imágenes sigue siendo en gran medida inexplorado. Para abordar esto, presentamos X-Prompt, un modelo de lenguaje grande de visión puramente auto-regresivo diseñado para ofrecer un rendimiento competitivo en una amplia gama de tareas de generación de imágenes tanto vistas como no vistas, todo dentro de un marco unificado de aprendizaje en contexto. X-Prompt incorpora un diseño especializado que comprime eficientemente características valiosas de ejemplos en contexto, admitiendo secuencias de tokens en contexto más largas y mejorando su capacidad para generalizar a tareas no vistas. Una tarea de entrenamiento unificada para la predicción de texto e imagen permite a X-Prompt manejar la generación de imágenes generales con una mayor conciencia de la tarea a partir de ejemplos en contexto. Experimentos extensos validan el rendimiento del modelo en diversas tareas de generación de imágenes vistas y su capacidad para generalizar a tareas previamente no vistas.
El informe técnico presenta O1-CODER, un intento de replicar el modelo o1 de OpenAI con un enfoque en tareas de programación. Integra aprendizaje por refuerzo (RL) y Búsqueda del Árbol de Monte Carlo (MCTS) para mejorar las capacidades de pensamiento del Sistema-2 del modelo. El marco incluye el entrenamiento de un Generador de Casos de Prueba (TCG) para pruebas de código estandarizadas, utilizando MCTS para generar datos de código con procesos de razonamiento, y ajustando iterativamente el modelo de política para producir inicialmente pseudocódigo, seguido por la generación del código completo. El informe también aborda las oportunidades y desafíos en la implementación de modelos similares a o1 en aplicaciones del mundo real, sugiriendo la transición al paradigma del Sistema-2 y resaltando la importancia de las actualizaciones del estado del entorno. El progreso del modelo actualizado y los resultados experimentales se informarán en versiones posteriores. Todo el código fuente, conjuntos de datos seleccionados, así como los modelos derivados se divulgarán en https://github.com/ADaM-BJTU/O1-CODER.
Este trabajo presenta Switti, un transformador a escala para la generación de texto a imagen. Partiendo de modelos AR existentes de predicción a la siguiente escala, primero los exploramos para la generación de texto a imagen y proponemos modificaciones arquitectónicas para mejorar su convergencia y rendimiento general. Luego observamos que los mapas de autoatención de nuestro modelo AR a escala preentrenado muestran una débil dependencia de las escalas precedentes. Basándonos en esta percepción, proponemos un contraparte no-AR que facilita una generación de muestras aproximadamente un 11% más rápida y un menor uso de memoria, al tiempo que logra una calidad de generación ligeramente superior. Además, revelamos que la orientación sin clasificador en escalas de alta resolución a menudo es innecesaria e incluso puede degradar el rendimiento. Al desactivar la orientación en estas escalas, logramos una aceleración adicional de la generación de muestras de aproximadamente un 20% y mejoramos la generación de detalles de alta calidad. Estudios extensos de preferencia humana y evaluaciones automatizadas muestran que Switti supera a los modelos AR existentes de texto a imagen y compite con los modelos de difusión de texto a imagen de última generación, siendo hasta 7 veces más rápido.
Presentamos Open-Sora Plan, un proyecto de código abierto que tiene como objetivo contribuir con un modelo de generación de gran tamaño para producir videos de alta resolución deseados con larga duración basados en diversos datos de usuario. Nuestro proyecto consta de múltiples componentes para todo el proceso de generación de video, incluyendo un Autoencoder Variacional de Flujo de Wavelet, un Desruido Conjunto de Imagen-Video Skiparse, y varios controladores de condición. Además, se han diseñado muchas estrategias auxiliares para un entrenamiento e inferencia eficientes, y se propone un flujo de datos multidimensional para obtener datos de alta calidad deseados. Gracias a pensamientos eficientes, nuestro Open-Sora Plan logra resultados impresionantes en la generación de videos tanto en evaluaciones cualitativas como cuantitativas. Esperamos que nuestro diseño cuidadoso y experiencia práctica puedan inspirar a la comunidad de investigación en generación de video. Todos nuestros códigos y pesos de modelos están disponibles públicamente en https://github.com/PKU-YuanGroup/Open-Sora-Plan.
Con el rápido avance de los modelos generativos basados en difusión, la animación de imágenes de retratos ha logrado resultados notables. Sin embargo, todavía enfrenta desafíos en la generación de videos temporalmente consistentes y en el muestreo rápido debido a su naturaleza de muestreo iterativo. Este artículo presenta FLOAT, un método de generación de videos de retratos parlantes basado en el modelo generativo de coincidencia de flujos. Desplazamos la modelización generativa desde el espacio latente basado en píxeles a un espacio latente de movimiento aprendido, lo que permite el diseño eficiente de movimiento temporalmente consistente. Para lograr esto, introducimos un predictor de campo vectorial basado en transformadores con un mecanismo de condicionamiento simple pero efectivo a nivel de cuadro. Además, nuestro método admite el realce de emociones impulsado por el habla, lo que permite una incorporación natural de movimientos expresivos. Experimentos extensos demuestran que nuestro método supera a los métodos de retratos parlantes impulsados por audio más avanzados en cuanto a calidad visual, fidelidad de movimiento y eficiencia.
Los actuales modelos multimodales grandes (LMMs) enfrentan desafíos significativos en el procesamiento y comprensión de videos de larga duración o alta resolución, principalmente debido a la falta de conjuntos de datos de alta calidad. Para abordar este problema desde una perspectiva centrada en los datos, proponemos VISTA, un marco simple pero efectivo de Aumentación Espaciotemporal de Video que sintetiza pares de instrucciones y seguimiento de video de larga duración y alta resolución a partir de conjuntos de datos existentes de subtítulos de video. VISTA combina espacial y temporalmente videos para crear nuevos videos sintéticos con duraciones extendidas y resoluciones mejoradas, y posteriormente genera pares de preguntas y respuestas relacionadas con estos videos recién sintetizados. Basándonos en este paradigma, desarrollamos siete métodos de aumento de video y creamos VISTA-400K, un conjunto de datos de seguimiento de instrucciones en video destinado a mejorar la comprensión de videos de larga duración y alta resolución. El ajuste fino de varios LMMs de video en nuestros datos resultó en una mejora promedio del 3.3% en cuatro desafiantes referencias para la comprensión de videos largos. Además, presentamos el primer referente completo de comprensión de video de alta resolución, HRVideoBench, en el cual nuestros modelos ajustados logran un aumento del rendimiento del 6.5%. Estos resultados resaltan la efectividad de nuestro marco.
Los seres humanos son animales sociales. Cómo equipar a los personajes autónomos en 3D con una inteligencia social similar que les permita percibir, comprender e interactuar con los humanos sigue siendo un problema abierto pero fundamental. En este documento, presentamos SOLAMI, el primer marco de Modelado Social Visión-Lenguaje-Acción (VLA, por sus siglas en inglés) de extremo a extremo para la interacción inmersiva con personajes autónomos en 3D. Específicamente, SOLAMI construye personajes autónomos en 3D desde tres aspectos: (1) Arquitectura Social VLA: Proponemos un marco unificado de VLA social para generar respuestas multimodales (habla y movimiento) basadas en la entrada multimodal del usuario para guiar al personaje en la interacción social. (2) Datos Multimodales Interactivos: Presentamos SynMSI, un conjunto de datos sintéticos de interacción social multimodal generado por un pipeline automático utilizando solo conjuntos de datos de movimiento existentes para abordar el problema de escasez de datos. (3) Interfaz de Realidad Virtual Inmersiva: Desarrollamos una interfaz de RV que permite a los usuarios interactuar de manera inmersiva con estos personajes guiados por diversas arquitecturas. Experimentos cuantitativos extensos y estudios de usuarios demuestran que nuestro marco conduce a respuestas de personajes más precisas y naturales (tanto en habla como en movimiento) que se alinean con las expectativas del usuario con una menor latencia.
En este documento, presentamos TAPTRv3, que se basa en TAPTRv2 para mejorar la robustez del seguimiento de puntos en videos largos. TAPTRv2 es un marco simple similar a DETR que puede rastrear con precisión cualquier punto en videos del mundo real sin necesidad de volumen de costos. TAPTRv3 mejora TAPTRv2 al abordar su deficiencia en la obtención de características de alta calidad de videos largos, donde los puntos de seguimiento objetivo normalmente experimentan una variación creciente con el tiempo. En TAPTRv3, proponemos utilizar tanto el contexto espacial como temporal para lograr una mejor obtención de características a lo largo de las dimensiones espacial y temporal para un seguimiento más robusto en videos largos. Para una mejor obtención de características espaciales, presentamos Atención Cruzada Consciente del Contexto (CCA), que aprovecha el contexto espacial circundante para mejorar la calidad de los puntajes de atención al consultar características de imagen. Para una mejor obtención de características temporales, introducimos Atención Larga-Temporal Consciente de la Visibilidad (VLTA) para llevar a cabo atención temporal a todos los fotogramas anteriores considerando sus visibilidades correspondientes, lo que aborda eficazmente el problema de desplazamiento de características en TAPTRv2 causado por su modelado largo-temporal similar a RNN. TAPTRv3 supera ampliamente a TAPTRv2 en la mayoría de los conjuntos de datos desafiantes y obtiene un rendimiento de vanguardia. Incluso en comparación con métodos entrenados con grandes cantidades de datos internos adicionales, TAPTRv3 sigue siendo competitivo.
Los Modelos de Lenguaje Multimodal a Gran Escala (MLLMs) han avanzado significativamente en tareas de comprensión y generación visual. Sin embargo, la generación de contenido imagen-texto entrelazado sigue siendo un desafío, que requiere habilidades integradas de comprensión y generación multimodal. Aunque el progreso en modelos unificados ofrece nuevas soluciones, los benchmarks existentes son insuficientes para evaluar estos métodos debido a limitaciones en tamaño y diversidad de datos. Para cerrar esta brecha, presentamos GATE OpenING (OpenING), un benchmark integral que consta de 5,400 instancias humanamente anotadas de alta calidad en 56 tareas del mundo real. OpenING abarca diversos escenarios diarios como guías de viaje, diseño y lluvia de ideas, ofreciendo una plataforma sólida para desafiar los métodos de generación entrelazada. Además, presentamos IntJudge, un modelo juez para evaluar métodos de generación multimodal abiertos. Entrenado con un nuevo flujo de datos, nuestro IntJudge logra una tasa de acuerdo del 82.42% con las evaluaciones humanas, superando a los evaluadores basados en GPT en un 11.34%. Experimentos extensos en OpenING revelan que los métodos actuales de generación entrelazada aún tienen un amplio margen de mejora. Se presentan hallazgos clave sobre la generación imagen-texto entrelazada para guiar el desarrollo de modelos de próxima generación. El OpenING está disponible como código abierto en https://opening.github.io.
Los modelos sustitutos basados en aprendizaje automático ofrecen a los investigadores herramientas poderosas para acelerar flujos de trabajo basados en simulaciones. Sin embargo, dado que los conjuntos de datos estándar en este ámbito a menudo cubren pequeñas clases de comportamiento físico, puede resultar difícil evaluar la eficacia de nuevos enfoques. Para abordar esta brecha, presentamos el Well: una colección a gran escala de conjuntos de datos que contienen simulaciones numéricicas de una amplia variedad de sistemas físicos espacio-temporales. El Well se nutre de expertos en el dominio y desarrolladores de software numérico para proporcionar 15TB de datos distribuidos en 16 conjuntos que abarcan diversos dominios como sistemas biológicos, dinámica de fluidos, dispersión acústica, así como simulaciones magneto-hidrodinámicas de fluidos extragalácticos o explosiones de supernovas. Estos conjuntos de datos pueden utilizarse de forma individual o como parte de un conjunto de pruebas más amplio. Para facilitar el uso del Well, proporcionamos una interfaz unificada de PyTorch para entrenar y evaluar modelos. Demostramos la funcionalidad de esta biblioteca presentando ejemplos de líneas base que resaltan los nuevos desafíos planteados por la dinámica compleja del Well. El código y los datos están disponibles en https://github.com/PolymathicAI/the_well.
El Modelo Segment Anything 2 (SAM 2) ha surgido como una herramienta potente para la segmentación de objetos en video y el seguimiento de cualquier cosa. Los componentes clave de SAM 2 que impulsan el impresionante rendimiento de segmentación de objetos en video incluyen un gran codificador de imágenes de múltiples etapas para la extracción de características de cuadros y un mecanismo de memoria que almacena contextos de memoria de cuadros anteriores para ayudar en la segmentación del cuadro actual. La alta complejidad computacional del codificador de imágenes de múltiples etapas y el módulo de memoria ha limitado sus aplicaciones en tareas del mundo real, como la segmentación de objetos en video en dispositivos móviles. Para abordar esta limitación, proponemos EfficientTAMs, modelos livianos de seguimiento de cualquier cosa que producen resultados de alta calidad con baja latencia y tamaño de modelo reducido. Nuestra idea se basa en volver a examinar el Transformer de Visión plano y no jerárquico (ViT) como un codificador de imágenes para la segmentación de objetos en video, e introducir un módulo de memoria eficiente, que reduce la complejidad tanto para la extracción de características de cuadros como para el cálculo de memoria para la segmentación del cuadro actual. Tomamos ViTs livianos y un módulo de memoria eficiente para construir EfficientTAMs, y entrenamos los modelos en los conjuntos de datos SA-1B y SA-V para la segmentación de objetos en video y tareas de seguimiento de cualquier cosa. Evaluamos en múltiples referencias de segmentación de video, incluida la VOS semisupervisada y la segmentación de video promptable, y encontramos que nuestro EfficientTAM propuesto con ViT plano funciona de manera comparable al modelo SAM 2 (HieraB+SAM 2) con una aceleración de ~2x en A100 y una reducción de parámetros de ~2.4x. En tareas de imagen de segmentación de cualquier cosa, nuestros EfficientTAMs también tienen un rendimiento favorable sobre el SAM original con una aceleración de ~20x en A100 y una reducción de parámetros de ~20x. En dispositivos móviles como el iPhone 15 Pro Max, nuestros EfficientTAMs pueden ejecutarse a ~10 FPS para realizar la segmentación de objetos en video con calidad razonable, resaltando la capacidad de modelos pequeños para aplicaciones de segmentación de objetos en video en dispositivos.
Los modelos de difusión (DMs) destacan en fotorealismo, edición de imágenes y resolución de problemas inversos, ayudados por orientación sin clasificadores y técnicas de inversión de imágenes. Sin embargo, los modelos de flujo rectificado (RFMs) siguen siendo poco explorados para estas tareas. Los métodos existentes basados en DM a menudo requieren entrenamiento adicional, carecen de generalización a modelos latentes preentrenados, tienen un rendimiento deficiente y demandan recursos computacionales significativos debido a la extensa retropropagación a través de solucionadores de EDO y procesos de inversión. En este trabajo, primero desarrollamos una comprensión teórica y empírica de la dinámica del campo vectorial de los RFMs en guiar eficientemente la trayectoria de eliminación de ruido. Nuestros hallazgos revelan que podemos navegar el campo vectorial de manera determinista y sin gradientes. Aprovechando esta propiedad, proponemos FlowChef, que utiliza el campo vectorial para dirigir la trayectoria de eliminación de ruido para tareas controladas de generación de imágenes, facilitada por saltos de gradiente. FlowChef es un marco unificado para la generación de imágenes controladas que, por primera vez, aborda simultáneamente la orientación de clasificadores, problemas inversos lineales y edición de imágenes sin necesidad de entrenamiento adicional, inversión o retropropagación intensiva. Finalmente, realizamos evaluaciones exhaustivas y mostramos que FlowChef supera significativamente a los baselines en términos de rendimiento, memoria y requisitos de tiempo, logrando nuevos resultados de vanguardia. Página del proyecto: https://flowchef.github.io.
El reciente aumento en muestras de ajuste de instrucciones visuales de alta calidad provenientes de modelos visión-lenguaje de código cerrado (VLMs) como GPT-4V ha acelerado la liberación de VLMs de código abierto en diversas tamaños de modelo. Sin embargo, escalar VLMs para mejorar el rendimiento utilizando modelos más grandes conlleva desafíos computacionales significativos, especialmente para su implementación en dispositivos con recursos limitados como plataformas móviles y robots. Para abordar esto, proponemos VLsI: Capas-Interacciones Verbalizadas, una nueva familia de VLMs en tamaños de modelo 2B y 7B, que prioriza la eficiencia sin comprometer la precisión. VLsI aprovecha un proceso de destilación único por capas, introduciendo "verbalizadores" intermedios que mapean características de cada capa al espacio del lenguaje natural, permitiendo que VLMs más pequeños se alineen de manera flexible con los procesos de razonamiento de VLMs más grandes. Este enfoque mitiga la inestabilidad de entrenamiento a menudo encontrada en la imitación de salidas y va más allá del ajuste típico de la capa final al alinear la progresión por capas de los VLMs pequeños con la de los grandes. Validamos VLsI en diez desafiantes benchmarks visión-lenguaje, logrando mejoras de rendimiento notables (11.0% para 2B y 17.4% para 7B) sobre GPT-4V sin necesidad de escalar, fusionar o realizar cambios arquitectónicos en el modelo.
Los Transformadores de Difusión han demostrado capacidades notables en la generación de imágenes, pero a menudo vienen con una excesiva parametrización, lo que resulta en una considerable sobrecarga de inferencia en aplicaciones del mundo real. En este trabajo, presentamos TinyFusion, un método de poda de profundidad diseñado para eliminar capas redundantes de los transformadores de difusión a través de un aprendizaje de extremo a extremo. El principio central de nuestro enfoque es crear un modelo podado con alta capacidad de recuperación, permitiéndole recuperar un rendimiento sólido después del ajuste fino. Para lograr esto, introducimos una técnica de muestreo diferenciable para hacer que la poda sea aprendible, emparejada con un parámetro co-optimizado para simular el ajuste fino futuro. Mientras que trabajos anteriores se centran en minimizar la pérdida o el error después de la poda, nuestro método modela y optimiza explícitamente el rendimiento posterior al ajuste fino de los modelos podados. Los resultados experimentales indican que este paradigma aprendible ofrece beneficios sustanciales para la poda de capas de los transformadores de difusión, superando a los métodos existentes basados en importancia y error. Además, TinyFusion muestra una fuerte generalización en diversas arquitecturas, como DiTs, MARs y SiTs. Experimentos con DiT-XL muestran que TinyFusion puede diseñar un transformador de difusión superficial por menos del 7% del costo de pre-entrenamiento, logrando una aceleración de 2 veces con una puntuación FID de 2.86, superando a competidores con eficiencia comparable. El código está disponible en https://github.com/VainF/TinyFusion.
La diferencia de rendimiento de los modelos de lenguaje grandes (LLM, por sus siglas en inglés) entre idiomas obstaculiza su despliegue efectivo en muchas regiones, limitando el potencial valor económico y social de las herramientas de IA generativa en muchas comunidades. Sin embargo, el desarrollo de LLMs funcionales en muchos idiomas (es decir, LLMs multilingües) se ve obstaculizado por la falta de recursos de evaluación de alta calidad en idiomas distintos al inglés. Además, las prácticas actuales en la construcción de bancos de pruebas multilingües a menudo traducen recursos en inglés, ignorando el conocimiento regional y cultural de los entornos en los que se utilizarían los sistemas multilingües. En este trabajo, construimos un conjunto de evaluación de 197,243 pares de preguntas y respuestas de fuentes locales de exámenes para medir las capacidades de los LLMs multilingües en una variedad de contextos regionales. Nuestro nuevo recurso, INCLUDE, es un banco de pruebas integral centrado en el conocimiento y el razonamiento en 44 idiomas escritos que evalúa el rendimiento de los LLMs multilingües en los entornos lingüísticos reales donde se desplegarían.
El Autoencoder Variacional de Video (VAE) codifica videos en un espacio latente de baja dimensión, convirtiéndose en un componente clave de la mayoría de los Modelos de Difusión de Video Latente (LVDM) para reducir los costos de entrenamiento del modelo. Sin embargo, a medida que aumenta la resolución y la duración de los videos generados, el costo de codificación de los VAE de Video se convierte en un cuello de botella limitante en el entrenamiento de los LVDM. Además, el método de inferencia por bloques adoptado por la mayoría de los LVDM puede llevar a discontinuidades en el espacio latente al procesar videos de larga duración. La clave para abordar el cuello de botella computacional radica en descomponer los videos en componentes distintos y codificar eficientemente la información crítica. La transformada wavelet puede descomponer videos en múltiples componentes en el dominio de frecuencia y mejorar significativamente la eficiencia, por lo tanto, proponemos el Autoencoder de Flujo Wavelet VAE (WF-VAE), un autoencoder que aprovecha la transformada wavelet de múltiples niveles para facilitar el flujo de energía de baja frecuencia hacia la representación latente. Además, presentamos un método llamado Causal Cache, que mantiene la integridad del espacio latente durante la inferencia por bloques. En comparación con los VAEs de video de última generación, WF-VAE demuestra un rendimiento superior en métricas tanto de PSNR como de LPIPS, logrando una mayor capacidad de procesamiento y un menor consumo de memoria, manteniendo al mismo tiempo una calidad de reconstrucción competitiva. Nuestro código y modelos están disponibles en https://github.com/PKU-YuanGroup/WF-VAE.
Las preocupaciones de seguridad de los Modelos de Lenguaje Multimodales Grandes (MLLMs, por sus siglas en inglés) han ido adquiriendo gradualmente importancia en diversas aplicaciones. Sorprendentemente, trabajos anteriores indican un fenómeno contra intuitivo en el que el desaprendizaje textual para alinear MLLMs logra un rendimiento de seguridad comparable con MLLMs entrenados con pares de imagen-texto. Para explicar tal fenómeno contra intuitivo, descubrimos un problema de fuga de información visual de seguridad (VSIL, por sus siglas en inglés) en los benchmarks de seguridad multimodales existentes, es decir, el contenido potencialmente arriesgado y sensible en la imagen se ha revelado en la consulta textual. De esta manera, los MLLMs pueden rechazar fácilmente estas consultas sensibles de texto-imagen de acuerdo a las consultas textuales. Sin embargo, los pares de imagen-texto sin VSIL son comunes en escenarios del mundo real y son pasados por alto por los benchmarks de seguridad multimodales existentes. Con este fin, construimos un benchmark de seguridad visual multimodal sin fugas (VLSBench) que evita la fuga de seguridad visual de la imagen a la consulta textual con 2.4k pares de imagen-texto. Los resultados experimentales indican que VLSBench plantea un desafío significativo tanto para MLLMs de código abierto como de código cerrado, incluyendo LLaVA, Qwen2-VL, Llama3.2-Vision y GPT-4o. Este estudio demuestra que el alineamiento textual es suficiente para escenarios de seguridad multimodal con VSIL, mientras que el alineamiento multimodal es una solución más prometedora para escenarios de seguridad multimodal sin VSIL. Por favor, consulte nuestro código y datos en: http://hxhcreate.github.io/VLSBench
Presentamos Presto, un nuevo modelo de difusión de video diseñado para generar videos de 15 segundos con coherencia de largo alcance y contenido rico. Extender los métodos de generación de video para mantener la diversidad de escenarios durante largas duraciones presenta desafíos significativos. Para abordar esto, proponemos una estrategia de Atención Cruzada Segmentada (SCA), que divide los estados ocultos en segmentos a lo largo de la dimensión temporal, permitiendo que cada segmento atienda cruzadamente a una subleyenda correspondiente. SCA no requiere parámetros adicionales, lo que permite su incorporación sin problemas en las arquitecturas basadas en DiT actuales. Para facilitar la generación de videos largos de alta calidad, creamos el conjunto de datos LongTake-HD, que consta de 261k videos ricos en contenido con coherencia de escenario, anotados con una leyenda de video general y cinco sub-leyendas progresivas. Los experimentos muestran que nuestro Presto logra un 78.5% en la Puntuación Semántica de VBench y un 100% en el Grado Dinámico, superando a los métodos de generación de video de vanguardia existentes. Esto demuestra que nuestro Presto propuesto mejora significativamente la riqueza de contenido, mantiene la coherencia de largo alcance y captura detalles textuales intrincados. Más detalles se muestran en nuestra página del proyecto: https://presto-video.github.io/.
Exploramos la pregunta: "¿Cuánto conocimiento de arte previo se necesita para crear arte?" Para investigar esto, proponemos un modelo de generación de texto a imagen entrenado sin acceso a contenido relacionado con el arte. Luego introducimos un método simple pero efectivo para aprender un adaptador de arte utilizando solo algunos ejemplos de estilos artísticos seleccionados. Nuestros experimentos muestran que el arte generado utilizando nuestro método es percibido por los usuarios como comparable al arte producido por modelos entrenados en conjuntos de datos grandes y ricos en arte. Finalmente, a través de técnicas de atribución de datos, ilustramos cómo ejemplos de conjuntos de datos artísticos y no artísticos contribuyeron a la creación de nuevos estilos artísticos.
Los errores en la comprensión de la información visual en imágenes (es decir, errores de percepción visual) siguen siendo una fuente importante de errores en los Modelos de Lenguaje de Visión Amplia (LVLMs). Si bien es esencial un análisis más profundo, existe una deficiencia en los conjuntos de datos para evaluar la percepción visual de los LVLMs. En este trabajo, presentamos VisOnlyQA, un nuevo conjunto de datos diseñado para evaluar directamente las capacidades de percepción visual de los LVLMs en preguntas sobre información geométrica y numérica en figuras científicas. Nuestro conjunto de datos nos permite analizar la percepción visual de los LVLMs para información visual detallada, independientemente de otras capacidades como el razonamiento. El conjunto de evaluación de VisOnlyQA incluye 1,200 preguntas de opción múltiple en 12 tareas sobre cuatro categorías de figuras. También proporcionamos datos de entrenamiento sintéticos que consisten en 70k instancias. Nuestros experimentos en VisOnlyQA resaltan los siguientes hallazgos: (i) 20 LVLMs que evaluamos, incluidos GPT-4o y Gemini 1.5 Pro, funcionan mal en las tareas de percepción visual en VisOnlyQA, mientras que el rendimiento humano es casi perfecto. (ii) El ajuste fino en datos de entrenamiento sintéticos demuestra el potencial para mejorar la percepción visual de los LVLMs, pero las mejoras observadas están limitadas a ciertas tareas y modelos específicos. (iii) Modelos de lenguaje más sólidos mejoran la percepción visual de los LVLMs. En resumen, nuestros experimentos sugieren que tanto los datos de entrenamiento como las arquitecturas de modelos deben mejorarse para potenciar las capacidades de percepción visual de los LVLMs. Los conjuntos de datos, código y respuestas del modelo se proporcionan en https://github.com/psunlpgroup/VisOnlyQA.
Los recientes avances en modelos de lenguaje basados en video (Video LLMs) han presenciado la aparición de diversas capacidades para razonar e interpretar contenido visual dinámico. Entre ellos, los videos de juegos destacan como una fuente de datos distintiva, a menudo conteniendo fallas que desafían el sentido común de la física. Esta característica los convierte en un banco de pruebas efectivo para evaluar la capacidad poco explorada de comprensión del sentido común físico en los Video LLMs. En este documento, proponemos PhysGame como un banco de pruebas pionero para evaluar violaciones del sentido común físico en videos de juegos. PhysGame consta de 880 videos asociados con fallas que abarcan cuatro dominios fundamentales (es decir, mecánica, cinemática, óptica y propiedades de los materiales) y abarcan 12 sentidos comunes físicos distintos. A través de la evaluación exhaustiva de varios Video LLMs de última generación, nuestros hallazgos revelan que el rendimiento de los Video LLMs de código abierto actuales se encuentra significativamente rezagado con respecto a sus contrapartes propietarias. Para cerrar esta brecha, creamos un conjunto de datos de ajuste de instrucciones, PhysInstruct, con 140,057 pares de preguntas y respuestas para facilitar el aprendizaje del sentido común físico. Además, también proponemos un conjunto de datos de optimización de preferencias, PhysDPO, con 34,358 pares de entrenamiento, donde las respuestas no preferidas se generan condicionadas a títulos engañosos (es decir, hackeo de información meta), menos fotogramas (es decir, hackeo temporal) y menores resoluciones espaciales (es decir, hackeo espacial). Basándonos en la serie de conjuntos de datos, proponemos PhysVLM como un Video LLM mejorado con conocimiento físico. Experimentos extensos tanto en el banco de pruebas orientado físicamente PhysGame como en bancos de pruebas generales de comprensión de video demuestran el rendimiento de vanguardia de PhysVLM.
Proponemos un algoritmo general de dos etapas que disfruta de una ley de escalado demostrable para el cálculo en tiempo de prueba de grandes modelos de lenguaje (LLMs). Dado un problema de entrada, el algoritmo propuesto primero genera N soluciones candidatas, y luego elige la mejor a través de un torneo de eliminación múltiple en el que cada par de candidatos se compara K veces y solo los ganadores avanzan a la siguiente ronda. En una implementación minimalista, ambas etapas pueden ejecutarse solo con un LLM de caja negra y nada más (por ejemplo, sin verificador externo o modelo de recompensa), y se necesitan un total de N veces (K + 1) llamadas altamente paralelizables al LLM para resolver un problema de entrada. Suponiendo que una solución candidata generada es correcta con una probabilidad p_{gen} > 0 y que una comparación entre un par de soluciones correctas e incorrectas identifica al ganador correcto con una probabilidad p_{comp} > 0.5 (es decir, mejor que una suposición aleatoria), demostramos teóricamente que la probabilidad de falla del algoritmo propuesto decae exponencialmente a cero con respecto a N y K: $P(final output is incorrect) le (1 - p_{gen})^N + lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}.$ Nuestros resultados empíricos con el desafiante banco de pruebas MMLU-Pro validan las suposiciones técnicas, así como la eficacia del algoritmo propuesto y las ganancias al escalar su cálculo en tiempo de prueba.
Las tareas existentes de navegación de objetivos de instancia encarnada, impulsadas por lenguaje natural, asumen que los usuarios humanos proporcionan descripciones de instancia completas y matizadas antes de la navegación, lo cual puede resultar poco práctico en el mundo real, ya que las instrucciones humanas podrían ser breves y ambiguas. Para cerrar esta brecha, proponemos una nueva tarea, Navegación de Instancia Colaborativa (CoIN), con interacción dinámica agente-humano durante la navegación para resolver activamente las incertidumbres sobre la instancia objetivo en diálogos naturales, sin plantillas y abiertos. Para abordar CoIN, proponemos un método novedoso, Interacción Agente-Usuario con Conciencia de Incertidumbre (AIUTA), aprovechando la capacidad de percepción de Modelos de Lenguaje Visual (VLMs) y la capacidad de Modelos de Lenguaje Grandes (LLMs). Primero, tras la detección de objetos, un modelo Auto-Cuestionador inicia un auto-diálogo para obtener una descripción de observación completa y precisa, mientras una técnica novedosa de estimación de incertidumbre mitiga la percepción inexacta de VLM. Luego, un módulo de Disparador de Interacción determina si hacer una pregunta al usuario, continuar o detener la navegación, minimizando la entrada del usuario. Para la evaluación, presentamos CoIN-Bench, un banco de pruebas que soporta tanto humanos reales como simulados. AIUTA logra un rendimiento competitivo en la navegación de instancias frente a métodos de vanguardia, demostrando una gran flexibilidad en el manejo de las entradas de usuario.
Los recientes avances en modelos de difusión han establecido nuevos estándares en la generación de imágenes y vídeos, permitiendo una síntesis visual realista a lo largo de contextos de cuadros únicos y múltiples. Sin embargo, estos modelos aún tienen dificultades para generar contenido 3D de manera eficiente y explícita. Para abordar esto, proponemos Difusión de Vídeo Consistente con el Mundo (WVD, por sus siglas en inglés), un marco novedoso que incorpora una supervisión 3D explícita utilizando imágenes XYZ, las cuales codifican coordenadas 3D globales para cada píxel de la imagen. Más específicamente, entrenamos un transformador de difusión para aprender la distribución conjunta de cuadros RGB y XYZ. Este enfoque soporta adaptabilidad multi-tarea a través de una estrategia de rellenado flexible. Por ejemplo, WVD puede estimar cuadros XYZ a partir de cuadros RGB de verdad o generar nuevos cuadros RGB utilizando proyecciones XYZ a lo largo de una trayectoria de cámara especificada. Al hacerlo, WVD unifica tareas como generación de imagen única a 3D, estéreo de múltiples vistas y generación de vídeo controlado por cámara. Nuestro enfoque demuestra un rendimiento competitivo en múltiples estándares, proporcionando una solución escalable para la generación de vídeo e imagen consistente en 3D con un único modelo preentrenado.
Hacer analogías es fundamental para la cognición. Las analogías proporcionales, que constan de cuatro términos, se utilizan a menudo para evaluar habilidades lingüísticas y cognitivas. Por ejemplo, completar analogías como "El oxígeno es a Gas como <en blanco> es a <en blanco>" requiere identificar la relación semántica (por ejemplo, "tipo de") entre el primer par de términos ("Oxígeno" y "Gas") y encontrar un segundo par que comparta la misma relación (por ejemplo, "Aluminio" y "Metal"). En este trabajo, presentamos un conjunto de datos de Preguntas y Respuestas de Opción Múltiple (MCQA) de 15K para la finalización de analogías proporcionales y evaluamos el rendimiento de los Modelos de Lenguaje Grande (LLMs) contemporáneos en varios entornos de indicaciones mejoradas con conocimiento. Específicamente, aumentamos las indicaciones con tres tipos de conocimiento: ejemplar, estructurado y dirigido. Nuestros resultados muestran que a pesar de los extensos datos de entrenamiento, resolver analogías proporcionales sigue siendo un desafío para los LLMs actuales, con el mejor modelo logrando una precisión del 55%. Notablemente, encontramos que proporcionar conocimiento dirigido puede ayudar mejor a los modelos a completar analogías proporcionales en comparación con proporcionar ejemplos o colecciones de conocimiento estructurado.
En las últimas décadas, los algoritmos de conducción autónoma han avanzado significativamente en percepción, planificación y control. Sin embargo, evaluar componentes individuales no refleja completamente el rendimiento de sistemas enteros, lo que destaca la necesidad de métodos de evaluación más holísticos. Esto motiva el desarrollo de HUGSIM, un simulador cerrado, fotorrealista y en tiempo real para evaluar algoritmos de conducción autónoma. Logramos esto elevando imágenes RGB 2D capturadas al espacio 3D a través de la técnica de "Gaussian Splatting" en 3D, mejorando la calidad de renderizado para escenarios cerrados y construyendo el entorno de bucle cerrado. En cuanto al renderizado, abordamos desafíos de síntesis de vista novedosa en escenarios de bucle cerrado, incluyendo la extrapolación de puntos de vista y el renderizado de vehículos a 360 grados. Más allá de la síntesis de vista novedosa, HUGSIM permite además el bucle de simulación cerrado completo, actualizando dinámicamente los estados y observaciones del ego y los actores basados en comandos de control. Además, HUGSIM ofrece un benchmark integral que abarca más de 70 secuencias de KITTI-360, Waymo, nuScenes y PandaSet, junto con más de 400 escenarios variables, proporcionando una plataforma de evaluación justa y realista para los algoritmos de conducción autónoma existentes. HUGSIM no solo sirve como un benchmark de evaluación intuitivo, sino que también desbloquea el potencial para ajustar finamente los algoritmos de conducción autónoma en un entorno fotorrealista de bucle cerrado.
Lograr una alineación precisa entre las instrucciones textuales y las imágenes generadas en la generación de texto a imagen es un desafío significativo, especialmente en la representación del texto escrito dentro de las imágenes. Modelos de vanguardia como Stable Diffusion 3 (SD3), Flux y AuraFlow aún tienen dificultades con la representación precisa del texto, lo que resulta en errores ortográficos o texto inconsistente. Introducimos un método sin entrenamiento con un mínimo sobrecosto computacional que mejora significativamente la calidad de representación del texto. Específicamente, presentamos un muestreador de sobrepaso para modelos de flujo rectificado (RF) preentrenados, alternando entre sobresimular la ecuación diferencial ordinaria (ODE) aprendida y reintroducir ruido. En comparación con el muestreador de Euler, el muestreador de sobrepaso introduce efectivamente un término adicional de dinámica de Langevin que puede ayudar a corregir el error acumulativo de los pasos sucesivos de Euler y, por lo tanto, mejorar la representación del texto. Sin embargo, cuando la fuerza de sobrepaso es alta, observamos artefactos de suavizado excesivo en las imágenes generadas. Para abordar este problema, proponemos un muestreador de Sobrepaso Modulado por Atención (AMO), que controla de manera adaptativa la fuerza de sobrepaso para cada parche de imagen según su puntuación de atención con el contenido del texto. AMO demuestra una mejora del 32,3% y 35,9% en la precisión de representación del texto en SD3 y Flux sin comprometer la calidad general de la imagen o aumentar el costo de inferencia.
La detección de contenido abusivo en línea, especialmente en entornos con recursos limitados y dentro de la modalidad de audio, sigue siendo poco explorada. Investigamos el potencial de representaciones de audio pre-entrenadas para detectar lenguaje abusivo en idiomas con recursos limitados, en este caso, en idiomas indios utilizando Aprendizaje con Pocas Muestras (FSL). Aprovechando representaciones potentes de modelos como Wav2Vec y Whisper, exploramos la detección de abuso entre idiomas mediante el conjunto de datos ADIMA con FSL. Nuestro enfoque integra estas representaciones dentro del marco de Aprendizaje Meta-Agnóstico de Modelos (MAML) para clasificar lenguaje abusivo en 10 idiomas. Experimentamos con varios tamaños de muestra (50-200) evaluando el impacto de datos limitados en el rendimiento. Además, se realizó un estudio de visualización de características para comprender mejor el comportamiento del modelo. Este estudio destaca la capacidad de generalización de los modelos pre-entrenados en escenarios con recursos limitados y ofrece ideas valiosas para detectar lenguaje abusivo en contextos multilingües.
Un sistema de verificación de locutor (SV) ofrece un servicio de autenticación diseñado para confirmar si una muestra de habla dada proviene de un locutor específico. Esta tecnología ha allanado el camino para diversas aplicaciones personalizadas que se adaptan a las preferencias individuales. Un desafío notable enfrentado por los sistemas SV es su capacidad para desempeñarse de manera consistente en una variedad de espectros emocionales. La mayoría de los modelos existentes muestran altas tasas de error al tratar con enunciados emocionales en comparación con los neutrales. En consecuencia, este fenómeno a menudo conduce a perder el habla de interés. Este problema se origina principalmente en la disponibilidad limitada de datos de habla emocional etiquetados, obstaculizando el desarrollo de representaciones robustas de locutores que abarquen diversos estados emocionales. Para abordar esta preocupación, proponemos un enfoque novedoso que emplea el marco de CycleGAN para servir como un método de aumento de datos. Esta técnica sintetiza segmentos de habla emocional para cada locutor específico mientras preserva la identidad vocal única. Nuestros hallazgos experimentales subrayan la efectividad de incorporar datos emocionales sintéticos en el proceso de entrenamiento. Los modelos entrenados utilizando este conjunto de datos aumentado superan consistentemente a los modelos base en la tarea de verificar locutores en escenarios de habla emocional, reduciendo la tasa de error igual en hasta un 3.64% en comparación.