Artículos de investigación en IA seleccionados diariamente con traducciones
PaliGemma es un Modelo Abierto de Visión-Lenguaje (VLM) que se basa en el codificador de visión SigLIP-So400m y el modelo de lenguaje Gemma-2B. Está entrenado para ser un modelo base versátil y ampliamente informado que es efectivo para la transferencia. Logra un rendimiento sólido en una amplia variedad de tareas de mundo abierto. Evaluamos PaliGemma en casi 40 tareas diversas que incluyen benchmarks estándar de VLM, pero también tareas más especializadas como teledetección y segmentación.
Los modelos de lenguaje de gran escala (LLMs) han demostrado un rendimiento excepcional y un vasto potencial en diversas tareas. Sin embargo, la implementación de LLMs con alto rendimiento en entornos de recursos limitados ha suscitado una atención significativa en la industria. Cuando los recursos de hardware de GPU son limitados, podemos explorar opciones alternativas en CPUs. Para mitigar la carga financiera y aliviar las restricciones impuestas por los recursos de hardware, es necesario optimizar el rendimiento de inferencia. En este documento, presentamos una solución de optimización de rendimiento de inferencia fácilmente desplegable destinada a acelerar LLMs en CPUs. En esta solución, implementamos una forma efectiva de reducir el tamaño de la caché KV mientras se garantiza la precisión. Proponemos un enfoque de optimización de inferencia distribuida e implementamos basándonos en la Biblioteca de Comunicaciones Colectivas oneAPI. Además, proponemos enfoques de optimización para LLMs en CPU y realizamos optimizaciones personalizadas para los modelos más comúnmente utilizados. El código está disponible en https://github.com/intel/xFasterTransformer.
La sintonización visual de instrucciones ha avanzado considerablemente en mejorar las capacidades de los Modelos Multimodales Grandes (LMMs). Sin embargo, los LMMs abiertos existentes se centran principalmente en tareas de imagen única, y sus aplicaciones en escenarios de múltiples imágenes siguen siendo poco exploradas. Además, la investigación previa de LMM aborda por separado diferentes escenarios, lo que hace imposible generalizar entre escenarios con nuevas capacidades emergentes. Con este fin, presentamos LLaVA-NeXT-Interleave, que aborda simultáneamente escenarios de Multi-imagen, Multi-cuadro (video), Multi-vista (3D) y Multi-parche (imagen única) en LMMs. Para habilitar estas capacidades, consideramos el formato de datos entrelazados como una plantilla general y compilamos el conjunto de datos M4-Instruct con 1,177.6k muestras, abarcando 4 dominios principales con 14 tareas y 41 conjuntos de datos. También creamos el Banco de Pruebas LLaVA-Interleave para evaluar de manera integral el rendimiento de múltiples imágenes de los LMMs. A través de experimentos extensos, LLaVA-NeXT-Interleave logra resultados líderes en benchmarks de multi-imagen, video y 3D, manteniendo el rendimiento de tareas de imagen única. Además, nuestro modelo también muestra varias capacidades emergentes, como transferir tareas entre diferentes configuraciones y modalidades. El código está disponible en https://github.com/LLaVA-VL/LLaVA-NeXT
Presentamos 4DiM, un modelo de difusión en cascada para la síntesis de vistas novedosas en 4D (NVS), condicionado a una o más imágenes de una escena general, y un conjunto de poses de cámara y marcas de tiempo. Para superar los desafíos debido a la disponibilidad limitada de datos de entrenamiento en 4D, abogamos por el entrenamiento conjunto en datos 3D (con pose de cámara), 4D (pose+tiempo) y video (tiempo pero sin pose) y proponemos una nueva arquitectura que lo permite. Además, abogamos por la calibración de datos de SfM con poses utilizando estimadores métricos de profundidad monoculares para el control de la escala métrica de la cámara. Para la evaluación del modelo, introducimos nuevas métricas para enriquecer y superar las deficiencias de los esquemas de evaluación actuales, demostrando resultados de vanguardia tanto en fidelidad como en control de pose en comparación con los modelos de difusión existentes para NVS en 3D, al mismo tiempo que añadimos la capacidad de manejar dinámicas temporales. 4DiM también se utiliza para una mejor unión de panoramas, traducción de video a video condicionada por la pose, y varias otras tareas. Para obtener más información, consulte https://4d-diffusion.github.io
La generación de contenido de audio semántica y temporalmente alineado de acuerdo con la entrada de video se ha convertido en un punto focal para los investigadores, especialmente después del notable avance en la generación de texto a video. En este trabajo, nuestro objetivo es ofrecer ideas sobre el paradigma de generación de video a audio, centrándonos en tres aspectos cruciales: codificadores de visión, incrustaciones auxiliares y técnicas de aumento de datos. Comenzando con un modelo fundamental VTA-LDM construido sobre una intuición simple pero sorprendentemente efectiva, exploramos varios codificadores de visión e incrustaciones auxiliares a través de estudios de ablación. Empleando un pipeline de evaluación integral que enfatiza la calidad de generación y la alineación de sincronización de video y audio, demostramos que nuestro modelo exhibe capacidades de generación de video a audio de última generación. Además, proporcionamos ideas críticas sobre el impacto de diferentes métodos de aumento de datos en la mejora de la capacidad general del marco de generación. Mostramos posibilidades para avanzar en el desafío de generar audio sincronizado desde perspectivas semánticas y temporales. Esperamos que estas ideas sirvan como un trampolín hacia el desarrollo de modelos de generación audiovisual más realistas y precisos.
Presentamos VEnhancer, un marco generativo de mejora espacio-temporal que mejora los resultados existentes de texto a video al agregar más detalles en el dominio espacial y un movimiento detallado sintético en el dominio temporal. Dado un video de baja calidad generado, nuestro enfoque puede aumentar simultáneamente su resolución espacial y temporal con escalas de muestreo arbitrarias en espacio y tiempo a través de un modelo unificado de difusión de video. Además, VEnhancer elimina de manera efectiva los artefactos espaciales generados y el parpadeo temporal de los videos generados. Para lograr esto, basándonos en un modelo de difusión de video preentrenado, entrenamos un ControlNet de video e inyectamos este al modelo de difusión como una condición en videos de baja velocidad de cuadros y baja resolución. Para entrenar de manera efectiva este ControlNet de video, diseñamos una ampliación de datos espacio-temporales, así como una condicionante consciente del video. Beneficiándose de los diseños anteriores, VEnhancer resulta ser estable durante el entrenamiento y comparte un elegante método de entrenamiento de extremo a extremo. Experimentos extensos muestran que VEnhancer supera a los métodos existentes de súper resolución de video y súper resolución espacio-temporal de última generación en la mejora de videos generados por IA. Además, con VEnhancer, el método de texto a video de última generación de código abierto existente, VideoCrafter-2, alcanza el primer lugar en la referencia de generación de video -- VBench.
La personalización de modelos de texto a imagen (T2I) ha experimentado un tremendo progreso recientemente, especialmente en áreas como la personalización, la estilización y la generación condicional. Sin embargo, expandir este progreso a la generación de videos aún está en pañales, principalmente debido a la falta de datos de video personalizados. En este trabajo, presentamos Still-Moving, un nuevo marco genérico para personalizar un modelo de texto a video (T2V), sin necesidad de datos de video personalizados. El marco se aplica al diseño prominente T2V donde el modelo de video se construye sobre un modelo de texto a imagen (T2I) (por ejemplo, a través de la inflación). Suponemos acceso a una versión personalizada del modelo T2I, entrenado solo con datos de imágenes fijas (por ejemplo, utilizando DreamBooth o StyleDrop). Simplemente enchufar los pesos del modelo T2I personalizado en el modelo T2V a menudo conduce a artefactos significativos o una adhesión insuficiente a los datos de personalización. Para superar este problema, entrenamos Adaptadores Espaciales livianos que ajustan las características producidas por las capas T2I inyectadas. Es importante destacar que nuestros adaptadores se entrenan en "videos congelados" (es decir, imágenes repetidas), construidos a partir de muestras de imágenes generadas por el modelo T2I personalizado. Este entrenamiento es facilitado por un módulo Adaptador de Movimiento novedoso, que nos permite entrenar en tales videos estáticos mientras se preserva la prioridad de movimiento del modelo de video. En el momento de la prueba, eliminamos los módulos Adaptador de Movimiento y dejamos solo los Adaptadores Espaciales entrenados. Esto restaura la prioridad de movimiento del modelo T2V mientras se adhiere a la prioridad espacial del modelo T2I personalizado. Demostramos la efectividad de nuestro enfoque en diversas tareas, incluyendo generación personalizada, estilizada y condicional. En todos los escenarios evaluados, nuestro método integra perfectamente la prioridad espacial del modelo T2I personalizado con una prioridad de movimiento suministrada por el modelo T2V.
Se dice que los modelos de lenguaje preentrenados a gran escala carecen de la capacidad de "conectar enunciados con el mundo" (Bender y Koller, 2020), ya que no tienen "modelos mentales del mundo" (Mitchell y Krakauer, 2023). Si es así, se esperaría que las representaciones de los modelos de lenguaje no estén relacionadas con las representaciones inducidas por los modelos de visión. Presentamos una evaluación empírica en cuatro familias de modelos de lenguaje (BERT, GPT-2, OPT y LLaMA-2) y tres arquitecturas de modelos de visión (ResNet, SegFormer y MAE). Nuestros experimentos muestran que los modelos de lenguaje convergen parcialmente hacia representaciones isomórficas a las de los modelos de visión, sujetas a dispersión, polisemia y frecuencia. Esto tiene implicaciones importantes tanto para el procesamiento multimodal como para el debate sobre la comprensión de los modelos de lenguaje (Mitchell y Krakauer, 2023).
Los modelos existentes de aprendizaje contrastivo visión-texto mejoran la transferibilidad de representaciones y respaldan la predicción de cero disparando emparejamientos de incrustaciones de imágenes y subtítulos, mientras separan los pares no relacionados. Sin embargo, los conjuntos de datos de imágenes-etiquetas astronómicas son significativamente más pequeños en comparación con los conjuntos de datos generales de imágenes y etiquetas disponibles en internet. Presentamos CosmoCLIP, un marco de aprendizaje contrastivo imagen-texto astronómico afinado con precisión en el modelo preentrenado CLIP utilizando SpaceNet y descripciones basadas en BLIP. SpaceNet, obtenido a través de FLARE, consta de aproximadamente ~13k imágenes distribuidas de manera óptima, mientras que BLIP actúa como un extractor de conocimiento rico. Las ricas semánticas derivadas de estas descripciones de SpaceNet y BLIP, cuando se aprenden de manera contrastiva, permiten que CosmoCLIP logre una generalización superior en diversas tareas dentro y fuera del dominio. Nuestros resultados demuestran que CosmoCLIP es un marco sencillo pero potente, superando significativamente a CLIP en clasificación de cero disparo y tareas de recuperación de imagen-texto.
En este documento consideramos la contaminación por conjuntos de pruebas generados por código, en particular en su uso en modelos de lenguaje grandes modernos. Discutimos tres posibles fuentes de dicha contaminación y mostramos hallazgos que respaldan cada una de ellas: (i) fuga directa de datos, (ii) fuga indirecta de datos a través del uso de datos sintéticos y (iii) sobreajuste a conjuntos de evaluación durante la selección del modelo. Clave en nuestros hallazgos es un nuevo conjunto de datos de 161 indicaciones con sus soluciones de Python asociadas, conjunto de datos que se encuentra disponible en https://huggingface.co/datasets/CohereForAI/lbpp.
Proponemos un método de aprendizaje de robots para comunicar, planificar y ejecutar una amplia gama de tareas, denominado Esto y Aquello. Logramos la planificación de robots para tareas generales aprovechando el poder de modelos generativos de video entrenados en datos a escala de internet que contienen un contexto físico y semántico rico. En este trabajo, abordamos tres desafíos fundamentales en la planificación basada en video: 1) comunicación de tareas inequívoca con instrucciones simples para humanos, 2) generación de video controlable que respete las intenciones del usuario, y 3) traducción de la planificación visual en acciones de robots. Proponemos el condicionamiento de lenguaje y gestos para generar videos, lo cual es más simple y claro que los métodos existentes basados solo en lenguaje, especialmente en entornos complejos e inciertos. Luego, sugerimos un diseño de clonación de comportamiento que incorpora sin problemas los planes de video. Esto y Aquello demuestra una efectividad de vanguardia para abordar los tres desafíos mencionados anteriormente, y justifica el uso de la generación de video como una representación intermedia para la planificación y ejecución de tareas generalizables. Sitio web del proyecto: https://cfeng16.github.io/this-and-that/.
Entrenar un clasificador en datos obtenidos mediante rastreo web requiere algoritmos de aprendizaje que sean robustos a errores de anotación y ejemplos irrelevantes. Este artículo se basa en la reciente observación empírica de que aplicar aprendizaje contrastivo no supervisado a conjuntos de datos ruidosos obtenidos mediante rastreo web produce una representación de características en la que las muestras en distribución (ID) y fuera de distribución (OOD) son linealmente separables. Mostramos que la estimación directa del hiperplano separador puede ofrecer una detección precisa de las muestras OOD, y sin embargo, sorprendentemente, esta detección no se traduce en mejoras en la precisión de la clasificación. Profundizando en este fenómeno, descubrimos que la detección casi perfecta pasa por alto un tipo de ejemplos limpios que son valiosos para el aprendizaje supervisado. Estos ejemplos a menudo representan imágenes visualmente simples, que son relativamente fáciles de identificar como ejemplos limpios utilizando métodos estándar basados en pérdida o distancia a pesar de estar pobremente separados de la distribución OOD mediante el aprendizaje no supervisado. Dado que observamos además una baja correlación con las métricas de estado del arte (SOTA), esto nos lleva a proponer una solución híbrida que alterna entre la detección de ruido mediante separación lineal y un enfoque de baja pérdida de vanguardia (SOTA). Al combinarlo con el algoritmo SOTA PLS, mejoramos sustancialmente los resultados SOTA para la clasificación de imágenes del mundo real en presencia de ruido web en github.com/PaulAlbert31/LSA
Presentamos BiGym, un nuevo banco de pruebas y entorno de aprendizaje para la manipulación robótica demostrada móvil bi-manual. BiGym incluye 40 tareas diversas ambientadas en entornos domésticos, que van desde alcanzar objetivos simples hasta limpiar cocinas complejas. Para capturar con precisión el rendimiento del mundo real, proporcionamos demostraciones recopiladas por humanos para cada tarea, reflejando las diversas modalidades encontradas en las trayectorias de robots del mundo real. BiGym admite una variedad de observaciones, incluidos datos propioceptivos e entradas visuales como RGB y profundidad desde 3 vistas de cámara. Para validar la usabilidad de BiGym, evaluamos exhaustivamente los algoritmos de aprendizaje por imitación de vanguardia y los algoritmos de aprendizaje por refuerzo demostrado dentro del entorno y discutimos las oportunidades futuras.
La generación de movimiento de multitudes es esencial en industrias del entretenimiento como la animación y los videojuegos, así como en campos estratégicos como la simulación urbana y la planificación. Esta nueva tarea requiere una integración intrincada de control y generación para sintetizar de manera realista la dinámica de multitudes bajo restricciones espaciales y semánticas específicas, cuyos desafíos aún no han sido completamente explorados. Por un lado, los modelos existentes de generación de movimiento humano suelen centrarse en comportamientos individuales, descuidando las complejidades de los comportamientos colectivos. Por otro lado, los métodos recientes para la generación de movimiento de múltiples personas dependen en gran medida de escenarios predefinidos y están limitados a un número fijo y pequeño de interacciones entre personas, lo que dificulta su practicidad. Para superar estos desafíos, presentamos CrowdMoGen, un marco de trabajo impulsado por texto de cero disparos que aprovecha el poder de los Modelos de Lenguaje Grande (LLM) para incorporar la inteligencia colectiva en el marco de generación de movimiento como guía, permitiendo así la planificación y generación generalizables de movimientos de multitudes sin datos de entrenamiento emparejados. Nuestro marco de trabajo consta de dos componentes clave: 1) Planificador de Escena de Multitudes que aprende a coordinar movimientos y dinámicas según contextos de escena específicos o perturbaciones introducidas, y 2) Generador de Movimiento Colectivo que sintetiza eficientemente los movimientos colectivos requeridos en función de los planes holísticos. Experimentos cuantitativos y cualitativos extensos han validado la efectividad de nuestro marco de trabajo, que no solo llena una brecha crítica al proporcionar soluciones escalables y generalizables para la tarea de Generación de Movimiento de Multitudes, sino que también logra altos niveles de realismo y flexibilidad.