Artículos de investigación en IA seleccionados diariamente con traducciones
El auge de los modelos de lenguaje grandes (LLMs) y el ajuste por instrucciones ha dado lugar a la tendencia actual de modelos grandes de lenguaje y visión ajustados por instrucciones (LLVMs). Esta tendencia implica ya sea la meticulosa curación de numerosos conjuntos de datos de ajuste por instrucciones adaptados a objetivos específicos o la ampliación de los LLVMs para manejar grandes cantidades de datos de lenguaje visual (VL). Sin embargo, los LLVMs actuales han ignorado la comprensión detallada y exhaustiva del mundo real disponible a partir de modelos especializados de visión por computadora (CV) en tareas de percepción visual como segmentación, detección, generación de grafos de escenas (SGG) y reconocimiento óptico de caracteres (OCR). En su lugar, los LLVMs existentes dependen principalmente de la gran capacidad y las capacidades emergentes de sus backbones de LLM. Por lo tanto, presentamos un nuevo LLVM, Mezcla de Toda la Inteligencia (MoAI), que aprovecha la información visual auxiliar obtenida de las salidas de modelos externos de segmentación, detección, SGG y OCR. MoAI opera a través de dos módulos recién introducidos: MoAI-Compressor y MoAI-Mixer. Después de verbalizar las salidas de los modelos externos de CV, el MoAI-Compressor las alinea y condensa para utilizar de manera eficiente la información visual auxiliar relevante en tareas de VL. Luego, el MoAI-Mixer combina tres tipos de inteligencia: (1) características visuales, (2) características auxiliares de los modelos externos de CV y (3) características de lenguaje, utilizando el concepto de Mezcla de Expertos. A través de esta integración, MoAI supera significativamente tanto a los LLVMs de código abierto como a los de código cerrado en numerosas tareas de VL de cero disparos, particularmente aquellas relacionadas con la comprensión de escenas del mundo real, como la existencia de objetos, posiciones, relaciones y OCR, sin necesidad de ampliar el tamaño del modelo o curar conjuntos de datos adicionales de ajuste por instrucciones visuales.
Presentamos Chronos, un marco simple pero efectivo para modelos probabilísticos de series temporales preentrenados. Chronos tokeniza los valores de las series temporales mediante escalado y cuantización en un vocabulario fijo, y entrena arquitecturas de modelos de lenguaje basados en transformadores sobre estas series temporales tokenizadas utilizando la pérdida de entropía cruzada. Preentrenamos modelos Chronos basados en la familia T5 (que van desde 20M hasta 710M parámetros) en una gran colección de conjuntos de datos disponibles públicamente, complementados por un conjunto de datos sintéticos que generamos mediante procesos gaussianos para mejorar la generalización. En un benchmark exhaustivo que consta de 42 conjuntos de datos, y que incluye tanto modelos locales clásicos como métodos de aprendizaje profundo, demostramos que los modelos Chronos: (a) superan significativamente a otros métodos en conjuntos de datos que formaron parte del corpus de entrenamiento; y (b) tienen un rendimiento comparable y ocasionalmente superior en nuevos conjuntos de datos en modo zero-shot, en comparación con métodos que fueron entrenados específicamente en ellos. Nuestros resultados muestran que los modelos Chronos pueden aprovechar datos de series temporales de diversos dominios para mejorar la precisión zero-shot en tareas de pronóstico no vistas, posicionando a los modelos preentrenados como una herramienta viable para simplificar enormemente los flujos de trabajo de pronóstico.
Investigamos métodos eficientes para entrenar Modelos de Lenguaje a Gran Escala (LLMs) con capacidades en múltiples dominios especializados, como programación, razonamiento matemático y conocimiento general. Nuestro método, denominado Branch-Train-MiX (BTX), comienza con un modelo base, el cual se bifurca para entrenar expertos de manera paralela y altamente eficiente, reduciendo los costos de comunicación. Una vez que los expertos individuales han sido entrenados de forma asíncrona, BTX combina sus parámetros de avance (feedforward) como expertos en capas de Mezcla de Expertos (Mixture-of-Expert, MoE) y promedia los parámetros restantes, seguido de una etapa de ajuste fino (finetuning) en MoE para aprender el enrutamiento a nivel de tokens. BTX generaliza dos casos especiales: el método Branch-Train-Merge, que carece de la etapa de ajuste fino en MoE para aprender el enrutamiento, y el reciclaje disperso (sparse upcycling), que omite la etapa de entrenamiento asíncrono de expertos. En comparación con enfoques alternativos, BTX logra el mejor equilibrio entre precisión y eficiencia.
La creación de conjuntos de datos de imágenes y descripciones etiquetadas por humanos de alta calidad representa un cuello de botella significativo en el desarrollo de Modelos de Lenguaje Visual (VLMs). Proponemos un enfoque novedoso que aprovecha las fortalezas de los Modelos de Lenguaje de Gran Escala (LLMs) y los modelos de generación de imágenes para crear pares sintéticos de imagen-texto destinados al entrenamiento eficiente y efectivo de VLMs. Nuestro método emplea el preentrenamiento de un modelo de texto a imagen para sintetizar incrustaciones de imágenes a partir de descripciones generadas por un LLM. Estos pares sintéticos se utilizan luego para entrenar un VLM. Experimentos exhaustivos demuestran que el VLM entrenado con datos sintéticos exhibe un rendimiento comparable en la generación de descripciones de imágenes, mientras requiere una fracción de los datos utilizados por modelos entrenados exclusivamente con datos anotados por humanos. En particular, superamos la línea base en un 17% mediante la ampliación con un conjunto de datos sintético. Además, mostramos que la síntesis en el espacio de incrustaciones de imágenes es un 25% más rápida que en el espacio de píxeles. Esta investigación introduce una técnica prometedora para generar conjuntos de datos de imágenes a gran escala y personalizables, lo que conduce a un mejor rendimiento de los VLMs y una mayor aplicabilidad en diversos dominios, todo ello con una eficiencia y utilización de recursos mejoradas.
La generación de movimiento humano representa un objetivo significativo en la visión por computadora generativa, mientras que lograr la generación de secuencias largas y eficientes sigue siendo un desafío. Los avances recientes en los modelos de espacio de estados (SSMs), particularmente Mamba, han mostrado un considerable potencial en el modelado de secuencias largas con un diseño eficiente consciente del hardware, lo que parece ser una dirección prometedora para construir un modelo de generación de movimiento basado en ellos. Sin embargo, adaptar los SSMs a la generación de movimiento enfrenta obstáculos debido a la falta de una arquitectura de diseño especializada para modelar secuencias de movimiento. Para abordar estos desafíos, proponemos Motion Mamba, un enfoque simple y eficiente que presenta el primer modelo de generación de movimiento que utiliza SSMs. Específicamente, diseñamos un bloque Jerárquico Temporal Mamba (HTM) para procesar datos temporales mediante el ensamblaje de un número variable de módulos SSM aislados en una arquitectura U-Net simétrica destinada a preservar la consistencia del movimiento entre fotogramas. También diseñamos un bloque Mamba Espacial Bidireccional (BSM) para procesar bidireccionalmente poses latentes, con el fin de mejorar la generación precisa de movimiento dentro de un marco temporal. Nuestro método propuesto logra una mejora de hasta el 50% en FID y es hasta 4 veces más rápido en los conjuntos de datos HumanML3D y KIT-ML en comparación con el mejor método basado en difusión anterior, lo que demuestra una fuerte capacidad para el modelado de secuencias largas de movimiento de alta calidad y la generación de movimiento humano en tiempo real. Consulte el sitio web del proyecto https://steve-zeyu-zhang.github.io/MotionMamba/
Presentamos DragAnything, que utiliza una representación de entidad para lograr control de movimiento de cualquier objeto en la generación de video controlable. En comparación con los métodos existentes de control de movimiento, DragAnything ofrece varias ventajas. En primer lugar, el enfoque basado en trayectorias es más amigable para la interacción del usuario, ya que la obtención de otras señales de guía (por ejemplo, máscaras, mapas de profundidad) es laboriosa. Los usuarios solo necesitan dibujar una línea (trayectoria) durante la interacción. En segundo lugar, nuestra representación de entidad funciona como un embedding de dominio abierto capaz de representar cualquier objeto, permitiendo el control del movimiento de diversas entidades, incluido el fondo. Por último, nuestra representación de entidad permite un control de movimiento simultáneo y distinto para múltiples objetos. Experimentos exhaustivos demuestran que DragAnything alcanza un rendimiento de vanguardia en FVD, FID y estudios de usuario, particularmente en términos de control de movimiento de objetos, donde nuestro método supera a los métodos anteriores (por ejemplo, DragNUWA) en un 26% en votación humana.
Presentamos FAX, una biblioteca basada en JAX diseñada para soportar cálculos distribuidos y federados a gran escala, tanto en aplicaciones de centros de datos como en dispositivos cruzados. FAX aprovecha los mecanismos de fragmentación de JAX para permitir la orientación nativa de TPUs y los entornos de ejecución más avanzados de JAX, incluyendo Pathways. FAX incorpora bloques de construcción para cálculos federados como primitivas en JAX. Esto ofrece tres beneficios clave. Primero, los cálculos de FAX pueden traducirse a XLA HLO. Segundo, FAX proporciona una implementación completa de la diferenciación automática federada, simplificando enormemente la expresión de cálculos federados. Por último, los cálculos de FAX pueden interpretarse en sistemas de cómputo federado de dispositivos cruzados ya existentes en producción. Demostramos que FAX ofrece un marco de trabajo fácilmente programable, eficiente y escalable para cálculos federados en el centro de datos. FAX está disponible en https://github.com/google-research/google-research/tree/master/fax.
Un problema abierto en la manipulación móvil es cómo representar objetos y escenas de manera unificada, para que los robots puedan utilizarla tanto para navegar en el entorno como para manipular objetos. Esto último requiere capturar geometrías intrincadas mientras se comprenden semánticas detalladas, mientras que lo primero implica capturar la complejidad inherente a una escala física expansiva. En este trabajo, presentamos GeFF (Campos de Características Generalizables), un campo de características neuronales generalizable a nivel de escena que actúa como una representación unificada tanto para la navegación como para la manipulación, y que funciona en tiempo real. Para lograrlo, tratamos la síntesis generativa de nuevas vistas como una tarea de preentrenamiento, y luego alineamos los ricos conocimientos previos de la escena resultantes con el lenguaje natural mediante la destilación de características de CLIP. Demostramos la efectividad de este enfoque implementando GeFF en un robot cuadrúpedo equipado con un manipulador. Evaluamos la capacidad de GeFF para generalizar a objetos de conjunto abierto, así como su tiempo de ejecución, al realizar manipulación móvil de vocabulario abierto en escenas dinámicas.