Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje basados en difusión ofrecen ventajas únicas sobre los modelos autorregresivos debido a su potencial para la generación paralelizada y la controlabilidad, aunque se quedan atrás en el modelado de verosimilitud y están limitados a la generación de longitud fija. En este trabajo, presentamos una clase de modelos de lenguaje de difusión por bloques que interpolan entre la difusión de eliminación de ruido discreta y los modelos autorregresivos. La difusión por bloques supera limitaciones clave de ambos enfoques al permitir la generación de longitud flexible y mejorar la eficiencia de inferencia con el almacenamiento en caché de KV y el muestreo paralelo de tokens. Proponemos una receta para construir modelos de difusión por bloques efectivos que incluye un algoritmo de entrenamiento eficiente, estimadores de varianza del gradiente y programaciones de ruido basadas en datos para minimizar la varianza. La difusión por bloques establece un nuevo estado del arte en el rendimiento entre los modelos de difusión en benchmarks de modelado de lenguaje y permite la generación de secuencias de longitud arbitraria. Proporcionamos el código, junto con los pesos del modelo y una entrada de blog en la página del proyecto: https://m-arriola.com/bd3lms/.
El desarrollo de modelos de difusión de video revela un desafío significativo: las demandas computacionales sustanciales. Para mitigar este desafío, observamos que el proceso inverso de difusión exhibe una naturaleza inherente de reducción de entropía. Dada la redundancia inter-cuadro en la modalidad de video, mantener tasas de cuadro completas en etapas de alta entropía no es necesario. Basándonos en esta idea, proponemos TPDiff, un marco unificado para mejorar la eficiencia en el entrenamiento y la inferencia. Al dividir la difusión en varias etapas, nuestro marco aumenta progresivamente la tasa de cuadro a lo largo del proceso de difusión, operando solo la última etapa a la tasa de cuadro completa, optimizando así la eficiencia computacional. Para entrenar el modelo de difusión multi-etapa, introducimos un marco de entrenamiento dedicado: difusión por etapas. Al resolver las ecuaciones diferenciales ordinarias (ODE) de flujo de probabilidad particionadas de la difusión bajo datos y ruido alineados, nuestra estrategia de entrenamiento es aplicable a diversas formas de difusión y mejora aún más la eficiencia del entrenamiento. Evaluaciones experimentales exhaustivas validan la generalidad de nuestro método, demostrando una reducción del 50% en el costo de entrenamiento y una mejora de 1.5x en la eficiencia de inferencia.
La generación condicional de movimiento ha sido ampliamente estudiada en visión por computadora, sin embargo, persisten dos desafíos críticos. En primer lugar, aunque los métodos autoregresivos enmascarados han superado recientemente a los enfoques basados en difusión, los modelos de enmascaramiento existentes carecen de un mecanismo para priorizar los fotogramas dinámicos y las partes del cuerpo en función de las condiciones dadas. En segundo lugar, los métodos existentes para diferentes modalidades de condicionamiento a menudo no logran integrar múltiples modalidades de manera efectiva, lo que limita el control y la coherencia en el movimiento generado. Para abordar estos desafíos, proponemos Motion Anything, un marco de generación de movimiento multimodal que introduce un enfoque de Modelado de Enmascaramiento Basado en Atención, permitiendo un control espacial y temporal de grano fino sobre fotogramas clave y acciones. Nuestro modelo codifica de manera adaptativa condiciones multimodales, incluyendo texto y música, mejorando la controlabilidad. Además, presentamos Text-Music-Dance (TMD), un nuevo conjunto de datos de movimiento que consta de 2,153 pares de texto, música y danza, lo que lo hace dos veces más grande que AIST++, llenando así una brecha crítica en la comunidad. Experimentos extensivos demuestran que Motion Anything supera a los métodos más avanzados en múltiples benchmarks, logrando una mejora del 15% en FID en HumanML3D y mostrando ganancias consistentes en rendimiento en AIST++ y TMD. Consulte nuestro sitio web del proyecto https://steve-zeyu-zhang.github.io/MotionAnything.
Presentamos Reangle-A-Video, un marco unificado para generar videos multi-vista sincronizados a partir de un único video de entrada. A diferencia de los enfoques predominantes que entrenan modelos de difusión de videos multi-vista en grandes conjuntos de datos 4D, nuestro método reformula la tarea de generación de videos multi-vista como una traducción de video a videos, aprovechando los priors de difusión de imágenes y videos disponibles públicamente. En esencia, Reangle-A-Video opera en dos etapas. (1) Aprendizaje de Movimiento Multi-Vista: Un transformador de difusión de imagen a video se ajusta de manera sincronizada y autosupervisada para destilar movimiento invariante a la vista a partir de un conjunto de videos deformados. (2) Traducción Consistente de Imagen a Imágenes Multi-Vista: El primer fotograma del video de entrada se deforma y rellena en varias perspectivas de cámara bajo una guía de consistencia cruzada en tiempo de inferencia utilizando DUSt3R, generando imágenes iniciales consistentes en multi-vista. Experimentos extensos en transporte de vista estática y control dinámico de cámara muestran que Reangle-A-Video supera a los métodos existentes, estableciendo una nueva solución para la generación de videos multi-vista. Publicaremos nuestro código y datos. Página del proyecto: https://hyeonho99.github.io/reangle-a-video/
Adquirir de manera eficiente conocimiento externo e información actualizada es esencial para un razonamiento efectivo y la generación de texto en modelos de lenguaje de gran escala (LLMs). Los enfoques de aumento mediante recuperación y entrenamiento en el uso de herramientas, donde un motor de búsqueda se trata como una herramienta, carecen de flexibilidad en la recuperación multiturno compleja o requieren grandes cantidades de datos supervisados. Indicar a LLMs avanzados con capacidades de razonamiento durante la inferencia para que utilicen motores de búsqueda no es óptimo, ya que el LLM no aprende a interactuar de manera óptima con el motor de búsqueda. Este artículo presenta Search-R1, una extensión del modelo DeepSeek-R1 donde el LLM aprende —únicamente mediante aprendizaje por refuerzo (RL)— a generar de manera autónoma (múltiples) consultas de búsqueda durante el razonamiento paso a paso con recuperación en tiempo real. Search-R1 optimiza las iteraciones del LLM con interacciones de búsqueda multiturno, aprovechando el enmascaramiento de tokens recuperados para un entrenamiento estable de RL y una función de recompensa simple basada en resultados. Los experimentos en siete conjuntos de datos de preguntas y respuestas muestran que Search-R1 mejora el rendimiento en un 26% (Qwen2.5-7B), 21% (Qwen2.5-3B) y 10% (LLaMA3.2-3B) sobre los baselines de última generación. Este artículo también proporciona insights empíricos sobre métodos de optimización de RL, elecciones de LLM y dinámicas de longitud de respuesta en el razonamiento aumentado mediante recuperación. El código y los puntos de control del modelo están disponibles en https://github.com/PeterGriffinJin/Search-R1.
El aprendizaje por refuerzo con recompensas verificables de resultados (RLVR) ha escalado efectivamente el razonamiento en cadena de pensamiento (CoT) en modelos de lenguaje grandes (LLMs). Sin embargo, su eficacia en el entrenamiento de agentes de modelos visión-lenguaje (VLM) para el razonamiento de acciones dirigidas a objetivos en entornos visuales está menos establecida. Este trabajo investiga este problema a través de experimentos extensos en juegos de cartas complejos, como el 24 puntos, y tareas corporizadas de ALFWorld. Descubrimos que cuando las recompensas se basan únicamente en los resultados de las acciones, el RL no logra incentivar el razonamiento CoT en los VLMs, lo que lleva a un fenómeno que denominamos colapso de pensamiento, caracterizado por una rápida pérdida de diversidad en los pensamientos del agente, razonamiento irrelevante al estado e incompleto, y acciones posteriores inválidas, resultando en recompensas negativas. Para contrarrestar el colapso de pensamiento, destacamos la necesidad de guía en el proceso y proponemos un corrector automático que evalúa y refina el razonamiento del agente en cada paso del RL. Este marco simple y escalable de GTR (Refuerzo de Pensamiento Guiado) entrena el razonamiento y la acción simultáneamente sin necesidad de etiquetado humano denso por paso. Nuestros experimentos demuestran que GTR mejora significativamente el rendimiento y la generalización del modelo LLaVA-7b en diversos entornos visuales, logrando tasas de éxito en tareas 3-5 veces mayores en comparación con modelos SoTA con tamaños de modelo notablemente más pequeños.
La generación aumentada por recuperación (RAG, por sus siglas en inglés) proporciona a los modelos de lenguaje grandes (LLMs) documentos relevantes. Aunque estudios previos señalaron que recuperar muchos documentos puede degradar el rendimiento, no aislaron cómo la cantidad de documentos afecta el rendimiento mientras se controlaba la longitud del contexto. Evaluamos varios modelos de lenguaje en conjuntos de datos personalizados derivados de una tarea de preguntas y respuestas de múltiples saltos. Mantenemos constante la longitud del contexto y la posición de la información relevante mientras variamos el número de documentos, y encontramos que aumentar el número de documentos en configuraciones RAG presenta desafíos significativos para los LLMs. Además, nuestros resultados indican que procesar múltiples documentos es un desafío separado de manejar contextos largos. También ponemos a disposición los conjuntos de datos y el código: https://github.com/shaharl6000/MoreDocsSameLen.
El Muestreo de Distilación de Puntuaciones (Score Distillation Sampling, SDS) ha surgido como una técnica efectiva para aprovechar los modelos previos de difusión 2D en tareas como la generación de texto a 3D. Aunque potente, SDS enfrenta dificultades para lograr una alineación detallada con la intención del usuario. Para superar esto, presentamos RewardSDS, un enfoque novedoso que pondera las muestras de ruido basándose en puntuaciones de alineación provenientes de un modelo de recompensa, produciendo una pérdida SDS ponderada. Esta pérdida prioriza los gradientes de las muestras de ruido que generan resultados alineados y de alta recompensa. Nuestro enfoque es ampliamente aplicable y puede extender métodos basados en SDS. En particular, demostramos su aplicabilidad a la Distilación de Puntuaciones Variacional (Variational Score Distillation, VSD) mediante la introducción de RewardVSD. Evaluamos RewardSDS y RewardVSD en tareas de generación de texto a imagen, edición 2D y generación de texto a 3D, mostrando mejoras significativas sobre SDS y VSD en un conjunto diverso de métricas que miden la calidad de la generación y la alineación con los modelos de recompensa deseados, logrando un rendimiento de vanguardia. La página del proyecto está disponible en https://itaychachy.github.io/reward-sds/.
Aunque los modelos de lenguaje de gran escala (LLMs) han logrado un rendimiento notable en diversas tareas, siguen siendo propensos a errores. Un desafío clave es permitirles autocorregirse. Mientras investigaciones previas han dependido de herramientas externas o modelos propietarios de gran escala, este trabajo explora la autocorrección en modelos de lenguaje pequeños (SLMs) mediante ajuste fino iterativo utilizando únicamente datos autogenerados. Introducimos el algoritmo Self-Taught Self-Correction (STaSC), que incorpora múltiples decisiones de diseño algorítmico. Los resultados experimentales en una tarea de respuesta a preguntas demuestran que STaSC aprende efectivamente la autocorrección, lo que conduce a mejoras significativas en el rendimiento. Nuestro análisis proporciona además insights sobre los mecanismos de autocorrección y el impacto de diferentes decisiones de diseño en la dinámica de aprendizaje y el rendimiento general. Para apoyar investigaciones futuras, publicamos nuestra base de código fácil de usar y modelos livianos.
Los LLM recientes han demostrado un éxito notable en seguir instrucciones de usuarios, sin embargo, manejar instrucciones con múltiples restricciones sigue siendo un desafío significativo. En este trabajo, presentamos WildIFEval: un conjunto de datos a gran escala de 12K instrucciones reales de usuarios con condiciones diversas y de múltiples restricciones. A diferencia de conjuntos de datos anteriores, nuestra colección abarca un amplio espectro léxico y temático de restricciones en indicaciones naturales de usuarios. Clasificamos estas restricciones en ocho categorías de alto nivel para capturar su distribución y dinámica en escenarios del mundo real. Utilizando WildIFEval, realizamos experimentos exhaustivos para evaluar las capacidades de seguimiento de instrucciones de los principales LLM. Nuestros hallazgos revelan que todos los modelos evaluados experimentan una degradación en el rendimiento con un número creciente de restricciones. Así, demostramos que todos los modelos tienen un amplio margen de mejora en tales tareas. Además, observamos que el tipo específico de restricción juega un papel crítico en el rendimiento del modelo. Publicamos nuestro conjunto de datos para promover más investigación sobre el seguimiento de instrucciones en condiciones complejas y realistas.
Las actividades diarias humanas pueden narrarse de manera concisa como secuencias de eventos rutinarios (por ejemplo, apagar una alarma) en flujos de video, formando un vocabulario de eventos. Motivados por esto, presentamos VLog, un novedoso marco de comprensión de video que define las narraciones de video como vocabulario, yendo más allá de los vocabularios de subpalabras típicos en los modelos generativos de video-lenguaje existentes. Basado en el modelo de lenguaje ligero GPT-2, VLog presenta tres innovaciones clave: (i) Un modelo de recuperación generativa, que combina las capacidades de razonamiento complejo del modelo de lenguaje con la búsqueda de similitud eficiente de la recuperación contrastiva. (ii) Un vocabulario jerárquico derivado de narraciones de video a gran escala utilizando nuestro algoritmo de codificación de pares de narración, permitiendo la indexación eficiente de eventos específicos (por ejemplo, cortar un tomate) mediante la identificación de escenarios más amplios (por ejemplo, la cocina) con sufijos expresivos (por ejemplo, con la mano izquierda). (iii) Una estrategia de actualización de vocabulario que aprovecha los modelos generativos para extender el vocabulario para eventos novedosos encontrados durante la inferencia. Para validar nuestro enfoque, presentamos VidCap-Eval, un conjunto de desarrollo que requiere narraciones concisas con relaciones de razonamiento (por ejemplo, antes y después). Los experimentos en EgoSchema, COIN y HiREST demuestran además la efectividad de VLog, destacando su capacidad para generar narraciones concisas, contextualmente precisas y eficientes, ofreciendo una perspectiva novedosa sobre la comprensión de video. Los códigos están disponibles en https://github.com/showlab/VLog.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado una capacidad impresionante en la generación de código y, específicamente, para implementar automáticamente requisitos descritos en lenguaje natural. La efectividad de los LLMs generalmente aumenta con su tamaño: cuanto mayor es el número de parámetros entrenables del LLM, mejor es su capacidad para implementar código. Sin embargo, cuando se trata de desplegar generadores de código basados en LLMs, los modelos más grandes plantean desafíos significativos relacionados con su huella de memoria (y, en consecuencia, de carbono). Un trabajo previo de Wei et al. propuso aprovechar técnicas de cuantización para reducir la huella de memoria de los generadores de código basados en LLMs sin degradar sustancialmente su efectividad. En resumen, estudiaron LLMs con hasta 16 mil millones de parámetros, cuantizando su precisión de punto flotante de 32 bits a enteros de 8 bits, y mostraron su impacto limitado en el rendimiento de la generación de código. Dado el rápido ritmo al que evolucionan las capacidades de los LLMs y las técnicas de cuantización, en este trabajo presentamos una replicación diferenciada del trabajo de Wei et al. en la que consideramos (i) por un lado, LLMs más recientes y de mayor tamaño relacionados con código, de hasta 34 mil millones de parámetros; (ii) los últimos avances en técnicas de cuantización de modelos, que permiten llevar la compresión al nivel extremo de 2 bits por parámetro del modelo; y (iii) diferentes tipos de conjuntos de datos de calibración para guiar el proceso de cuantización, incluyendo aquellos específicos para código. Nuestra evaluación empírica revela que la nueva frontera para la cuantización de LLMs es la precisión de 4 bits, lo que resulta en una reducción promedio de la huella de memoria del 70% en comparación con el modelo original, sin observar una disminución significativa en el rendimiento. Además, cuando la cuantización se vuelve aún más extrema (3 y 2 bits), un conjunto de datos de calibración específico para código ayuda a limitar la pérdida de rendimiento.
Las capacidades de traducción de imagen a imagen de los modelos de aprendizaje generativo han experimentado avances significativos recientemente en la estimación de mapeos complejos (dirigidos) entre distribuciones de imágenes. Si bien tareas basadas en apariencia, como la restauración de imágenes o la transferencia de estilo, han sido ampliamente estudiadas, proponemos investigar el potencial de los modelos generativos en el contexto de simulaciones físicas. Al proporcionar un conjunto de datos de 300k pares de imágenes y evaluaciones de referencia para tres tareas diferentes de simulación física, proponemos un punto de referencia para investigar las siguientes preguntas de investigación: i) ¿son los modelos generativos capaces de aprender relaciones físicas complejas a partir de pares de imágenes de entrada-salida? ii) ¿qué aceleraciones se pueden lograr al reemplazar simulaciones basadas en ecuaciones diferenciales? Si bien las evaluaciones de referencia de diferentes modelos actuales muestran el potencial de altas aceleraciones (ii), estos resultados también muestran fuertes limitaciones en cuanto a la corrección física (i). Esto subraya la necesidad de nuevos métodos para garantizar la corrección física. Datos, modelos de referencia y código de evaluación en http://www.physics-gen.org.
La comprensión eficiente de imágenes de percepción remota de gran tamaño (RSIs) en el ámbito visión-lenguaje es significativa pero desafiante. Los modelos actuales de visión-lenguaje de gran escala (LVLMs) suelen emplear cuadrículas predefinidas limitadas para procesar imágenes, lo que resulta en pérdida de información al manejar RSIs de gigapíxeles. Por el contrario, el uso de cuadrículas ilimitadas aumenta significativamente los costos computacionales. Para preservar los detalles de la imagen mientras se reduce la complejidad computacional, proponemos un método de poda de tokens guiado por texto con integración de Pirámide de Imagen Dinámica (DIP). Nuestro método introduce: (i) un Módulo de Enfoque de Región (RFM) que aprovecha la capacidad de localización de regiones consciente del texto para identificar tokens visuales críticos, y (ii) una estrategia de selección de mosaicos de imagen de grueso a fino y poda de tokens visuales basada en DIP, guiada por las salidas del RFM y que evita procesar directamente la imagen completa de gran tamaño. Además, los benchmarks existentes para evaluar la capacidad de percepción de los LVLMs en RSIs grandes adolecen de diversidad limitada en las preguntas y tamaños de imagen restringidos. Construimos un nuevo benchmark llamado LRS-VQA, que contiene 7,333 pares de preguntas y respuestas en 8 categorías, con imágenes de hasta 27,328 píxeles de longitud. Nuestro método supera a las estrategias existentes de alta resolución en cuatro conjuntos de datos utilizando los mismos datos. Además, en comparación con los métodos existentes de reducción de tokens, nuestro enfoque demuestra mayor eficiencia en configuraciones de alta resolución. El conjunto de datos y el código están disponibles en https://github.com/VisionXLab/LRS-VQA.
Los Modelos de Acción a Gran Escala (LAMs) han revolucionado la automatización inteligente, pero su aplicación en el ámbito de la salud enfrenta desafíos debido a preocupaciones de privacidad, latencia y dependencia del acceso a internet. Este informe presenta un asistente sanitario multiagente en el dispositivo que supera estas limitaciones. El sistema utiliza agentes más pequeños y específicos para optimizar recursos, garantizar escalabilidad y alto rendimiento. Nuestra propuesta actúa como una solución integral para las necesidades de atención médica, con funciones como reserva de citas, monitoreo de salud, recordatorios de medicación e informes diarios de salud. Impulsado por el modelo Qwen Code Instruct 2.5 7B, los Agentes Planificador y Llamador logran un puntaje RougeL promedio de 85.5 en planificación y 96.5 en llamadas para nuestras tareas, manteniéndose livianos para su implementación en el dispositivo. Este enfoque innovador combina los beneficios de los sistemas en el dispositivo con arquitecturas multiagente, allanando el camino para soluciones de salud centradas en el usuario.
Los Modelos de Difusión Latente (LDMs, por sus siglas en inglés) son conocidos por tener un proceso de generación inestable, donde incluso pequeñas perturbaciones o cambios en el ruido de entrada pueden dar lugar a resultados significativamente diferentes. Esto limita su aplicabilidad en tareas que requieren resultados consistentes. En este trabajo, rediseñamos los LDMs para mejorar su consistencia haciéndolos invariantes a desplazamientos (shift-equivariant). Si bien la introducción de operaciones de anti-aliasing puede mejorar parcialmente esta propiedad, persisten problemas significativos de aliasing e inconsistencia debido a los desafíos únicos de los LDMs, incluyendo 1) la amplificación del aliasing durante el entrenamiento del VAE y las múltiples inferencias de la U-Net, y 2) los módulos de auto-atención que, por naturaleza, carecen de invariancia a desplazamientos. Para abordar estos problemas, rediseñamos los módulos de atención para que sean invariantes a desplazamientos y proponemos una pérdida de equivariancia que suprime efectivamente el ancho de banda de las frecuencias de las características en el dominio continuo. El resultado es un LDM libre de aliasing (AF-LDM) que logra una fuerte invariancia a desplazamientos y también es robusto frente a deformaciones irregulares. Experimentos exhaustivos demuestran que el AF-LDM produce resultados significativamente más consistentes que el LDM estándar en diversas aplicaciones, incluyendo edición de video y traducción de imagen a imagen. El código está disponible en: https://github.com/SingleZombie/AFLDM.
La construcción de modelos de lenguaje grandes (LLMs) basados en Transformers eficaces y eficientes se ha convertido recientemente en un foco de investigación, requiriendo maximizar las capacidades lingüísticas del modelo y minimizar los costos de entrenamiento y despliegue. Los esfuerzos existentes han descrito principalmente relaciones complejas entre el rendimiento del modelo, el tamaño de los parámetros y el tamaño de los datos, así como han buscado la asignación óptima de recursos computacionales para entrenar LLMs. Sin embargo, han pasado por alto los impactos de la longitud del contexto y la configuración de las cabezas de atención (el número de cabezas de consulta y clave-valor en la atención de consulta agrupada) en el entrenamiento y la inferencia. En este artículo, comparamos sistemáticamente modelos con diferentes tamaños de parámetros, longitudes de contexto y configuraciones de cabezas de atención en términos de rendimiento del modelo, costo computacional y costo de memoria. Luego, extendemos los métodos de escalado existentes, que se basan únicamente en el tamaño de los parámetros y el cómputo de entrenamiento, para guiar la construcción de LLMs óptimos en costo durante el entrenamiento y la inferencia. Nuestros estudios cuantitativos de escalado muestran que, al procesar secuencias suficientemente largas, un modelo más grande con menos cabezas de atención puede lograr una pérdida menor mientras incurre en costos computacionales y de memoria más bajos. Nuestros hallazgos proporcionan insights valiosos para el desarrollo de LLMs prácticos, especialmente en escenarios de procesamiento de contextos largos. Publicaremos nuestro código y datos de manera abierta.
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés), aunque sirve como un complemento viable para los modelos de lenguaje de gran escala (LLMs), a menudo pasa por alto el aspecto crucial de la segmentación de texto dentro de su pipeline. Este artículo introduce inicialmente un método de evaluación de doble métrica, que comprende la Claridad de Límites y la Adherencia de Segmentos, para permitir la cuantificación directa de la calidad de la segmentación. Aprovechando este método de evaluación, destacamos las limitaciones inherentes de la segmentación tradicional y semántica al manejar matices contextuales complejos, lo que sustenta la necesidad de integrar LLMs en el proceso de segmentación. Para abordar el equilibrio inherente entre la eficiencia computacional y la precisión de la segmentación en enfoques basados en LLMs, diseñamos el marco de Mezcla de Segmentadores Conscientes de la Granularidad (MoC, por sus siglas en inglés), que consta de un mecanismo de procesamiento en tres etapas. Cabe destacar que nuestro objetivo es guiar al segmentador hacia la generación de una lista estructurada de expresiones regulares de segmentación, que posteriormente se emplean para extraer segmentos del texto original. Experimentos extensos demuestran que tanto nuestras métricas propuestas como el marco MoC resuelven efectivamente los desafíos de la tarea de segmentación, revelando el núcleo de la segmentación mientras mejoran el rendimiento del sistema RAG.
Los modelos de lenguaje preentrenados (PLMs, por sus siglas en inglés) han revolucionado la investigación científica, pero su aplicación en el análisis de células individuales sigue siendo limitada. Los PLMs de texto no pueden procesar datos de secuenciación de ARN de células individuales, mientras que los PLMs de células carecen de la capacidad para manejar texto libre, lo que restringe su uso en tareas multimodales. Los esfuerzos existentes para conectar estas modalidades a menudo sufren de pérdida de información o un preentrenamiento insuficiente en modalidades individuales, lo que resulta en un rendimiento subóptimo. Para abordar estos desafíos, proponemos el Transformer Generativo Preentrenado Multimodal para Células Individuales (scMMGPT, por sus siglas en inglés), un PLM unificado para el modelado conjunto de células y texto. scMMGPT integra de manera efectiva los PLMs de células y texto más avanzados, facilitando el intercambio de conocimiento entre modalidades para mejorar el rendimiento. Para cerrar la brecha entre las modalidades de texto y células, scMMGPT aprovecha proyectores cruzados dedicados y se somete a un extenso preentrenamiento en 27 millones de células, el conjunto de datos más grande hasta la fecha para PLMs multimodales de texto y células. Este preentrenamiento a gran escala permite que scMMGPT sobresalga en tareas conjuntas de texto y células, logrando una mejora relativa del 84% en la discrepancia textual para la generación de descripciones de células, un 20.5% más de precisión en la anotación de tipos celulares y una mejora del 4% en la precisión de k-NN para la generación de pseudo-células condicionadas por texto, superando a los modelos de referencia.
El Video Question Answering (VQA) en videos largos plantea el desafío clave de extraer información relevante y modelar dependencias de largo alcance a partir de muchos fotogramas redundantes. El mecanismo de autoatención ofrece una solución general para el modelado de secuencias, pero tiene un costo prohibitivo cuando se aplica a un gran número de tokens espacio-temporales en videos largos. La mayoría de los métodos anteriores se basan en estrategias de compresión para reducir el costo computacional, como disminuir la longitud de entrada mediante muestreo disperso de fotogramas o comprimir la secuencia de salida que se pasa al modelo de lenguaje grande (LLM) mediante agrupación espacio-temporal. Sin embargo, estos enfoques ingenuos sobredimensionan la información redundante y a menudo pasan por alto eventos destacados o patrones espacio-temporales de rápida ocurrencia. En este trabajo, presentamos BIMBA, un modelo de espacio de estados eficiente para manejar videos de larga duración. Nuestro modelo aprovecha el algoritmo de escaneo selectivo para aprender a seleccionar de manera efectiva información crítica a partir de videos de alta dimensionalidad y transformarla en una secuencia reducida de tokens para un procesamiento eficiente por parte del LLM. Experimentos extensos demuestran que BIMBA logra una precisión de vanguardia en múltiples benchmarks de VQA de larga duración, incluyendo PerceptionTest, NExT-QA, EgoSchema, VNBench, LongVideoBench y Video-MME. El código y los modelos están disponibles públicamente en https://sites.google.com/view/bimba-mllm.
El Consenso de Muestreo Aleatorio (RANSAC) es un enfoque fundamental para estimar de manera robusta modelos paramétricos a partir de datos ruidosos. Los métodos existentes de RANSAC basados en aprendizaje utilizan aprendizaje profundo para mejorar la robustez de RANSAC frente a valores atípicos. Sin embargo, estos enfoques se entrenan y prueban con datos generados por los mismos algoritmos, lo que limita su generalización a datos fuera de distribución durante la inferencia. Por lo tanto, en este artículo, introducimos un nuevo paradigma basado en difusión que inyecta progresivamente ruido en los datos de referencia, simulando las condiciones ruidosas para el entrenamiento de RANSAC basado en aprendizaje. Para mejorar la diversidad de datos, incorporamos muestreo de Monte Carlo en el paradigma de difusión, aproximando diversas distribuciones de datos mediante la introducción de diferentes tipos de aleatoriedad en múltiples etapas. Evaluamos nuestro enfoque en el contexto de la correspondencia de características a través de experimentos exhaustivos en los conjuntos de datos ScanNet y MegaDepth. Los resultados experimentales demuestran que nuestro mecanismo de difusión de Monte Carlo mejora significativamente la capacidad de generalización de RANSAC basado en aprendizaje. También desarrollamos extensos estudios de ablación que resaltan la efectividad de los componentes clave en nuestro marco de trabajo.
Los Campos de Fuerza de Aprendizaje Automático (MLFFs, por sus siglas en inglés) representan una alternativa prometedora frente a las costosas simulaciones moleculares cuánticas ab initio. Dada la diversidad de espacios químicos de interés y el costo asociado a la generación de nuevos datos, es crucial comprender cómo los MLFFs generalizan más allá de sus distribuciones de entrenamiento. Para caracterizar y entender mejor los cambios de distribución en los MLFFs, realizamos experimentos de diagnóstico en conjuntos de datos químicos, revelando desplazamientos comunes que plantean desafíos significativos, incluso para modelos base entrenados con grandes volúmenes de datos. Basándonos en estas observaciones, planteamos la hipótesis de que los métodos de entrenamiento supervisado actuales regularizan de manera insuficiente los MLFFs, lo que resulta en sobreajuste y en la obtención de representaciones deficientes para sistemas fuera de distribución. A continuación, proponemos dos nuevos métodos como pasos iniciales para mitigar estos cambios de distribución en los MLFFs. Nuestros métodos se centran en estrategias de refinamiento en tiempo de prueba que implican un costo computacional mínimo y no utilizan etiquetas de referencia ab initio costosas. La primera estrategia, basada en la teoría espectral de grafos, modifica las aristas de los grafos de prueba para alinearlos con las estructuras de grafos observadas durante el entrenamiento. Nuestra segunda estrategia mejora las representaciones para sistemas fuera de distribución en tiempo de prueba mediante la toma de pasos de gradiente utilizando un objetivo auxiliar, como un prior físico de bajo costo. Nuestras estrategias de refinamiento en tiempo de prueba reducen significativamente los errores en sistemas fuera de distribución, sugiriendo que los MLFFs son capaces de modelar espacios químicos diversos y pueden avanzar en esa dirección, pero no están siendo entrenados de manera efectiva para lograrlo. Nuestros experimentos establecen puntos de referencia claros para evaluar las capacidades de generalización de la próxima generación de MLFFs. Nuestro código está disponible en https://tkreiman.github.io/projects/mlff_distribution_shifts/.