Artículos de investigación en IA seleccionados diariamente con traducciones
En comparación con los datos de pares de imagen-texto, los corpus entrelazados permiten a los Modelos de Visión-Lenguaje (VLMs) comprender el mundo de manera más natural, como lo hacen los humanos. Sin embargo, estos conjuntos de datos existentes se obtienen de páginas web, enfrentando desafíos como baja densidad de conocimiento, relaciones laxas entre imagen y texto, y escasa coherencia lógica entre las imágenes. Por otro lado, internet alberga vastos videos instructivos (por ejemplo, cursos de geometría en línea) que son ampliamente utilizados por los humanos para aprender materias fundamentales, sin embargo, estos valiosos recursos siguen siendo poco explorados en el entrenamiento de VLMs. En este artículo, presentamos un corpus multimodal de libros de texto de alta calidad con un conocimiento fundamental más rico para el preentrenamiento de VLMs. Recopila más de 2.5 años de videos instructivos, con un total de 22,000 horas de clase. En primer lugar, utilizamos una taxonomía propuesta por LLM para recopilar sistemáticamente videos instructivos. Luego extraemos y refinamos progresivamente el conocimiento visual (fotogramas clave), auditivo (ASR) y textual (OCR) de los videos, y lo organizamos como un corpus entrelazado de imagen-texto basado en el orden temporal. En comparación con sus contrapartes, nuestro libro de texto centrado en videos ofrece un contexto más coherente, un conocimiento más rico y una mejor alineación entre imagen y texto. Los experimentos demuestran su excelente rendimiento en el preentrenamiento, especialmente en tareas intensivas en conocimiento y razonamiento como ScienceQA y MathVista. Además, los VLM preentrenados en nuestro libro de texto muestran una destacada conciencia de contexto entrelazado, aprovechando pistas visuales y textuales en su contexto de poca muestra para la resolución de tareas. Nuestro código está disponible en \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.
A pesar de los avances significativos en la generación de video, insertar un objeto dado en videos sigue siendo una tarea desafiante. La dificultad radica en preservar los detalles de apariencia del objeto de referencia y modelar con precisión movimientos coherentes al mismo tiempo. En este documento, proponemos VideoAnydoor, un marco de inserción de objetos en video de cero disparos con preservación de detalles de alta fidelidad y control preciso de movimiento. Partiendo de un modelo de texto a video, utilizamos un extractor de ID para inyectar la identidad global y aprovechar una secuencia de cajas para controlar el movimiento general. Para preservar la apariencia detallada y al mismo tiempo admitir un control de movimiento detallado, diseñamos un deformador de píxeles. Toma la imagen de referencia con puntos clave arbitrarios y las trayectorias de puntos clave correspondientes como entradas. Deforma los detalles de píxeles según las trayectorias y fusiona las características deformadas con la U-Net de difusión, mejorando así la preservación de detalles y apoyando a los usuarios en la manipulación de las trayectorias de movimiento. Además, proponemos una estrategia de entrenamiento que involucra tanto videos como imágenes estáticas con una pérdida de reconstrucción de reponderación para mejorar la calidad de inserción. VideoAnydoor demuestra una superioridad significativa sobre los métodos existentes y admite naturalmente varias aplicaciones posteriores (por ejemplo, generación de cabezas parlantes, prueba virtual de ropa en video, edición de múltiples regiones) sin ajustes finos específicos de la tarea.
Con el aumento de las capacidades de razonamiento de código de los modelos de lenguaje grandes existentes (LLMs) y los avances en modelos de razonamiento como OpenAI o1 y o3, surge la necesidad creciente de desarrollar benchmarks más desafiantes y completos que prueben eficazmente sus sofisticadas habilidades de codificación a nivel de competencia. Los benchmarks existentes, como LiveCodeBench y USACO, no cumplen debido a la falta de casos de prueba privados, la falta de soporte para jueces especiales y entornos de ejecución desalineados. Para cerrar esta brecha, presentamos CodeElo, un benchmark estandarizado de generación de código a nivel de competencia que aborda eficazmente todos estos desafíos por primera vez. El benchmark CodeElo se basa principalmente en la plataforma oficial CodeForces e intenta alinearse con la plataforma tanto como sea posible. Compilamos los problemas de concursos de los últimos seis meses en CodeForces con información detallada como divisiones de concursos, calificaciones de dificultad de problemas y etiquetas de algoritmos de problemas. Introducimos un método de evaluación único en el que los problemas se envían directamente a la plataforma y desarrollamos un sistema confiable de cálculo de calificación Elo que se alinea con la plataforma y es comparable con los participantes humanos pero tiene una varianza menor. Al probar en nuestro CodeElo, proporcionamos las calificaciones Elo de 30 LLMs populares de código abierto y 3 propietarios por primera vez. Los resultados muestran que o1-mini y QwQ-32B-Preview se destacan significativamente, logrando calificaciones Elo de 1578 y 1261, respectivamente, mientras que otros modelos luchan incluso con los problemas más fáciles, ubicándose en el 20 por ciento más bajo entre todos los participantes humanos. También se realizan experimentos de análisis detallados para proporcionar información sobre el rendimiento en algoritmos y comparaciones entre el uso de C++ y Python, lo que puede sugerir direcciones para estudios futuros.
Los Modelos de Lenguaje en Video a Gran Escala (Video LLMs) han mostrado recientemente capacidades notables en la comprensión general de videos. Sin embargo, se centran principalmente en la comprensión holística y tienen dificultades para capturar detalles espaciales y temporales detallados. Además, la falta de datos de instrucción de video a nivel de objeto de alta calidad y de un banco de pruebas integral dificulta aún más sus avances. Para abordar estos desafíos, presentamos el VideoRefer Suite para potenciar a los Video LLM para una comprensión de video espacial-temporal a un nivel más fino, es decir, permitiendo la percepción y el razonamiento sobre cualquier objeto a lo largo del video. Específicamente, desarrollamos exhaustivamente VideoRefer Suite en tres aspectos esenciales: conjunto de datos, modelo y banco de pruebas. En primer lugar, introducimos un motor de datos multiagente para seleccionar meticulosamente un conjunto de datos de instrucción de video a nivel de objeto a gran escala y de alta calidad, denominado VideoRefer-700K. A continuación, presentamos el modelo VideoRefer, que equipa a un versátil codificador de objetos espaciales-temporales para capturar representaciones regionales y secuenciales precisas. Finalmente, creamos meticulosamente un VideoRefer-Bench para evaluar de manera integral la capacidad de comprensión espacial-temporal de un Video LLM, evaluándolo en varios aspectos. Experimentos y análisis extensos demuestran que nuestro modelo VideoRefer no solo logra un rendimiento prometedor en bancos de pruebas de referencia de video, sino que también facilita capacidades generales de comprensión de video.
Presentamos LTX-Video, un modelo de difusión latente basado en transformadores que adopta un enfoque holístico para la generación de videos al integrar de manera fluida las responsabilidades del Video-VAE y el transformador de eliminación de ruido. A diferencia de los métodos existentes, que tratan estos componentes como independientes, LTX-Video tiene como objetivo optimizar su interacción para mejorar la eficiencia y la calidad. En su núcleo se encuentra un Video-VAE cuidadosamente diseñado que logra una alta relación de compresión de 1:192, con un escalado espacio-temporal de 32 x 32 x 8 píxeles por token, habilitado al trasladar la operación de fragmentación desde la entrada del transformador a la entrada del VAE. Operar en este espacio latente altamente comprimido permite al transformador realizar de manera eficiente una autoatención espacio-temporal completa, esencial para generar videos de alta resolución con consistencia temporal. Sin embargo, la alta compresión limita inherentemente la representación de detalles finos. Para abordar esto, nuestro decodificador VAE se encarga tanto de la conversión de latente a píxel como del paso final de eliminación de ruido, produciendo el resultado limpio directamente en el espacio de píxeles. Este enfoque preserva la capacidad de generar detalles finos sin incurrir en el costo de tiempo de ejecución de un módulo de aumento de muestreo separado. Nuestro modelo admite diversos casos de uso, incluida la generación de texto a video y de imagen a video, con ambas capacidades entrenadas simultáneamente. Logra una generación más rápida que en tiempo real, produciendo 5 segundos de video a 24 fps y resolución de 768x512 en solo 2 segundos en una GPU Nvidia H100, superando a todos los modelos existentes de escala similar. El código fuente y los modelos pre-entrenados están disponibles públicamente, estableciendo un nuevo punto de referencia para la generación de videos accesible y escalable.
Los modelos de difusión latente con arquitecturas Transformer destacan en la generación de imágenes de alta fidelidad. Sin embargo, estudios recientes revelan un dilema de optimización en este diseño de dos etapas: mientras que aumentar la dimensión de características por token en los tokenizadores visuales mejora la calidad de reconstrucción, requiere modelos de difusión sustancialmente más grandes y más iteraciones de entrenamiento para lograr un rendimiento de generación comparable. En consecuencia, los sistemas existentes a menudo se conforman con soluciones subóptimas, ya sea produciendo artefactos visuales debido a la pérdida de información dentro de los tokenizadores o fallando en converger completamente debido a los costos computacionales elevados. Sostenemos que este dilema surge de la dificultad inherente en aprender espacios latentes de alta dimensionalidad sin restricciones. Para abordar esto, proponemos alinear el espacio latente con modelos de visión pre-entrenados al entrenar los tokenizadores visuales. Nuestro propuesto VA-VAE (AutoCodificador Variacional Alineado con Modelo de Fundación de Visión) expande significativamente la frontera de reconstrucción-generación de los modelos de difusión latente, permitiendo una convergencia más rápida de los Transformadores de Difusión (DiT) en espacios latentes de alta dimensionalidad. Para explotar todo el potencial de VA-VAE, construimos una línea de base DiT mejorada con estrategias de entrenamiento y diseños de arquitectura mejorados, denominada LightningDiT. El sistema integrado logra un rendimiento de estado del arte (SOTA) en generación de ImageNet 256x256 con una puntuación FID de 1.35, demostrando una eficiencia de entrenamiento notable al alcanzar una puntuación FID de 2.11 en solo 64 épocas, lo que representa una aceleración de la velocidad de convergencia de más de 21 veces en comparación con el DiT original. Los modelos y códigos están disponibles en: https://github.com/hustvl/LightningDiT.
La seguridad del contenido de imágenes se ha convertido en un desafío significativo con el aumento de los medios visuales en plataformas en línea. Mientras tanto, en la era del contenido generado por IA (CGIA), muchos modelos de generación de imágenes son capaces de producir contenido dañino, como imágenes que contienen material sexual o violento. Por lo tanto, resulta crucial identificar dichas imágenes inseguras basándose en reglas de seguridad establecidas. Los Modelos de Lenguaje Multimodal de Gran Tamaño (MLLMs) pre-entrenados ofrecen potencial en este sentido, dada su fuerte capacidad de reconocimiento de patrones. Los enfoques existentes suelen ajustar finamente los MLLMs con conjuntos de datos etiquetados por humanos, lo cual, sin embargo, conlleva una serie de inconvenientes. En primer lugar, depender de anotadores humanos para etiquetar datos siguiendo pautas intrincadas y detalladas es tanto costoso como intensivo en mano de obra. Además, los usuarios de sistemas de juicio de seguridad pueden necesitar actualizar con frecuencia las reglas de seguridad, lo que dificulta más el ajuste fino en base a anotaciones basadas en humanos. Esto plantea la pregunta de investigación: ¿Podemos detectar imágenes inseguras consultando MLLMs en un entorno de cero disparos utilizando una constitución de seguridad predefinida (un conjunto de reglas de seguridad)? Nuestra investigación mostró que simplemente consultar MLLMs pre-entrenados no produce resultados satisfactorios. Esta falta de efectividad se debe a factores como la subjetividad de las reglas de seguridad, la complejidad de constituciones extensas y los sesgos inherentes en los modelos. Para abordar estos desafíos, proponemos un método basado en MLLM que incluye la objetivación de reglas de seguridad, evaluando la relevancia entre reglas e imágenes, tomando decisiones rápidas basadas en probabilidades de tokens desbiasadas con cadenas de precondiciones lógicamente completas pero simplificadas para reglas de seguridad, y realizando un razonamiento más profundo con procesos de cadena de pensamiento en cascada si es necesario. Los resultados experimentales demuestran que nuestro método es altamente efectivo para tareas de juicio de seguridad de imágenes de cero disparos.
La Autocorrección tiene como objetivo permitir que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) se autoverifiquen y autoperfeccionen sus respuestas iniciales sin necesidad de retroalimentación externa. Sin embargo, los LLMs a menudo no logran autoverificarse de manera efectiva y generar retroalimentación correcta, lo que conduce a una autoperfección errónea, especialmente en tareas de razonamiento complejas. En este artículo, proponemos Autocorrección Dirigida por Programa (ProgCo). En primer lugar, la verificación dirigida por programa (ProgVe) logra una lógica de verificación compleja y una validación extensa a través de seudo-programas de verificación auto-generados y auto-ejecutables. Luego, el perfeccionamiento dirigido por programa (ProgRe) recibe retroalimentación de ProgVe, realiza una doble reflexión y perfeccionamiento tanto en las respuestas como en los programas de verificación para mitigar la confusión causada por retroalimentación incorrecta en tareas de razonamiento complejas. Experimentos en tres conjuntos de datos de seguimiento de instrucciones y matemáticos indican que ProgCo logra una autocorrección efectiva y puede mejorar aún más su rendimiento cuando se combina con herramientas de programa reales.
Los agentes de IA se han vuelto cada vez más comunes en los últimos años, impulsados por avances significativos en el campo de los modelos de lenguaje grandes (LLMs). Los agentes de GUI móvil, un subconjunto de agentes de IA, están diseñados para realizar tareas de forma autónoma en dispositivos móviles. Aunque numerosos estudios han presentado agentes, conjuntos de datos y puntos de referencia para avanzar en la investigación de agentes de GUI móvil, muchos conjuntos de datos existentes se centran en evaluaciones de cuadros estáticos y no logran proporcionar una plataforma integral para evaluar el rendimiento en tareas del mundo real y en entornos no controlados. Para abordar esta brecha, presentamos Android Agent Arena (A3), una plataforma de evaluación novedosa. A diferencia de los sistemas en entornos no controlados existentes, A3 ofrece: (1) tareas significativas y prácticas, como la recuperación de información en línea en tiempo real e instrucciones operativas; (2) un espacio de acción más amplio y flexible, que permite la compatibilidad con agentes entrenados en cualquier conjunto de datos; y (3) un proceso de evaluación automatizado basado en LLM a nivel empresarial. A3 incluye 21 aplicaciones de terceros generales ampliamente utilizadas y 201 tareas representativas de escenarios de usuario comunes, lo que proporciona una base sólida para evaluar agentes de GUI móvil en situaciones del mundo real y un nuevo proceso de evaluación autónomo que requiere menos mano de obra humana y experiencia en programación. El proyecto está disponible en https://yuxiangchai.github.io/Android-Agent-Arena/.
Los avances recientes en modelos base han mejorado las capacidades de los sistemas de IA en el uso autónomo de herramientas y el razonamiento. Sin embargo, su habilidad en el razonamiento basado en ubicación o mapas - que mejora la vida diaria optimizando la navegación, facilitando el descubrimiento de recursos y agilizando la logística - no ha sido estudiada sistemáticamente. Para cerrar esta brecha, presentamos MapEval, un banco de pruebas diseñado para evaluar consultas de usuarios diversas y complejas basadas en mapas con razonamiento geo-espacial. MapEval presenta tres tipos de tareas (textuales, basadas en API y visuales) que requieren recopilar información mundial a través de herramientas de mapas, procesar contextos geo-espaciales heterogéneos (por ejemplo, entidades nombradas, distancias de viaje, reseñas o calificaciones de usuarios, imágenes) y razonamiento composicional, desafiantes para todos los modelos base de vanguardia. Consta de 700 preguntas de opción múltiple únicas sobre ubicaciones en 180 ciudades y 54 países, MapEval evalúa la capacidad de los modelos base para manejar relaciones espaciales, infografías de mapas, planificación de viajes y desafíos de navegación. Utilizando MapEval, realizamos una evaluación exhaustiva de 28 modelos base prominentes. Si bien ningún modelo individual destacó en todas las tareas, Claude-3.5-Sonnet, GPT-4o y Gemini-1.5-Pro lograron un rendimiento competitivo en general. Sin embargo, surgieron brechas de rendimiento sustanciales, especialmente en MapEval, donde los agentes con Claude-3.5-Sonnet superaron a GPT-4o y Gemini-1.5-Pro en un 16% y 21%, respectivamente, y las brechas se ampliaron aún más al comparar con LLM de código abierto. Nuestros análisis detallados proporcionan información sobre las fortalezas y debilidades de los modelos actuales, aunque todos los modelos aún se quedan cortos en más del 20% en promedio en comparación con el rendimiento humano, teniendo dificultades con imágenes de mapas complejas y razonamiento geo-espacial riguroso. Esta brecha destaca el papel crítico de MapEval en el avance de modelos base de propósito general con un entendimiento geo-espacial más sólido.
El reciente surgimiento de Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) ha introducido capacidades sofisticadas de razonamiento en el ámbito del video a través de Modelos de Lenguaje Grandes para Video (VideoLLMs). Sin embargo, los VideoLLMs actualmente dependen de un único codificador visual para todo su procesamiento visual, lo que limita la cantidad y tipo de información visual que se puede transmitir al LLM. Nuestro método, MERV, Representación Multi-Codificador de Videos, en cambio, aprovecha múltiples codificadores visuales congelados para crear una representación unificada de un video, proporcionando al VideoLLM un conjunto completo de conocimientos visuales especializados. Alinear espacial y temporalmente las características de cada codificador nos permite abordar una gama más amplia de preguntas de comprensión de video abiertas y de opción múltiple, superando a trabajos previos líderes en el estado del arte. MERV tiene una precisión hasta un 3.7% mejor que Video-LLaVA en las pruebas estándar de comprensión de video, y también obtiene una puntuación mejor en Video-ChatGPT. Mejoramos además a SeViLA, el anterior líder en precisión de Pruebas de Percepción sin entrenamiento previo, en un 2.2%. MERV introduce un número mínimo de parámetros adicionales y se entrena más rápido que los métodos equivalentes de un solo codificador, al mismo tiempo que paraleliza el procesamiento visual. Finalmente, proporcionamos evidencia cualitativa de que MERV captura con éxito conocimiento de dominio de cada uno de sus codificadores. Nuestros resultados ofrecen direcciones prometedoras en la utilización de múltiples codificadores visuales para una comprensión completa de videos.
Los modelos de lenguaje grandes actuales (LLMs) a menudo tienen dificultades para producir respuestas precisas en el primer intento para tareas de razonamiento complejas como la generación de código. Investigaciones previas abordan este desafío generando múltiples soluciones candidatas y validándolas con pruebas unitarias generadas por LLM. Los resultados de ejecución de las pruebas unitarias sirven como señales de recompensa para identificar las soluciones correctas. Dado que los LLM siempre cometen errores con confianza, estas pruebas unitarias no son confiables, disminuyendo así la calidad de las señales de recompensa. Motivados por la observación de que aumentar el número de soluciones mejora el rendimiento de los LLM, exploramos el impacto de escalar las pruebas unitarias para mejorar la calidad de las señales de recompensa. Nuestro experimento pionero revela una correlación positiva entre el número de pruebas unitarias y la calidad de las señales de recompensa, con mayores beneficios observados en problemas más desafiantes. Basándonos en estos conocimientos, proponemos CodeRM-8B, un generador de pruebas unitarias ligero pero efectivo que permite escalar las pruebas unitarias de manera eficiente y de alta calidad. Además, implementamos un mecanismo de escalado dinámico que adapta el número de pruebas unitarias según la dificultad del problema, mejorando aún más la eficiencia. Los resultados experimentales muestran que nuestro enfoque mejora significativamente el rendimiento en varios modelos en tres benchmarks (por ejemplo, con ganancias del 18.43% para Llama3-8B y del 3.42% para GPT-4o-mini en HumanEval Plus).
Personalizar modelos de texto a imagen para generar imágenes de sujetos específicos en escenas y estilos diversos es un campo en constante avance. Los enfoques actuales a menudo enfrentan desafíos para mantener un equilibrio entre la preservación de la identidad y la alineación con la entrada de texto. Algunos métodos se basan en un único token textual para representar un sujeto, lo que limita la expresividad, mientras que otros emplean representaciones más ricas pero pueden afectar la alineación con la entrada de texto. En este trabajo, presentamos Atención Anidada, un mecanismo novedoso que inyecta una representación de imagen rica y expresiva en las capas de atención cruzada existentes del modelo. Nuestra idea clave es generar valores de sujeto dependientes de la consulta, derivados de capas de atención anidadas que aprenden a seleccionar características relevantes del sujeto para cada región en la imagen generada. Integrando estas capas anidadas en un método de personalización basado en un codificador, demostramos que permiten una alta preservación de la identidad al mismo tiempo que se adhieren a las entradas de texto. Nuestro enfoque es general y puede ser entrenado en diversos dominios. Además, su preservación previa nos permite combinar múltiples sujetos personalizados de diferentes dominios en una sola imagen.
La restauración de video plantea desafíos no triviales en mantener la fidelidad mientras se recuperan detalles temporalmente consistentes de degradaciones desconocidas en entornos diversos. A pesar de los avances recientes en la restauración basada en difusión, estos métodos a menudo enfrentan limitaciones en la capacidad de generación y eficiencia de muestreo. En este trabajo, presentamos SeedVR, un transformador de difusión diseñado para manejar la restauración de video del mundo real con longitud y resolución arbitrarias. El diseño central de SeedVR radica en la atención de ventana desplazada que facilita la restauración efectiva en secuencias de video largas. SeedVR también soporta ventanas de tamaño variable cerca del límite de ambas dimensiones espaciales y temporales, superando las limitaciones de resolución de la atención de ventana tradicional. Equipado con prácticas contemporáneas, incluyendo autoencoder de video causal, entrenamiento mixto de imágenes y video, y entrenamiento progresivo, SeedVR logra un rendimiento altamente competitivo tanto en benchmarks sintéticos como del mundo real, así como en videos generados por IA. Experimentos extensos demuestran la superioridad de SeedVR sobre los métodos existentes para la restauración genérica de video.
Servicios de mapeo y navegación como Google Maps, Apple Maps, OpenStreetMaps, son esenciales para acceder a diversos datos basados en ubicaciones, sin embargo, a menudo tienen dificultades para manejar consultas geoespaciales en lenguaje natural. Los avances recientes en Modelos de Lenguaje Grande (LLMs) muestran promesa en la respuesta a preguntas (QA), pero la creación de conjuntos de datos confiables de QA geoespacial a partir de servicios de mapas sigue siendo un desafío. Presentamos MapQaTor, una aplicación web que agiliza la creación de conjuntos de datos de QA basados en mapas reproducibles y rastreables. Con su arquitectura plug-and-play, MapQaTor permite una integración perfecta con cualquier API de mapas, lo que permite a los usuarios recopilar y visualizar datos de diversas fuentes con una configuración mínima. Al almacenar en caché las respuestas de la API, la plataforma garantiza una verdad terrestre consistente, mejorando la confiabilidad de los datos incluso a medida que evoluciona la información del mundo real. MapQaTor centraliza la recuperación, anotación y visualización de datos dentro de una sola plataforma, ofreciendo una oportunidad única para evaluar el estado actual del razonamiento geoespacial basado en LLM, al tiempo que avanza en sus capacidades para una mejor comprensión geoespacial. Las métricas de evaluación muestran que MapQaTor acelera el proceso de anotación al menos 30 veces en comparación con los métodos manuales, subrayando su potencial para desarrollar recursos geoespaciales, como conjuntos de datos de razonamiento de mapas complejos. El sitio web está en vivo en: https://mapqator.github.io/ y un video demostrativo está disponible en: https://youtu.be/7_aV9Wmhs6Q.
Los Modelos Estructurados de Espacio de Estados (SSMs, por sus siglas en inglés) han surgido como alternativas a los transformadores. Si bien los SSMs suelen considerarse efectivos para capturar dependencias de largas secuencias, demostramos rigurosamente que están inherentemente limitados por un fuerte sesgo de recencia. Nuestros estudios empíricos también revelan que este sesgo afecta la capacidad de los modelos para recordar información distante e introduce problemas de robustez. Nuestros experimentos de escalado descubrieron que estructuras más profundas en los SSMs pueden facilitar el aprendizaje de contextos largos. Sin embargo, un análisis teórico posterior revela que a medida que los SSMs aumentan en profundidad, muestran otra tendencia inevitable hacia el exceso de suavizado, por ejemplo, las representaciones de tokens se vuelven cada vez más indistinguibles. Este dilema fundamental entre recencia y exceso de suavizado obstaculiza la escalabilidad de los SSMs existentes. Inspirados en nuestros hallazgos teóricos, proponemos polarizar dos canales de las matrices de transición de estados en los SSMs, estableciéndolos en cero y uno, respectivamente, abordando simultáneamente el sesgo de recencia y el exceso de suavizado. Los experimentos demuestran que nuestra técnica de polarización mejora consistentemente la precisión de recordación asociativa de tokens de largo alcance y permite a los SSMs beneficiarse aún más de arquitecturas más profundas. Todos los códigos fuente se encuentran disponibles en https://github.com/VITA-Group/SSM-Bottleneck.
Los modelos de difusión han demostrado una capacidad prometedora en la generación de datos de series temporales (TS) de alta calidad. A pesar del éxito inicial, los trabajos existentes se centran principalmente en la autenticidad de los datos a nivel individual, pero prestan menos atención a la preservación de las propiedades a nivel de población en todo el conjunto de datos. Estas propiedades a nivel de población incluyen las distribuciones de valores para cada dimensión y las distribuciones de ciertas dependencias funcionales (por ejemplo, la correlación cruzada, CC) entre diferentes dimensiones. Por ejemplo, al generar datos de TS de consumo de energía de una casa, se deben preservar las distribuciones de valores de la temperatura exterior y la temperatura de la cocina, así como la distribución de CC entre ellas. Preservar estas propiedades a nivel de población de las TS es fundamental para mantener las percepciones estadísticas de los conjuntos de datos, mitigar el sesgo del modelo y mejorar las tareas posteriores como la predicción de TS. Sin embargo, a menudo es pasado por alto por los modelos existentes. Por lo tanto, los datos generados por los modelos existentes a menudo presentan cambios en las distribuciones respecto a los datos originales. Proponemos Difusión Consciente de la Población para Series Temporales (PaD-TS), un nuevo modelo de generación de TS que preserva mejor las propiedades a nivel de población. Las principales novedades de PaD-TS incluyen 1) un nuevo método de entrenamiento que incorpora explícitamente la preservación de las propiedades a nivel de población de TS, y 2) una nueva arquitectura de modelo de codificador de doble canal que captura mejor la estructura de los datos de TS. Los resultados empíricos en conjuntos de datos de referencia importantes muestran que PaD-TS puede mejorar el puntaje de cambio en la distribución de CC promedio entre datos reales y sintéticos en 5.9 veces, manteniendo un rendimiento comparable a los modelos de vanguardia en autenticidad a nivel individual.
Los Transformers dependen tanto de mecanismos de direccionamiento basados en contenido como en posición para realizar predicciones, pero las técnicas de codificación posicional existentes a menudo disminuyen la efectividad del direccionamiento basado en posición. Muchos métodos actuales imponen patrones rígidos en los mapas de atención, limitando la capacidad de modelar dependencias a largo plazo y adaptarse a diversas tareas. Además, la mayoría de las codificaciones posicionales se aprenden como sesgos generales, careciendo de la especialización requerida para diferentes instancias dentro de un conjunto de datos. Para abordar esto, proponemos la Incrustación Posicional Equivariante Contextualizada (TAPE, por sus siglas en inglés), un marco novedoso que mejora las incrustaciones posicionales al incorporar contenido de secuencia a lo largo de las capas. TAPE introduce codificaciones posicionales dinámicas y conscientes del contexto, superando las limitaciones de los patrones fijos tradicionales. Al hacer cumplir la equivarianza de permutación y ortogonal, TAPE garantiza la estabilidad de las codificaciones posicionales durante las actualizaciones, mejorando la robustez y la adaptabilidad. Nuestro método se puede integrar fácilmente en transformers pre-entrenados, ofreciendo un ajuste fino eficiente en parámetros con un sobrecoste mínimo. Experimentos extensos muestran que TAPE logra un rendimiento superior en modelado de lenguaje, razonamiento aritmético y tareas de recuperación de largo contexto en comparación con las técnicas de incrustación posicional existentes.
La comprensión de la acción humana es crucial para el avance de los sistemas multimodales. Si bien los desarrollos recientes, impulsados por potentes modelos de lenguaje grandes (LLMs), buscan ser lo suficientemente generales para cubrir una amplia gama de categorías, a menudo pasan por alto la necesidad de capacidades más específicas. En este trabajo, abordamos la tarea más desafiante de Reconocimiento de Acciones Detallado (FAR), que se enfoca en etiquetas semánticas detalladas dentro de una duración temporal más corta (por ejemplo, "salto hacia atrás con 1 giro"). Dados los altos costos de anotar etiquetas detalladas y la gran cantidad de datos necesarios para el ajuste fino de LLMs, proponemos adoptar el aprendizaje semi-supervisado (SSL). Nuestro marco, SeFAR, incorpora varios diseños innovadores para abordar estos desafíos. Específicamente, para capturar detalles visuales suficientes, construimos elementos temporales de doble nivel como representaciones más efectivas, sobre los cuales diseñamos una nueva estrategia de aumento sólida para el paradigma de aprendizaje Maestro-Alumno mediante la inclusión de perturbaciones temporales moderadas. Además, para manejar la alta incertidumbre dentro de las predicciones del modelo maestro para FAR, proponemos la Regulación Adaptativa para estabilizar el proceso de aprendizaje. Los experimentos muestran que SeFAR logra un rendimiento de vanguardia en dos conjuntos de datos de FAR, FineGym y FineDiving, en varios ámbitos de datos. También supera a otros métodos semi-supervisados en dos conjuntos de datos clásicos de grano grueso, UCF101 y HMDB51. Estudios adicionales y de ablación validan la efectividad de nuestros diseños. Además, demostramos que las características extraídas por nuestro SeFAR podrían promover en gran medida la capacidad de los modelos de base multimodales para comprender semánticas detalladas y específicas de dominio.