Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos autorregresivos (ARMs) son ampliamente considerados como la piedra angular de los modelos de lenguaje a gran escala (LLMs). Desafiamos esta noción al presentar LLaDA, un modelo de difusión entrenado desde cero bajo el paradigma de preentrenamiento y ajuste fino supervisado (SFT). LLaDA modela distribuciones mediante un proceso de enmascaramiento de datos hacia adelante y un proceso inverso, parametrizado por un Transformer estándar para predecir tokens enmascarados. Al optimizar un límite de verosimilitud, ofrece un enfoque generativo fundamentado para la inferencia probabilística. En una amplia gama de benchmarks, LLaDA demuestra una fuerte escalabilidad, superando nuestras líneas base de ARMs construidas internamente. Notablemente, LLaDA 8B compite con LLMs potentes como LLaMA3 8B en aprendizaje en contexto y, tras el SFT, exhibe impresionantes capacidades de seguimiento de instrucciones en estudios de caso como diálogos multiturno. Además, LLaDA aborda la maldición de la inversión, superando a GPT-4o en una tarea de completar poemas invertidos. Nuestros hallazgos establecen a los modelos de difusión como una alternativa viable y prometedora a los ARMs, desafiando la suposición de que las capacidades clave de los LLMs discutidas anteriormente están intrínsecamente ligadas a los ARMs.
Los Modelos de Razonamiento Amplio (LRMs, por sus siglas en inglés) representan un avance en las capacidades de resolución de problemas de la IA, pero su efectividad en entornos interactivos puede ser limitada. Este documento introduce y analiza el sobreanálisis en los LRMs, un fenómeno en el que los modelos prefieren cadenas de razonamiento interno prolongadas sobre la interacción ambiental. A través de experimentos en tareas de ingeniería de software utilizando SWE Bench Verified, observamos tres patrones recurrentes: Parálisis del Análisis, Acciones Rebeldes y Desvinculación Prematura. Proponemos un marco para estudiar estos comportamientos, que se correlaciona con las evaluaciones de expertos humanos, y analizamos 4018 trayectorias. Observamos que puntajes más altos de sobreanálisis se correlacionan con un rendimiento disminuido, con modelos de razonamiento mostrando tendencias más fuertes hacia el sobreanálisis en comparación con modelos no razonadores. Nuestro análisis revela que simples esfuerzos para mitigar el sobreanálisis en entornos agentes, como seleccionar la solución con el menor puntaje de sobreanálisis, pueden mejorar el rendimiento del modelo en casi un 30% mientras se reducen los costos computacionales en un 43%. Estos resultados sugieren que mitigar el sobreanálisis tiene fuertes implicaciones prácticas. Sugerimos que al aprovechar las capacidades nativas de llamada de funciones y el aprendizaje por refuerzo selectivo, las tendencias de sobreanálisis podrían ser mitigadas. También compartimos de forma abierta nuestro marco de evaluación y conjunto de datos para facilitar la investigación en esta dirección en https://github.com/AlexCuadron/Overthinking.
Presentamos Step-Video-T2V, un modelo preentrenado de texto a video de última generación con 30B parámetros y la capacidad de generar videos de hasta 204 fotogramas de longitud. Se ha diseñado un Variational Autoencoder de compresión profunda, Video-VAE, para tareas de generación de video, logrando ratios de compresión espacial de 16x16 y temporal de 8x, mientras mantiene una calidad excepcional en la reconstrucción de video. Los prompts de los usuarios se codifican utilizando dos codificadores de texto bilingües para manejar tanto inglés como chino. Un DiT con atención completa 3D se entrena utilizando Flow Matching y se emplea para eliminar el ruido de la entrada y convertirlo en fotogramas latentes. Se aplica un enfoque DPO basado en video, Video-DPO, para reducir artefactos y mejorar la calidad visual de los videos generados. También detallamos nuestras estrategias de entrenamiento y compartimos observaciones e insights clave. El rendimiento de Step-Video-T2V se evalúa en un nuevo benchmark de generación de video, Step-Video-T2V-Eval, demostrando su calidad de texto a video de última generación en comparación con motores tanto de código abierto como comerciales. Además, discutimos las limitaciones del paradigma actual de modelos basados en difusión y esbozamos direcciones futuras para los modelos fundacionales de video. Hacemos disponibles tanto Step-Video-T2V como Step-Video-T2V-Eval en https://github.com/stepfun-ai/Step-Video-T2V. La versión en línea también puede accederse desde https://yuewen.cn/videos. Nuestro objetivo es acelerar la innovación de los modelos fundacionales de video y empoderar a los creadores de contenido de video.
Los modelos de difusión (DMs) se han convertido en la opción principal para tareas generativas en diversos dominios. Sin embargo, su dependencia de múltiples pasos secuenciales hacia adelante limita significativamente su rendimiento en tiempo real. Los métodos de aceleración anteriores se han centrado principalmente en reducir el número de pasos de muestreo o reutilizar resultados intermedios, sin aprovechar las variaciones entre las regiones espaciales dentro de la imagen debido a las limitaciones de las estructuras convolucionales U-Net. Aprovechando la flexibilidad de los Transformadores de Difusión (DiTs) para manejar un número variable de tokens, presentamos RAS, una novedosa estrategia de muestreo sin entrenamiento que asigna dinámicamente diferentes ratios de muestreo a las regiones de una imagen según el enfoque del modelo DiT. Nuestra observación clave es que, durante cada paso de muestreo, el modelo se concentra en regiones semánticamente significativas, y estas áreas de enfoque muestran una fuerte continuidad entre pasos consecutivos. Aprovechando esta idea, RAS actualiza solo las regiones que están actualmente en enfoque, mientras que otras regiones se actualizan utilizando ruido almacenado del paso anterior. El enfoque del modelo se determina en función de la salida del paso previo, capitalizando la consistencia temporal que observamos. Evaluamos RAS en Stable Diffusion 3 y Lumina-Next-T2I, logrando aceleraciones de hasta 2.36x y 2.51x, respectivamente, con una degradación mínima en la calidad de generación. Además, un estudio de usuarios revela que RAS ofrece calidades comparables bajo evaluación humana mientras alcanza una aceleración de 1.6x. Nuestro enfoque representa un avance significativo hacia transformadores de difusión más eficientes, potenciando su potencial para aplicaciones en tiempo real.
Los Modelos Multimodales de Gran Escala (LMMs) presentan importantes deficiencias al interpretar imágenes y, según algunas métricas, tienen una cognición espacial más pobre que niños pequeños o animales. A pesar de esto, obtienen puntuaciones altas en muchos benchmarks visuales populares, con un margen de mejora que se reduce rápidamente debido al continuo avance en el desarrollo de modelos. Para abordar este problema, existe una necesidad urgente de benchmarks difíciles que sigan siendo relevantes durante más tiempo. Llevamos esta idea al límite al introducir ZeroBench, un benchmark ligero de razonamiento visual que es completamente imposible para los LMMs de vanguardia actuales. Nuestro benchmark consta de 100 preguntas curadas manualmente y 334 subpreguntas menos difíciles. Evaluamos 20 LMMs en ZeroBench, todos los cuales obtienen un 0.0%, y analizamos rigurosamente los errores. Para fomentar el avance en la comprensión visual, publicamos ZeroBench de manera abierta.
A pesar de los avances notables en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés), la mayoría de los modelos de vanguardia no han sido sometidos a una alineación exhaustiva con las preferencias humanas. Esta brecha existe porque la investigación actual en alineación ha logrado progresos principalmente en áreas específicas (por ejemplo, la reducción de alucinaciones), mientras que la pregunta más amplia de si alinear los modelos con las preferencias humanas puede mejorar sistemáticamente la capacidad de los MLLMs sigue siendo en gran medida inexplorada. Con este fin, presentamos MM-RLHF, un conjunto de datos que contiene 120k pares de comparación de preferencias anotados por humanos con gran detalle. Este conjunto de datos representa un avance sustancial sobre los recursos existentes, ofreciendo un tamaño, diversidad, granularidad de anotación y calidad superiores. Aprovechando este conjunto de datos, proponemos varias innovaciones clave para mejorar tanto la calidad de los modelos de recompensa como la eficiencia de los algoritmos de alineación. En particular, introducimos un Modelo de Recompensa Basado en Críticas, que genera críticas de las salidas del modelo antes de asignar puntuaciones, ofreciendo una mayor interpretabilidad y retroalimentación más informativa en comparación con los mecanismos tradicionales de recompensa escalar. Además, proponemos Escalado Dinámico de Recompensas, un método que ajusta el peso de la pérdida de cada muestra según la señal de recompensa, optimizando así el uso de pares de comparación de alta calidad. Nuestro enfoque se evalúa rigurosamente en 10 dimensiones distintas y 27 benchmarks, con resultados que demuestran mejoras significativas y consistentes en el rendimiento del modelo. Específicamente, el ajuste fino de LLaVA-ov-7B con MM-RLHF y nuestro algoritmo de alineación conduce a un aumento del 19.5% en las habilidades conversacionales y una mejora del 60% en la seguridad. Hemos liberado el conjunto de datos de preferencias, el modelo de recompensa, el código de entrenamiento y evaluación, así como los benchmarks de modelado de recompensas y seguridad. Para más detalles, visite nuestra página del proyecto: https://mm-rlhf.github.io.
Los modelos de difusión permiten la síntesis de contenido visual de alta calidad y diversidad. Sin embargo, presentan dificultades para generar conceptos raros o no vistos. Para abordar este desafío, exploramos el uso de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) con modelos de generación de imágenes. Proponemos ImageRAG, un método que recupera dinámicamente imágenes relevantes basadas en un texto de entrada y las utiliza como contexto para guiar el proceso de generación. Enfoques previos que utilizaron imágenes recuperadas para mejorar la generación entrenaron modelos específicamente para la generación basada en recuperación. En contraste, ImageRAG aprovecha las capacidades de los modelos existentes de condicionamiento de imágenes y no requiere entrenamiento específico para RAG. Nuestro enfoque es altamente adaptable y puede aplicarse a diferentes tipos de modelos, mostrando una mejora significativa en la generación de conceptos raros y detallados utilizando diferentes modelos base. Nuestra página del proyecto está disponible en: https://rotem-shalev.github.io/ImageRAG.
Los modelos de lenguaje de razonamiento (LLMs) como OpenAI o1, o3 y DeepSeek R1 han logrado avances significativos en matemáticas y programación, pero aún encuentran desafiantes tareas avanzadas como los problemas de combinatoria de la Olimpiada Internacional de Matemáticas (IMO), los rompecabezas del Corpus de Abstracción y Razonamiento (ARC) y las preguntas del Examen Final de la Humanidad (HLE). Utilizamos un enfoque de inferencia diverso que combina múltiples modelos y métodos en tiempo de prueba. Descubrimos que verificar problemas de matemáticas y código, y realizar muestreo por rechazo en otros problemas, es simple y efectivo. Verificamos automáticamente la corrección de las soluciones a problemas de IMO mediante Lean, y los rompecabezas de ARC mediante código, y encontramos que el método de "mejor de N" responde efectivamente a las preguntas de HLE. Nuestro enfoque aumenta la precisión de las respuestas en problemas de combinatoria de IMO del 33.3% al 77.8%, la precisión en preguntas de HLE del 8% al 37%, y resuelve el 80% de los rompecabezas de ARC que 948 humanos no pudieron resolver y el 26.5% de los rompecabezas de ARC que el modelo o3 con alto poder computacional no resuelve. Las simulaciones en tiempo de prueba, el aprendizaje por refuerzo y el metaaprendizaje con retroalimentación de inferencia mejoran la generalización al adaptar las representaciones gráficas del agente y variar los prompts, el código y los conjuntos de datos. Nuestro enfoque es confiable, robusto y escalable, y en el espíritu de la investigación reproducible, lo haremos públicamente disponible tras su publicación.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado un éxito significativo en diversas tareas de Procesamiento del Lenguaje Natural (NLP). Sin embargo, sus enormes costos computacionales limitan su uso generalizado, especialmente en aplicaciones en tiempo real. La poda estructurada ofrece una solución efectiva al comprimir los modelos y proporcionar directamente mejoras de velocidad de extremo a extremo, independientemente del entorno de hardware. Mientras tanto, diferentes componentes del modelo muestran sensibilidades variables hacia la poda, lo que exige una compresión de modelo no uniforme. Sin embargo, un método de poda no solo debe identificar una subestructura capaz, sino también considerar el entrenamiento posterior a la compresión. Con este fin, proponemos \sysname, un método para la poda estructurada consciente del entrenamiento. \sysname se basa en un proceso de búsqueda evolutiva, generando múltiples modelos descendientes en cada generación mediante mutación y seleccionando los más aptos para sobrevivir. Para evaluar el efecto del entrenamiento posterior, incorporamos un proceso de entrenamiento ligero y de múltiples pasos dentro de la población de descendientes, aumentando progresivamente el número de tokens y eliminando los modelos con bajo rendimiento en cada etapa de selección. Validamos nuestro método mediante experimentos extensos en Llama-2-7B, Llama-3.1-8B y Qwen-2.5-14B-Instruct, logrando un rendimiento de vanguardia en la poda estructurada. Por ejemplo, \sysname supera a ShearedLlama mientras requiere 5 veces menos datos de entrenamiento durante el entrenamiento posterior a la compresión.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) suelen representar números utilizando múltiples tokens, lo que requiere que el modelo agregue estos tokens para interpretar valores numéricos. Esta fragmentación hace que tanto el entrenamiento como la inferencia sean menos eficientes y afecta negativamente el rendimiento del modelo en tareas relacionadas con números. Inspirados por la observación de que los LLMs preentrenados aprenden internamente características de tipo Fourier para los tokens numéricos, proponemos Fourier Number Embedding (FoNE), un método novedoso que mapea directamente los números en el espacio de incrustación utilizando sus características de Fourier. FoNE codifica cada número como un solo token con solo dos dimensiones de incrustación por dígito, capturando eficazmente los valores numéricos sin fragmentación. Esta representación compacta acelera tanto el entrenamiento como la inferencia. En comparación con las incrustaciones tradicionales basadas en subpalabras y dígitos, FoNE no solo reduce la sobrecarga computacional, sino que también logra una mayor precisión en diversas tareas numéricas, incluyendo suma, resta y multiplicación. En la suma de números decimales de 6 dígitos, FoNE requiere 64 veces menos datos para alcanzar un 99% de precisión que las incrustaciones basadas en subpalabras y dígitos, mientras utiliza 3 veces y 6 veces menos tokens por número, respectivamente. Además, FoNE es el único método que logra un 100% de precisión en más de 100,000 ejemplos de prueba para suma, resta y multiplicación. Los códigos y visualizaciones están disponibles en https://fouriernumber.github.io/.
Los modelos de difusión novedosos pueden sintetizar imágenes fotorrealistas con texto integrado de alta calidad. Sorprendentemente, demostramos mediante la manipulación de activaciones de atención que menos del 1% de los parámetros de los modelos de difusión, todos contenidos en las capas de atención, influyen en la generación de contenido textual dentro de las imágenes. Basándonos en esta observación, mejoramos la eficiencia y el rendimiento de la generación textual al enfocarnos en las capas de atención cruzada y conjunta de los modelos de difusión. Introducimos varias aplicaciones que se benefician de la localización de las capas responsables de la generación de contenido textual. Primero, mostramos que un ajuste fino basado en LoRA, aplicado únicamente a las capas localizadas, mejora aún más las capacidades generales de generación de texto de los grandes modelos de difusión, preservando la calidad y diversidad de las generaciones de estos modelos. Luego, demostramos cómo podemos utilizar las capas localizadas para editar el contenido textual en imágenes generadas. Finalmente, extendemos esta idea al caso práctico de prevenir la generación de texto tóxico de manera gratuita. A diferencia de trabajos anteriores, nuestro enfoque de localización es ampliamente aplicable a diversas arquitecturas de modelos de difusión, incluyendo U-Net (por ejemplo, LDM y SDXL) y basadas en transformadores (por ejemplo, DeepFloyd IF y Stable Diffusion 3), utilizando diversos codificadores de texto (desde CLIP hasta modelos de lenguaje grandes como T5). Página del proyecto disponible en https://t2i-text-loc.github.io/.
Este documento de posición argumenta que, para comprender la IA, no podemos depender de nuestro vocabulario existente de palabras humanas. En su lugar, deberíamos esforzarnos por desarrollar neologismos: nuevas palabras que representen conceptos humanos precisos que queremos enseñar a las máquinas, o conceptos de máquinas que necesitamos aprender. Partimos de la premisa de que los humanos y las máquinas tienen conceptos diferentes. Esto significa que la interpretabilidad puede enmarcarse como un problema de comunicación: los humanos deben poder referenciar y controlar los conceptos de las máquinas, y comunicar conceptos humanos a las máquinas. Creemos que crear un lenguaje compartido entre humanos y máquinas mediante el desarrollo de neologismos podría resolver este problema de comunicación. Los neologismos exitosos logran un nivel útil de abstracción: no demasiado detallados, para que sean reutilizables en muchos contextos, y no demasiado generales, para que transmitan información precisa. Como prueba de concepto, demostramos cómo un "neologismo de longitud" permite controlar la extensión de las respuestas de los LLM, mientras que un "neologismo de diversidad" permite muestrear respuestas más variables. En conjunto, argumentamos que no podemos comprender la IA utilizando nuestro vocabulario existente, y que expandirlo a través de neologismos crea oportunidades tanto para controlar como para entender mejor a las máquinas.
Los modelos fundamentales preentrenados (FMs, por sus siglas en inglés) han demostrado un rendimiento excepcional en tareas de pronóstico de series temporales univariadas. Sin embargo, persisten varios desafíos prácticos, como la gestión de dependencias complejas entre características y la cuantificación de la incertidumbre en las predicciones. Este estudio tiene como objetivo abordar estas limitaciones críticas mediante la introducción de adaptadores: transformaciones en el espacio de características que facilitan el uso efectivo de FMs preentrenados para series temporales univariadas en tareas multivariadas. Los adaptadores funcionan proyectando entradas multivariadas en un espacio latente adecuado y aplicando el FM de manera independiente a cada dimensión. Inspirados por la literatura sobre aprendizaje de representaciones y redes neuronales bayesianas parcialmente estocásticas, presentamos una variedad de adaptadores y estrategias de optimización/inferencia. Los experimentos realizados en conjuntos de datos sintéticos y del mundo real confirman la eficacia de los adaptadores, mostrando mejoras sustanciales en la precisión del pronóstico y la cuantificación de la incertidumbre en comparación con métodos de referencia. Nuestro marco, AdaPTS, posiciona a los adaptadores como una solución modular, escalable y efectiva para aprovechar los FMs de series temporales en contextos multivariados, promoviendo así su adopción más amplia en aplicaciones del mundo real. Publicamos el código en https://github.com/abenechehab/AdaPTS.
Los idiomas de bajos recursos (LRLs, por sus siglas en inglés) enfrentan desafíos significativos en el procesamiento del lenguaje natural (PLN) debido a la limitación de datos. Aunque los modelos de lenguaje grandes (LLMs) más avanzados actualmente aún tienen dificultades con los LRLs, los modelos multilingües más pequeños (mLMs), como mBERT y XLM-R, ofrecen mayor promesa debido a que su capacidad se ajusta mejor a los tamaños reducidos de datos de entrenamiento. Este estudio investiga sistemáticamente métodos eficientes en parámetros basados en adaptadores para adaptar mLMs a LRLs, evaluando tres arquitecturas: Cuello de Botella Secuencial, Cuello de Botella Invertible y Adaptación de Bajo Rango. Utilizando texto no estructurado de GlotCC y conocimiento estructurado de ConceptNet, demostramos que pequeños conjuntos de datos de adaptación (por ejemplo, hasta 1 GB de texto libre o unos pocos MB de datos de grafos de conocimiento) generan mejoras en tareas intrínsecas (modelado de lenguaje enmascarado) y extrínsecas (clasificación de temas, análisis de sentimientos y reconocimiento de entidades nombradas). Encontramos que los adaptadores de Cuello de Botella Secuencial sobresalen en el modelado de lenguaje, mientras que los adaptadores de Cuello de Botella Invertible superan ligeramente a otros métodos en tareas posteriores debido a una mejor alineación de incrustaciones y un mayor número de parámetros. Los métodos basados en adaptadores igualan o superan el ajuste fino completo mientras utilizan muchos menos parámetros, y los mLMs más pequeños resultan más efectivos para LRLs que los LLMs masivos como LLaMA-3, GPT-4 y modelos destilados basados en DeepSeek-R1. Aunque la adaptación mejora el rendimiento, el tamaño de los datos de preentrenamiento sigue siendo el factor dominante, especialmente para idiomas con una amplia cobertura de preentrenamiento.
El ajuste fino de Modelos de Lenguaje Grandes (LLMs) en conjuntos de datos específicos es una práctica común para mejorar el rendimiento en tareas objetivo. Sin embargo, esta mejora de rendimiento a menudo conduce al sobreajuste, donde el modelo se especializa demasiado en la tarea o en las características de los datos de entrenamiento, lo que resulta en una pérdida de generalización. Este documento presenta el Enfoque de Ajuste Fino Selectivo de Auto a Supervisado (S3FT), un enfoque de ajuste fino que logra un mejor rendimiento que el ajuste fino supervisado estándar (SFT) al tiempo que mejora la generalización. S3FT aprovecha la existencia de múltiples respuestas válidas a una consulta. Al utilizar las respuestas correctas del modelo, S3FT reduce la especialización del modelo durante la etapa de ajuste fino. S3FT primero identifica las respuestas correctas del modelo en el conjunto de entrenamiento desplegando un juez apropiado. Luego, ajusta finamente el modelo utilizando las respuestas correctas del modelo y la respuesta correcta (o su paráfrasis) para las muestras restantes. La efectividad de S3FT se demuestra a través de experimentos en tareas de razonamiento matemático, programación en Python y comprensión de lectura. Los resultados muestran que el SFT estándar puede llevar a una caída de rendimiento promedio de hasta 4.4 en múltiples pruebas, como MMLU y TruthfulQA. En contraste, S3FT reduce esta caída a la mitad, es decir, 2.5, lo que indica mejores capacidades de generalización que SFT mientras se desempeña significativamente mejor en las tareas de ajuste fino.
En este documento, proponemos una arquitectura de convolución multinivel eficiente para el anclaje visual en 3D. Los métodos convencionales tienen dificultades para cumplir con los requisitos de inferencia en tiempo real debido a la arquitectura en dos etapas o basada en puntos. Inspirados por el éxito de la arquitectura de convolución completamente dispersa multinivel en la detección de objetos en 3D, nuestro objetivo es construir un nuevo marco de anclaje visual en 3D siguiendo esta ruta técnica. Sin embargo, en la tarea de anclaje visual en 3D, la representación de la escena en 3D debe interactuar profundamente con las características de texto, y la arquitectura basada en convolución dispersa es ineficiente para esta interacción debido a la gran cantidad de características de voxel. Con este fin, proponemos el podado guiado por texto (TGP, por sus siglas en inglés) y la adición basada en completado (CBA, por sus siglas en inglés) para fusionar profundamente la representación de la escena en 3D y las características de texto de manera eficiente mediante el podado gradual de regiones y el completado de objetivos. Específicamente, TGP esparsifica de forma iterativa la representación de la escena en 3D y, por lo tanto, interactúa eficientemente las características de voxel con las características de texto mediante la atención cruzada. Para mitigar el efecto del podado en la información geométrica delicada, CBA corrige de forma adaptativa la región sobre-podada mediante el completado de voxel con un costo computacional insignificante. En comparación con los métodos anteriores de una sola etapa, nuestro método logra la máxima velocidad de inferencia y supera al método más rápido anterior en un 100\% de FPS. Nuestro método también logra una precisión de vanguardia incluso en comparación con los métodos en dos etapas, con una ventaja de +1.13 en [email protected] en ScanRefer, y ventajas de +2.6 y +3.2 en NR3D y SR3D respectivamente. El código está disponible en https://github.com/GWxuan/TSP3D.
Un objetivo clave de la inteligencia encarnada es permitir que los agentes realicen tareas de largo plazo en entornos dinámicos, manteniendo una toma de decisiones robusta y adaptabilidad. Para lograr este objetivo, proponemos el Agente de Memoria Espacio-Temporal (STMA, por sus siglas en inglés), un marco novedoso diseñado para mejorar la planificación y ejecución de tareas mediante la integración de memoria espacio-temporal. STMA se basa en tres componentes críticos: (1) un módulo de memoria espacio-temporal que captura cambios históricos y ambientales en tiempo real, (2) un grafo de conocimiento dinámico que facilita el razonamiento espacial adaptativo, y (3) un mecanismo planificador-crítico que refina iterativamente las estrategias de tareas. Evaluamos STMA en el entorno TextWorld en 32 tareas, que involucran planificación de múltiples pasos y exploración bajo distintos niveles de complejidad. Los resultados experimentales demuestran que STMA logra una mejora del 31.25% en la tasa de éxito y un aumento del 24.7% en la puntuación promedio en comparación con el modelo de última generación. Los resultados destacan la efectividad de la memoria espacio-temporal para avanzar en las capacidades de memoria de los agentes encarnados.
El Modelado de Imágenes Enmascaradas (MIM, por sus siglas en inglés) ofrece un enfoque prometedor para el aprendizaje de representaciones auto-supervisado; sin embargo, los modelos MIM existentes aún se quedan atrás respecto al estado del arte. En este artículo, analizamos sistemáticamente las representaciones objetivo, las funciones de pérdida y las arquitecturas para presentar CAPI, un novedoso marco de trabajo puramente MIM que se basa en la predicción de agrupamientos latentes. Nuestro enfoque aprovecha una función de pérdida basada en agrupamientos, que es estable para entrenar y muestra propiedades prometedoras de escalabilidad. Nuestro modelo base ViT-L, CAPI, alcanza un 83.8% de precisión en ImageNet y un 32.1% de mIoU en ADE20K con simples pruebas lineales, superando sustancialmente a los métodos MIM anteriores y acercándose al rendimiento del estado del arte actual, DINOv2. Publicamos todo nuestro código y modelos.
En las aplicaciones de los modelos de difusión, la generación controlable tiene una importancia práctica significativa, pero también presenta desafíos. Los métodos actuales para la generación controlable se centran principalmente en modificar la función de puntuación de los modelos de difusión, mientras que la Difusión de Reversión a la Media (MR Diffusion) modifica directamente la estructura de la ecuación diferencial estocástica (SDE), lo que hace que la incorporación de condiciones de imagen sea más simple y natural. Sin embargo, los muestreadores rápidos actuales que no requieren entrenamiento no son directamente aplicables a MR Diffusion. Por lo tanto, MR Diffusion requiere cientos de NFEs (número de evaluaciones de función) para obtener muestras de alta calidad. En este artículo, proponemos un nuevo algoritmo llamado MRS (MR Sampler) para reducir los NFEs de muestreo de MR Diffusion. Resolvemos la SDE en tiempo inverso y la ecuación diferencial ordinaria de flujo de probabilidad (PF-ODE) asociada con MR Diffusion, y derivamos soluciones semi-analíticas. Las soluciones consisten en una función analítica y un parámetro integral parametrizado por una red neuronal. Basándonos en esta solución, podemos generar muestras de alta calidad en menos pasos. Nuestro enfoque no requiere entrenamiento y es compatible con todas las parametrizaciones principales, incluyendo la predicción de ruido, la predicción de datos y la predicción de velocidad. Experimentos extensos demuestran que MR Sampler mantiene una alta calidad de muestreo con una aceleración de 10 a 20 veces en diez tareas diferentes de restauración de imágenes. Nuestro algoritmo acelera el procedimiento de muestreo de MR Diffusion, haciéndolo más práctico en la generación controlable.
CLaMP 3 es un marco unificado desarrollado para abordar los desafíos de generalización cruzada de modalidades y lenguajes en la recuperación de información musical. Utilizando el aprendizaje contrastivo, alinea todas las principales modalidades musicales, incluyendo partituras, señales de interpretación y grabaciones de audio, con texto multilingüe en un espacio de representación compartido, lo que permite la recuperación entre modalidades no alineadas con el texto como puente. Presenta un codificador de texto multilingüe adaptable a idiomas no vistos, mostrando una sólida generalización cruzada de lenguajes. Aprovechando la generación aumentada por recuperación, creamos M4-RAG, un conjunto de datos a escala web que consta de 2.31 millones de pares música-texto. Este conjunto de datos está enriquecido con metadatos detallados que representan una amplia gama de tradiciones musicales globales. Para avanzar en la investigación futura, lanzamos WikiMT-X, un banco de pruebas que comprende 1,000 tripletes de partituras, audio y descripciones de texto variadas y ricas. Los experimentos muestran que CLaMP 3 logra un rendimiento de vanguardia en múltiples tareas de recuperación de información musical, superando significativamente baselines sólidos anteriores y demostrando una excelente generalización en contextos musicales multimodales y multilingües.
Los vehículos de conducción autónoma actuales dependen principalmente de sus sensores individuales para comprender las escenas circundantes y planificar trayectorias futuras, lo que puede resultar poco fiable cuando los sensores presentan fallos o están ocluidos. Para abordar este problema, se han propuesto métodos de percepción cooperativa mediante comunicación vehículo a vehículo (V2V), pero estos han tendido a centrarse en la detección y el seguimiento. Cómo contribuyen estos enfoques al rendimiento general de la planificación cooperativa sigue siendo un área poco explorada. Inspirados por los recientes avances en el uso de Modelos de Lenguaje de Gran Escala (LLMs) para construir sistemas de conducción autónoma, proponemos un nuevo escenario problemático que integra un LLM en la conducción autónoma cooperativa, junto con el conjunto de datos y punto de referencia propuesto Vehicle-to-Vehicle Question-Answering (V2V-QA). También proponemos nuestro método base Vehicle-to-Vehicle Large Language Model (V2V-LLM), que utiliza un LLM para fusionar información de percepción de múltiples vehículos autónomos conectados (CAVs) y responder preguntas relacionadas con la conducción: fundamentación, identificación de objetos notables y planificación. Los resultados experimentales muestran que nuestro V2V-LLM propuesto puede ser una arquitectura de modelo unificada prometedora para realizar diversas tareas en la conducción autónoma cooperativa, superando a otros métodos base que utilizan diferentes enfoques de fusión. Nuestro trabajo también crea una nueva dirección de investigación que puede mejorar la seguridad de los futuros sistemas de conducción autónoma. Nuestro sitio web del proyecto: https://eddyhkchiu.github.io/v2vllm.github.io/.
El entrenamiento de rechazo en Modelos de Lenguaje de Gran Escala (LLMs) previene salidas dañinas, pero esta defensa sigue siendo vulnerable tanto a jailbreaks automatizados como a aquellos creados por humanos. Presentamos un enfoque novedoso de LLM-como-equipo-rojo en el que un humano realiza un jailbreak a un LLM entrenado para rechazar, haciéndolo dispuesto a realizar jailbreaks a sí mismo o a otros LLMs. Nos referimos a los LLMs con jailbreak como atacantes J_2, los cuales pueden evaluar sistemáticamente modelos objetivo utilizando diversas estrategias de equipo rojo y mejorar su rendimiento mediante aprendizaje en contexto a partir de fallos previos. Nuestros experimentos demuestran que Sonnet 3.5 y Gemini 1.5 pro superan a otros LLMs como J_2, logrando tasas de éxito de ataque (ASRs) del 93.0% y 91.0% respectivamente contra GPT-4o (y resultados similares en otros LLMs capaces) en Harmbench. Nuestro trabajo no solo introduce un enfoque escalable para el equipo rojo estratégico, inspirándose en equipos rojos humanos, sino que también destaca el jailbreak-a-jailbreak como un modo de fallo pasado por alto de las salvaguardias. Específicamente, un LLM puede eludir sus propias salvaguardias empleando una versión con jailbreak de sí mismo que esté dispuesta a asistir en más jailbreaks. Para prevenir cualquier uso indebido directo con J_2, mientras avanzamos en la investigación de seguridad en IA, compartimos públicamente nuestra metodología manteniendo privados los detalles específicos de los prompts.
Las proteínas son máquinas moleculares dinámicas cuyas funciones biológicas, que abarcan la catálisis enzimática, la transducción de señales y la adaptación estructural, están intrínsecamente ligadas a sus movimientos. Sin embargo, diseñar proteínas con propiedades dinámicas específicas sigue siendo un desafío debido a las relaciones complejas y degeneradas entre secuencia, estructura y movimiento molecular. Aquí presentamos VibeGen, un marco de IA generativa que permite el diseño de novo de proteínas de extremo a extremo condicionado por vibraciones de modos normales. VibeGen emplea una arquitectura dual de modelos, que incluye un diseñador de proteínas que genera candidatos de secuencia basados en modos vibratorios especificados y un predictor de proteínas que evalúa su precisión dinámica. Este enfoque combina diversidad, precisión y novedad durante el proceso de diseño. Mediante simulaciones moleculares de átomo completo como validación directa, demostramos que las proteínas diseñadas reproducen con precisión las amplitudes de los modos normales prescritos a lo largo de la cadena principal, adoptando diversas estructuras estables y funcionalmente relevantes. Cabe destacar que las secuencias generadas son de novo, sin mostrar similitudes significativas con proteínas naturales, lo que expande el espacio accesible de proteínas más allá de las restricciones evolutivas. Nuestro trabajo integra la dinámica proteica en el diseño generativo de proteínas y establece un vínculo directo y bidireccional entre la secuencia y el comportamiento vibratorio, abriendo nuevas vías para la ingeniería de biomoléculas con propiedades dinámicas y funcionales personalizadas. Este marco tiene amplias implicaciones para el diseño racional de enzimas flexibles, andamios dinámicos y biomateriales, allanando el camino hacia la ingeniería de proteínas impulsada por IA basada en la dinámica molecular.