Artículos de investigación en IA seleccionados diariamente con traducciones
La Detección de Texto Artificial (ATD, por sus siglas en inglés) está adquiriendo una importancia creciente con el auge de los Modelos de Lenguaje de Gran Escala (LLMs). A pesar de numerosos esfuerzos, ningún algoritmo único funciona consistentemente bien en diferentes tipos de texto no visto ni garantiza una generalización efectiva hacia nuevos LLMs. La interpretabilidad juega un papel crucial para alcanzar este objetivo. En este estudio, mejoramos la interpretabilidad de la ATD utilizando Autoencoders Dispersos (SAE) para extraer características del flujo residual de Gemma-2-2b. Identificamos tanto características interpretables como eficientes, analizando su semántica y relevancia mediante estadísticas específicas del dominio y del modelo, un enfoque de direccionamiento, e interpretación manual o basada en LLMs. Nuestros métodos ofrecen valiosas perspectivas sobre cómo los textos generados por diversos modelos difieren del contenido escrito por humanos. Demostramos que los LLMs modernos tienen un estilo de escritura distintivo, especialmente en dominios con alta densidad de información, a pesar de que pueden producir resultados similares a los humanos mediante indicaciones personalizadas.
Los Modelos de Lenguaje a Gran Escala han logrado un éxito notable en diversas tareas de procesamiento de lenguaje natural, aunque su alto costo computacional durante la inferencia sigue siendo un cuello de botella importante. Este artículo presenta Sparse Expert Activation Pruning (SEAP), un método de poda que no requiere entrenamiento y que retiene selectivamente los parámetros relevantes para la tarea, reduciendo así la sobrecarga de inferencia. Inspirado por los patrones de agrupamiento de los estados ocultos y las activaciones en los modelos de lenguaje, SEAP identifica patrones de activación específicos de la tarea y poda el modelo mientras preserva el rendimiento de la tarea y mejora la eficiencia computacional. Los resultados experimentales demuestran que SEAP reduce significativamente la sobrecarga computacional manteniendo una precisión competitiva. En particular, con un 50% de poda, SEAP supera tanto a WandA como a FLAP en más de un 20%, y con un 20% de poda, incurre en solo una caída del 2.2% en el rendimiento en comparación con el modelo denso. Estos hallazgos resaltan la escalabilidad y efectividad de SEAP, convirtiéndolo en un enfoque prometedor para optimizar modelos de lenguaje a gran escala.
Presentamos MM-Eureka, un modelo de razonamiento multimodal que extiende exitosamente el aprendizaje por refuerzo (RL) basado en reglas a gran escala al razonamiento multimodal. Si bien el RL basado en reglas ha demostrado un éxito notable en mejorar las capacidades de razonamiento de los LLMs en dominios textuales, su aplicación en entornos multimodales ha seguido siendo un desafío. Nuestro trabajo reproduce características clave de los sistemas de RL basados en texto, como DeepSeek-R1, en el espacio multimodal, incluyendo aumentos constantes en la recompensa de precisión y la longitud de las respuestas, así como la aparición de comportamientos de reflexión. Demostramos que tanto los modelos ajustados por instrucción como los preentrenados pueden desarrollar fuertes capacidades de razonamiento multimodal a través del RL basado en reglas sin necesidad de ajuste fino supervisado, mostrando una eficiencia de datos superior en comparación con enfoques alternativos. Hacemos público nuestro pipeline completo para fomentar más investigaciones en esta área. Liberamos todos nuestros códigos, modelos, datos, etc. en https://github.com/ModalMinds/MM-EUREKA.
El Transformer de Difusión ha demostrado una capacidad y escalabilidad potentes en la generación de imágenes y videos de alta calidad. Avanzar hacia la unificación de tareas de generación y edición ha logrado un progreso significativo en el ámbito de la creación de contenido visual. Sin embargo, debido a las demandas intrínsecas de consistencia tanto en las dinámicas temporales como espaciales, lograr un enfoque unificado para la síntesis de videos sigue siendo un desafío. Presentamos VACE, que permite a los usuarios realizar tareas de video dentro de un marco integral para la Creación y Edición. Estas tareas incluyen la generación de video a partir de referencias, la edición de video a video y la edición de video enmascarado. Específicamente, integramos eficazmente los requisitos de diversas tareas organizando las entradas de tareas de video, como edición, referencia y enmascaramiento, en una interfaz unificada denominada Unidad de Condición de Video (VCU). Además, al utilizar una estructura de Adaptador de Contexto, inyectamos diferentes conceptos de tareas en el modelo mediante representaciones formalizadas de dimensiones temporales y espaciales, permitiéndole manejar tareas arbitrarias de síntesis de video de manera flexible. Experimentos exhaustivos demuestran que el modelo unificado de VACE logra un rendimiento comparable con modelos específicos para tareas en varios subtareas. Simultáneamente, habilita diversas aplicaciones a través de combinaciones versátiles de tareas. Página del proyecto: https://ali-vilab.github.io/VACE-Page/.
Los marcos existentes para la generación de videos de larga duración carecen de planificación automatizada, requiriendo entrada manual para tramas, escenas, cinematografía e interacciones de personajes, lo que resulta en altos costos e ineficiencias. Para abordar estos desafíos, presentamos MovieAgent, una generación automatizada de películas mediante planificación de Cadena de Pensamiento (CoT) multiagente. MovieAgent ofrece dos ventajas clave: 1) Exploramos y definimos por primera vez el paradigma de la generación automatizada de películas/videos largos. Dado un guion y un banco de personajes, nuestro MovieAgent puede generar videos de larga duración con múltiples escenas y tomas, manteniendo una narrativa coherente, consistencia de personajes, subtítulos sincronizados y audio estable a lo largo de la película. 2) MovieAgent introduce un proceso de razonamiento jerárquico basado en CoT para estructurar automáticamente escenas, configuraciones de cámara y cinematografía, reduciendo significativamente el esfuerzo humano. Al emplear múltiples agentes de LLM para simular los roles de director, guionista, artista de storyboard y gerente de locaciones, MovieAgent optimiza la línea de producción. Los experimentos demuestran que MovieAgent alcanza nuevos resultados de vanguardia en fidelidad al guion, consistencia de personajes y coherencia narrativa. Nuestro marco jerárquico da un paso adelante y ofrece nuevas perspectivas sobre la generación completamente automatizada de películas. El código y el sitio web del proyecto están disponibles en: https://github.com/showlab/MovieAgent y https://weijiawu.github.io/MovieAgent.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés), construidos sobre torres de visión y modelos de lenguaje preentrenados a gran escala, han demostrado grandes capacidades en la comprensión multimodal. Sin embargo, la mayoría de los MLLMs existentes se entrenan en tareas de preguntas y respuestas visuales de un solo turno, lo que no refleja con precisión las conversaciones humanas del mundo real. En este artículo, presentamos MMDiag, un conjunto de datos de diálogo multimodal de múltiples turnos. Este conjunto de datos se genera de manera colaborativa mediante reglas diseñadas deliberadamente y con la asistencia de GPT, presentando fuertes correlaciones entre preguntas, entre preguntas e imágenes, y entre diferentes regiones de la imagen; alineándose así más estrechamente con escenarios del mundo real. MMDiag sirve como un sólido punto de referencia para el aprendizaje de diálogos multimodales de múltiples turnos y plantea mayores desafíos a las capacidades de fundamentación y razonamiento de los MLLMs. Además, inspirados por el procesamiento visual humano, presentamos DiagNote, un MLLM equipado con capacidades de fundamentación y razonamiento multimodal. DiagNote consta de dos módulos (Deliberate y Gaze) que interactúan entre sí para realizar, respectivamente, cadenas de pensamiento (Chain-of-Thought) y anotaciones a lo largo de diálogos de múltiples turnos. Demostramos empíricamente las ventajas de DiagNote tanto en la fundamentación como en el procesamiento conjunto y el razonamiento con información visual y lingüística en comparación con los MLLMs existentes.
El Aprendizaje Federado (FL, por sus siglas en inglés) es un marco ampliamente utilizado para entrenar modelos de manera descentralizada, asegurando que el servidor central no tenga acceso directo a los datos de los clientes locales. Sin embargo, este enfoque puede no preservar completamente la privacidad de los datos, ya que los modelos de los clientes locales quedan expuestos al servidor central durante el proceso de agregación. Este problema se vuelve aún más crítico al entrenar modelos de visión y lenguaje (VLMs) con FL, ya que los VLMs pueden memorizar fácilmente instancias de datos de entrenamiento, haciéndolos vulnerables a ataques de inferencia de pertenencia (MIAs). Para abordar este desafío, proponemos el marco FedRand, que evita la divulgación del conjunto completo de parámetros de los clientes. En este marco, cada cliente selecciona aleatoriamente subparámetros de Adaptación de Bajo Rango (LoRA) del servidor y mantiene las contrapartes restantes de los pesos LoRA como parámetros privados. Después de entrenar ambos parámetros en el conjunto de datos privados del cliente, solo los parámetros no privados se envían de vuelta al servidor para su agregación. Este enfoque mitiga el riesgo de exponer los parámetros de los VLMs en el lado del cliente, mejorando así la privacidad de los datos. Validamos empíricamente que FedRand mejora la robustez frente a MIAs en comparación con líneas de base relevantes, al tiempo que logra una precisión comparable a los métodos que comunican parámetros LoRA completos en varios conjuntos de datos de referencia.
A pesar del éxito de la destilación en los modelos de lenguaje de gran escala (LLMs), la mayoría de los trabajos previos aplican funciones de pérdida idénticas tanto a los datos generados por el profesor como por el estudiante. Estas estrategias pasan por alto la sinergia entre las formulaciones de pérdida y los tipos de datos, lo que resulta en un aumento de rendimiento subóptimo en los modelos estudiantiles. Para abordar esto, proponemos DistiLLM-2, un enfoque contrastivo que simultáneamente aumenta la probabilidad de las respuestas del profesor y disminuye la de las respuestas del estudiante al aprovechar esta sinergia. Nuestros extensos experimentos muestran que DistiLLM-2 no solo construye modelos estudiantiles de alto rendimiento en una amplia gama de tareas, incluyendo la seguimiento de instrucciones y la generación de código, sino que también respalda diversas aplicaciones, como la alineación de preferencias y extensiones de visión-lenguaje. Estos hallazgos resaltan el potencial de un enfoque contrastivo para mejorar la eficacia de la destilación de LLMs al alinear efectivamente los modelos del profesor y del estudiante en diversos tipos de datos.
DeepSeek-R1-Zero ha demostrado con éxito la emergencia de capacidades de razonamiento en LLMs (Modelos de Lenguaje de Gran Escala) únicamente a través del Aprendizaje por Refuerzo (RL, por sus siglas en inglés). Inspirados por este avance, exploramos cómo el RL puede ser utilizado para mejorar la capacidad de razonamiento de los MLLMs (Modelos Multimodales de Lenguaje de Gran Escala). Sin embargo, el entrenamiento directo con RL enfrenta dificultades para activar capacidades de razonamiento complejas, como el cuestionamiento y la reflexión en los MLLMs, debido a la ausencia de datos sustanciales y de alta calidad para el razonamiento multimodal. Para abordar este problema, proponemos el MLLM de razonamiento, Vision-R1, con el objetivo de mejorar la capacidad de razonamiento multimodal. Específicamente, primero construimos un conjunto de datos multimodal de alta calidad sin anotaciones humanas, aprovechando un MLLM existente y DeepSeek-R1 mediante la conexión de modalidades y el filtrado de datos, obteniendo un conjunto de datos multimodal de 200K, denominado Vision-R1-cold. Este conjunto de datos sirve como inicialización de arranque en frío para Vision-R1. Para mitigar los desafíos de optimización causados por el sobrepensamiento después del arranque en frío, proponemos la estrategia de Entrenamiento de Supresión de Pensamiento Progresivo (PTST, por sus siglas en inglés) y empleamos la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) con la función de recompensa de resultados de formato duro, para refinar gradualmente la capacidad del modelo para aprender procesos de razonamiento correctos y complejos en un conjunto de datos matemáticos multimodales de 10K. Experimentos exhaustivos muestran que nuestro modelo logra una mejora promedio de ~6% en varios puntos de referencia de razonamiento matemático multimodal. Vision-R1-7B alcanza un 73.5% de precisión en el ampliamente utilizado punto de referencia MathVista, lo cual es solo un 0.4% inferior al modelo líder de razonamiento, OpenAI O1. Los conjuntos de datos y el código serán liberados en: https://github.com/Osilly/Vision-R1.
Los recientes avances en los modelos de difusión basados en Unet, como ControlNet e IP-Adapter, han introducido mecanismos efectivos de control espacial y temático. Sin embargo, la arquitectura DiT (Diffusion Transformer) aún enfrenta dificultades para lograr un control eficiente y flexible. Para abordar este problema, proponemos EasyControl, un marco novedoso diseñado para unificar transformadores de difusión guiados por condiciones con alta eficiencia y flexibilidad. Nuestro marco se basa en tres innovaciones clave. Primero, introducimos un módulo ligero de Inyección de Condiciones LoRA. Este módulo procesa señales condicionales de forma aislada, actuando como una solución plug-and-play. Evita modificar los pesos del modelo base, asegurando compatibilidad con modelos personalizados y permitiendo la inyección flexible de diversas condiciones. Notablemente, este módulo también soporta una generalización robusta y armoniosa de múltiples condiciones en zero-shot, incluso cuando se entrena solo con datos de una sola condición. Segundo, proponemos un Paradigma de Entrenamiento Consciente de la Posición. Este enfoque estandariza las condiciones de entrada a resoluciones fijas, permitiendo la generación de imágenes con proporciones arbitrarias y resoluciones flexibles. Al mismo tiempo, optimiza la eficiencia computacional, haciendo que el marco sea más práctico para aplicaciones del mundo real. Tercero, desarrollamos un Mecanismo de Atención Causal combinado con la técnica KV Cache, adaptado para tareas de generación condicional. Esta innovación reduce significativamente la latencia de la síntesis de imágenes, mejorando la eficiencia general del marco. A través de extensos experimentos, demostramos que EasyControl logra un rendimiento excepcional en diversos escenarios de aplicación. Estas innovaciones hacen que nuestro marco sea altamente eficiente, flexible y adecuado para una amplia gama de tareas.
La incorporación de conocimiento externo en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) mejora su utilidad en diversas aplicaciones, pero los métodos existentes presentan compensaciones. La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) obtiene evidencia mediante búsqueda por similitud, pero la información clave puede quedar fuera de los resultados mejor clasificados. Los modelos de contexto largo pueden procesar múltiples documentos, pero son computacionalmente costosos y están limitados por el tamaño de la ventana de contexto. Inspirados por los estudiantes que condensan material de estudio para exámenes de libro abierto, proponemos la compresión de caché clave-valor (KV, por sus siglas en inglés) consciente de la tarea, que comprime el conocimiento externo en un entorno de cero o pocos ejemplos. Esto permite que los LLMs razonen de manera eficiente sobre una representación compacta de toda la información relevante. Los experimentos muestran que nuestro enfoque supera tanto a RAG como a los métodos de compresión agnósticos de la tarea. En LongBench v2, mejora la precisión hasta en 7 puntos absolutos sobre RAG con una tasa de compresión de 30x, mientras reduce la latencia de inferencia de 0.43s a 0.16s. Un conjunto de datos sintético destaca que RAG funciona bien cuando la evidencia dispersa es suficiente, mientras que la compresión consciente de la tarea es superior para tareas que requieren un conocimiento amplio.
OpenAI o1 y DeepSeek R1 logran o incluso superan el rendimiento de expertos humanos en dominios complejos como las matemáticas y las ciencias, donde el aprendizaje por refuerzo (RL) y el razonamiento desempeñan un papel crucial. En la conducción autónoma, los modelos recientes de extremo a extremo han mejorado significativamente el desempeño en planificación, pero aún enfrentan problemas de cola larga debido a capacidades limitadas de sentido común y razonamiento. Algunos estudios integran modelos de visión-lenguaje (VLMs) en la conducción autónoma, pero generalmente dependen de modelos preentrenados con un ajuste fino supervisado (SFT) simple en datos de conducción, sin explorar más a fondo estrategias de entrenamiento u optimizaciones específicamente diseñadas para la planificación. En este artículo, proponemos AlphaDrive, un marco de RL y razonamiento para VLMs en conducción autónoma. AlphaDrive introduce cuatro recompensas de RL basadas en GRPO adaptadas para la planificación y emplea una estrategia de entrenamiento de razonamiento en planificación de dos etapas que combina SFT con RL. Como resultado, AlphaDrive mejora significativamente tanto el desempeño en planificación como la eficiencia del entrenamiento en comparación con el uso exclusivo de SFT o sin razonamiento. Además, también nos entusiasma descubrir que, tras el entrenamiento con RL, AlphaDrive exhibe algunas capacidades emergentes de planificación multimodal, lo cual es crítico para mejorar la seguridad y eficiencia en la conducción. Hasta donde sabemos, AlphaDrive es el primero en integrar RL basado en GRPO con razonamiento en planificación en la conducción autónoma. El código será liberado para facilitar futuras investigaciones.
La implementación de nuevas funcionalidades en bases de código a nivel de repositorio es una aplicación crucial de los modelos de generación de código. Sin embargo, los puntos de referencia actuales carecen de un marco de evaluación dedicado para esta capacidad. Para llenar este vacío, presentamos FEA-Bench, un punto de referencia diseñado para evaluar la capacidad de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para realizar desarrollo incremental dentro de repositorios de código. Recopilamos solicitudes de extracción (pull requests) de 83 repositorios de GitHub y utilizamos filtrado basado en reglas e intenciones para construir instancias de tareas centradas en el desarrollo de nuevas funcionalidades. Cada instancia de tarea que contiene cambios de código se empareja con archivos de pruebas unitarias relevantes para garantizar que la solución pueda ser verificada. La implementación de la funcionalidad requiere que los LLMs posean simultáneamente capacidades de completado de código para nuevos componentes y habilidades de edición de código para otras partes relevantes en el repositorio, proporcionando un método de evaluación más completo de las capacidades de ingeniería de software automatizada de los LLMs. Los resultados experimentales muestran que los LLMs tienen un desempeño significativamente peor en FEA-Bench, destacando desafíos considerables en este tipo de desarrollo incremental de código a nivel de repositorio.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mejorado significativamente las capacidades de generación de texto, aunque evaluar su desempeño en la escritura generativa sigue siendo un desafío. Los puntos de referencia existentes se centran principalmente en la generación de texto genérico o en tareas de escritura limitadas, sin capturar los diversos requisitos de contenidos escritos de alta calidad en distintos dominios. Para cerrar esta brecha, presentamos WritingBench, un punto de referencia integral diseñado para evaluar LLMs en 6 dominios principales de escritura y 100 subdominios, abarcando la escritura creativa, persuasiva, informativa y técnica. Además, proponemos un marco de evaluación dependiente de consultas que permite a los LLMs generar dinámicamente criterios de evaluación específicos para cada instancia. Este marco se complementa con un modelo crítico ajustado para puntuaciones conscientes de los criterios, permitiendo evaluaciones en estilo, formato y longitud. La validez del marco se demuestra además por su capacidad de curación de datos, que permite que modelos de 7 mil millones de parámetros se acerquen al rendimiento de vanguardia (SOTA). Hacemos público el punto de referencia, junto con herramientas de evaluación y componentes modulares del marco, para impulsar el desarrollo de LLMs en la escritura.
Los flujos de trabajo agentes tradicionales dependen de indicaciones externas para gestionar las interacciones con herramientas y el entorno, lo que limita la autonomía de los modelos de razonamiento. Nos posicionamos con los Modelos de Agentes a Gran Escala (LAMs, por sus siglas en inglés) que internalizan la generación de Cadenas de Acción (CoA, por sus siglas en inglés), permitiendo que el modelo decida de manera autónoma cuándo y cómo utilizar herramientas externas. Nuestro marco propuesto, AutoCoA, combina ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL), permitiendo que el modelo cambie sin problemas entre razonamiento y acción mientras gestiona eficientemente las interacciones con el entorno. Los componentes principales incluyen la activación de acciones a nivel de paso, la optimización de CoA a nivel de trayectoria y un modelo interno del mundo para reducir los costos de interacción con el entorno real. Las evaluaciones en tareas de preguntas y respuestas de dominio abierto demuestran que los modelos agentes entrenados con AutoCoA superan significativamente a los flujos de trabajo basados en ReAct en la finalización de tareas, especialmente en aquellas que requieren razonamiento a largo plazo y acciones de múltiples pasos. El código y el conjunto de datos están disponibles en https://github.com/ADaM-BJTU/AutoCoA.
Los artículos de revisión desempeñan un papel crucial en la investigación científica, especialmente dado el rápido crecimiento de las publicaciones de investigación. Recientemente, los investigadores han comenzado a utilizar LLMs (modelos de lenguaje de gran escala) para automatizar la generación de revisiones con el fin de mejorar la eficiencia. Sin embargo, la brecha de calidad entre las revisiones generadas por LLMs y las escritas por humanos sigue siendo significativa, particularmente en términos de la calidad del esquema y la precisión de las citas. Para cerrar estas brechas, presentamos SurveyForge, que primero genera el esquema analizando la estructura lógica de los esquemas escritos por humanos y consultando los artículos relacionados con el dominio que ha recuperado. Posteriormente, aprovechando los artículos de alta calidad recuperados de la memoria por nuestro agente de navegación académica, SurveyForge puede generar y refinar automáticamente el contenido del artículo generado. Además, para lograr una evaluación exhaustiva, construimos SurveyBench, que incluye 100 artículos de revisión escritos por humanos para comparar la tasa de éxito y evalúa los artículos de revisión generados por IA en tres dimensiones: referencia, calidad del esquema y calidad del contenido. Los experimentos demuestran que SurveyForge puede superar trabajos anteriores como AutoSurvey.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento impresionante en los benchmarks existentes de preguntas y respuestas médicas. Este alto rendimiento dificulta cada vez más la evaluación significativa y la diferenciación de métodos avanzados. Presentamos MedAgentsBench, un benchmark que se centra en preguntas médicas desafiantes que requieren razonamiento clínico de múltiples pasos, formulación de diagnósticos y planificación de tratamientos, escenarios en los que los modelos actuales aún tienen dificultades a pesar de su fuerte rendimiento en pruebas estándar. Basándonos en siete conjuntos de datos médicos establecidos, nuestro benchmark aborda tres limitaciones clave en las evaluaciones existentes: (1) la prevalencia de preguntas directas en las que incluso los modelos base logran un alto rendimiento, (2) protocolos de muestreo y evaluación inconsistentes entre estudios, y (3) la falta de análisis sistemático de la interacción entre rendimiento, costo y tiempo de inferencia. A través de experimentos con varios modelos base y métodos de razonamiento, demostramos que los últimos modelos de pensamiento, DeepSeek R1 y OpenAI o3, exhiben un rendimiento excepcional en tareas complejas de razonamiento médico. Además, los métodos avanzados basados en agentes de búsqueda ofrecen relaciones prometedoras entre rendimiento y costo en comparación con enfoques tradicionales. Nuestro análisis revela brechas sustanciales de rendimiento entre familias de modelos en preguntas complejas e identifica selecciones óptimas de modelos para diferentes restricciones computacionales. Nuestro benchmark y marco de evaluación están disponibles públicamente en https://github.com/gersteinlab/medagents-benchmark.
Presentamos Alineación de Representación Autoregresiva (ARRA), un nuevo marco de entrenamiento que permite la generación de imágenes coherentes a nivel global a partir de texto en modelos de lenguaje autoregresivos (LLMs) sin necesidad de cambios arquitectónicos. A diferencia de trabajos anteriores que requieren rediseños arquitectónicos complejos, ARRA alinea los estados ocultos de los LLMs con representaciones visuales de modelos visuales fundamentales externos mediante una pérdida de alineación visual global y un token híbrido, <HYBNEXT>. Este token impone dobles restricciones: predicción local del siguiente token y destilación semántica global, permitiendo que los LLMs aprendan implícitamente coherencia espacial y contextual mientras mantienen su paradigma autoregresivo original. Experimentos exhaustivos validan la versatilidad plug-and-play de ARRA. Al entrenar a partir de LLMs diseñados solo para generación de texto o desde inicialización aleatoria, ARRA reduce el FID en un 25.5% (MIMIC-CXR), 8.8% (DeepEyeNet) y 7.5% (ImageNet) para LLMs autoregresivos avanzados como Chameleon y LlamaGen, todo ello sin modificaciones en el marco. Para la adaptación de dominio, ARRA alinea LLMs de propósito general con modelos especializados (por ejemplo, BioMedCLIP), logrando una reducción del 18.6% en FID sobre el ajuste fino directo en imágenes médicas (MIMIC-CXR). Al demostrar que el rediseño del objetivo de entrenamiento —no solo la innovación arquitectónica— puede resolver los desafíos de coherencia global multimodal, ARRA ofrece un paradigma complementario para avanzar en los modelos autoregresivos. El código y los modelos se liberarán para impulsar la generación de imágenes autoregresivas.
Los modelos universales de incrustación multimodal desempeñan un papel crucial en tareas como la recuperación intercalada de imágenes y texto, RAG multimodal y agrupación multimodal. Sin embargo, nuestros resultados empíricos indican que los modelos de incrustación basados en LMM existentes, entrenados con la función de pérdida InfoNCE estándar, muestran un alto grado de superposición en la distribución de similitud entre pares positivos y negativos, lo que dificulta distinguir efectivamente los pares negativos difíciles. Para abordar este problema, proponemos un marco simple pero efectivo que mejora dinámicamente el aprendizaje de representaciones del modelo de incrustación para pares negativos según su dificultad discriminativa. Dentro de este marco, entrenamos una serie de modelos, denominados LLaVE, y los evaluamos en el benchmark MMEB, que abarca 4 meta-tareas y 36 conjuntos de datos. Los resultados experimentales muestran que LLaVE establece líneas base más sólidas que alcanzan un rendimiento de vanguardia (SOTA), al mismo tiempo que demuestra una fuerte escalabilidad y eficiencia. Específicamente, LLaVE-2B supera a los modelos SOTA anteriores de 7B, mientras que LLaVE-7B logra una mejora adicional de 6.2 puntos. Aunque LLaVE se entrena con datos de imágenes y texto, puede generalizar a tareas de recuperación de texto-video de manera zero-shot y lograr un rendimiento sólido, demostrando su notable potencial para transferirse a otras tareas de incrustación.
La personalización relacional de videos se refiere a la creación de videos personalizados que representan relaciones especificadas por el usuario entre dos sujetos, una tarea crucial para comprender contenido visual del mundo real. Si bien los métodos existentes pueden personalizar las apariencias y movimientos de los sujetos, aún tienen dificultades con la personalización relacional de videos complejos, donde el modelado preciso de relaciones y una alta generalización entre categorías de sujetos son esenciales. El principal desafío surge de los intrincados arreglos espaciales, variaciones de diseño y dinámicas temporales sutiles inherentes a las relaciones; en consecuencia, los modelos actuales tienden a enfatizar en exceso detalles visuales irrelevantes en lugar de capturar interacciones significativas. Para abordar estos desafíos, proponemos DreamRelation, un enfoque novedoso que personaliza las relaciones a través de un pequeño conjunto de videos ejemplares, aprovechando dos componentes clave: Aprendizaje de Desacoplamiento Relacional y Mejora de Dinámicas Relacionales. Primero, en el Aprendizaje de Desacoplamiento Relacional, separamos las relaciones de las apariencias de los sujetos utilizando un triplete de LoRA relacional y una estrategia de entrenamiento con máscara híbrida, asegurando una mejor generalización en diversas relaciones. Además, determinamos el diseño óptimo del triplete de LoRA relacional analizando los roles distintos de las características de consulta, clave y valor dentro del mecanismo de atención de MM-DiT, convirtiendo a DreamRelation en el primer marco de generación de videos relacionales con componentes explicables. Segundo, en la Mejora de Dinámicas Relacionales, introducimos una pérdida contrastiva relacional espacio-temporal, que prioriza las dinámicas relacionales mientras minimiza la dependencia de las apariencias detalladas de los sujetos. Experimentos extensivos demuestran que DreamRelation supera a los métodos más avanzados en personalización relacional de videos. El código y los modelos estarán disponibles públicamente.
Aunque los modelos de generación de imágenes enmascaradas y los modelos de difusión enmascarada están diseñados con motivaciones y objetivos diferentes, observamos que pueden unificarse dentro de un mismo marco conceptual. Basándonos en esta idea, exploramos detenidamente el espacio de diseño del entrenamiento y muestreo, identificando factores clave que contribuyen tanto al rendimiento como a la eficiencia. A partir de las mejoras observadas durante esta exploración, desarrollamos nuestro modelo, denominado eMIGM. Empíricamente, eMIGM demuestra un rendimiento sólido en la generación de imágenes de ImageNet, medido mediante la Distancia de Fréchet Inception (FID). En particular, en ImageNet 256x256, con un número similar de evaluaciones de función (NFE) y parámetros del modelo, eMIGM supera al seminal VAR. Además, a medida que aumentan los NFE y los parámetros del modelo, eMIGM alcanza un rendimiento comparable a los modelos de difusión continua de última generación, requiriendo menos del 40% de los NFE. Adicionalmente, en ImageNet 512x512, con solo alrededor del 60% de los NFE, eMIGM supera a los modelos de difusión continua más avanzados.
Los métodos tradicionales para la segmentación basada en razonamiento dependen de un ajuste fino supervisado con etiquetas categóricas y descripciones simples, lo que limita su generalización fuera del dominio y carece de procesos de razonamiento explícitos. Para abordar estas limitaciones, proponemos Seg-Zero, un marco novedoso que demuestra una generalización notable y deriva cadenas de razonamiento explícitas a través de refuerzo cognitivo. Seg-Zero introduce una arquitectura desacoplada que consta de un modelo de razonamiento y un modelo de segmentación. El modelo de razonamiento interpreta las intenciones del usuario, genera cadenas de razonamiento explícitas y produce indicaciones posicionales, que luego son utilizadas por el modelo de segmentación para generar máscaras a nivel de píxel precisas. Diseñamos un mecanismo de recompensa sofisticado que integra tanto recompensas de formato como de precisión para guiar efectivamente las direcciones de optimización. Entrenado exclusivamente mediante aprendizaje por refuerzo con GRPO y sin datos de razonamiento explícitos, Seg-Zero logra una generalización robusta en zero-shot y exhibe capacidades emergentes de razonamiento en tiempo de prueba. Los experimentos muestran que Seg-Zero-7B alcanza un rendimiento en zero-shot de 57.5 en el benchmark ReasonSeg, superando al anterior LISA-7B en un 18\%. Esta mejora significativa resalta la capacidad de Seg-Zero para generalizar entre dominios mientras presenta un proceso de razonamiento explícito. El código está disponible en https://github.com/dvlab-research/Seg-Zero.
Los recientes avances en la percepción de 2D a 3D han mejorado significativamente la comprensión de escenas 3D a partir de imágenes 2D. Sin embargo, los métodos existentes enfrentan desafíos críticos, incluyendo una generalización limitada entre escenas, una precisión de percepción subóptima y velocidades de reconstrucción lentas. Para abordar estas limitaciones, proponemos Perception-Efficient 3D Reconstruction (PE3R), un marco novedoso diseñado para mejorar tanto la precisión como la eficiencia. PE3R emplea una arquitectura de avance directo para permitir una reconstrucción rápida del campo semántico 3D. El marco demuestra una robusta generalización zero-shot en diversas escenas y objetos, al mismo tiempo que mejora significativamente la velocidad de reconstrucción. Experimentos exhaustivos en segmentación de vocabulario abierto de 2D a 3D y reconstrucción 3D validan la efectividad y versatilidad de PE3R. El marco logra una aceleración mínima de 9 veces en la reconstrucción del campo semántico 3D, junto con mejoras sustanciales en la precisión de percepción y reconstrucción, estableciendo nuevos referentes en el campo. El código está disponible públicamente en: https://github.com/hujiecpp/PE3R.
La detección y segmentación de objetos son ampliamente utilizadas en aplicaciones de visión por computadora, sin embargo, modelos convencionales como la serie YOLO, aunque eficientes y precisos, están limitados por categorías predefinidas, lo que dificulta su adaptabilidad en escenarios abiertos. Métodos recientes de conjunto abierto aprovechan indicaciones de texto, señales visuales o paradigmas sin indicaciones para superar esto, pero a menudo sacrifican el rendimiento y la eficiencia debido a las altas demandas computacionales o la complejidad de implementación. En este trabajo, presentamos YOLOE, que integra detección y segmentación a través de diversos mecanismos de indicación abierta dentro de un único modelo altamente eficiente, logrando ver cualquier cosa en tiempo real. Para indicaciones de texto, proponemos la estrategia de Alineación de Región-Texto Re-parametrizable (RepRTA). Esta refina incrustaciones textuales preentrenadas mediante una red auxiliar ligera re-parametrizable y mejora la alineación visual-textual con cero sobrecarga de inferencia y transferencia. Para indicaciones visuales, presentamos el Codificador de Indicación Visual Activado Semánticamente (SAVPE). Emplea ramas semánticas y de activación desacopladas para proporcionar una incrustación visual mejorada y precisión con mínima complejidad. Para escenarios sin indicaciones, introducimos la estrategia de Contraste de Región-Indicación Perezosa (LRPC). Utiliza un vocabulario grande incorporado y una incrustación especializada para identificar todos los objetos, evitando la costosa dependencia de modelos de lenguaje. Experimentos extensos muestran el excepcional rendimiento de cero disparos y transferibilidad de YOLOE con alta eficiencia de inferencia y bajo costo de entrenamiento. Notablemente, en LVIS, con 3 veces menos costo de entrenamiento y 1.4 veces más velocidad de inferencia, YOLOE-v8-S supera a YOLO-Worldv2-S por 3.5 AP. Al transferir a COCO, YOLOE-v8-L logra ganancias de 0.6 AP^b y 0.4 AP^m sobre YOLOv8-L de conjunto cerrado con casi 4 veces menos tiempo de entrenamiento. El código y los modelos están disponibles en https://github.com/THU-MIG/yoloe.
Los Modelos de Visión-Lenguaje (VLMs) sobresalen en la integración de información visual y textual para tareas centradas en la visión, pero su manejo de inconsistencias entre modalidades ha sido poco explorado. Investigamos las preferencias de modalidad de los VLMs cuando se enfrentan a datos visuales y entradas textuales variadas en contextos centrados en la visión. Al introducir variaciones textuales en cuatro tareas centradas en la visión y evaluar diez Modelos de Visión-Lenguaje (VLMs), descubrimos un fenómeno de "fe ciega en el texto": los VLMs confían desproporcionadamente en los datos textuales sobre los visuales cuando surgen inconsistencias, lo que lleva a caídas significativas en el rendimiento bajo texto corrupto y plantea preocupaciones de seguridad. Analizamos factores que influyen en este sesgo hacia el texto, incluyendo instrucciones de prompt, tamaño del modelo de lenguaje, relevancia del texto, orden de tokens y la interacción entre la certeza visual y textual. Mientras que ciertos factores, como escalar el tamaño del modelo de lenguaje, mitigan ligeramente el sesgo hacia el texto, otros como el orden de tokens pueden exacerbarlo debido a sesgos posicionales heredados de los modelos de lenguaje. Para abordar este problema, exploramos el ajuste fino supervisado con aumento de texto y demostramos su efectividad para reducir el sesgo hacia el texto. Además, proporcionamos un análisis teórico que sugiere que el fenómeno de fe ciega en el texto puede originarse en un desequilibrio entre datos puramente textuales y multimodales durante el entrenamiento. Nuestros hallazgos resaltan la necesidad de un entrenamiento equilibrado y una consideración cuidadosa de las interacciones entre modalidades en los VLMs para mejorar su robustez y confiabilidad al manejar inconsistencias en datos multimodales.
Las arquitecturas de Mezcla de Agentes de Modelos de Lenguaje Grande (MoA, por sus siglas en inglés) logran un rendimiento de vanguardia en benchmarks destacados como AlpacaEval 2.0 al aprovechar la colaboración de múltiples modelos de lenguaje grande (LLMs) durante la inferencia. A pesar de estos éxitos, falta una evaluación de la seguridad y confiabilidad de MoA. Presentamos el primer estudio exhaustivo de la robustez de MoA frente a agentes LLM engañosos que proporcionan respuestas deliberadamente erróneas. Examinamos factores como la propagación de información engañosa, el tamaño del modelo y la disponibilidad de información, y descubrimos vulnerabilidades críticas. En AlpacaEval 2.0, el popular modelo LLaMA 3.1-70B alcanza una Tasa de Victoria Controlada por Longitud (LC WR) del 49.2% cuando se combina con MoA de 3 capas (6 agentes LLM). Sin embargo, demostramos que la introducción de un solo agente engañoso cuidadosamente instruido en MoA puede reducir el rendimiento al 37.9%, anulando efectivamente todas las ganancias de MoA. En QuALITY, una tarea de comprensión de opción múltiple, el impacto también es severo, con una precisión que cae en un asombroso 48.5%. Inspirados en parte por el histórico proceso de votación del Dogo de Venecia, diseñado para minimizar la influencia y el engaño, proponemos una serie de mecanismos de defensa no supervisados que recuperan la mayor parte del rendimiento perdido.
Proponemos DiffCLIP, un novedoso modelo de visión y lenguaje que extiende el mecanismo de atención diferencial a las arquitecturas CLIP. La atención diferencial fue desarrollada originalmente para modelos de lenguaje de gran escala con el fin de amplificar el contexto relevante mientras se cancela la información ruidosa. En este trabajo, integramos este mecanismo en el marco de doble codificador (imagen y texto) de CLIP. Con un mínimo de parámetros adicionales, DiffCLIP logra un rendimiento superior en tareas de comprensión de imagen-texto. En benchmarks de clasificación zero-shot, recuperación y robustez, DiffCLIP supera consistentemente a los modelos CLIP de referencia. Es notable que estas mejoras se obtienen con un sobrecosto computacional insignificante, demostrando que la atención diferencial puede mejorar significativamente las representaciones multimodales sin sacrificar la eficiencia. El código se encuentra disponible en https://github.com/hammoudhasan/DiffCLIP.
Exploramos un novedoso marco de Reconocimiento de Habla Audio-Visual (AVSR) de cero disparos, denominado Zero-AVSR, que permite el reconocimiento de habla en idiomas objetivo sin requerir datos de habla audio-visual en esos idiomas. Específicamente, introducimos el Romanizador de Habla Audio-Visual (AV-Romanizer), que aprende representaciones de habla agnósticas al idioma al predecir texto en alfabeto romano. Luego, aprovechando las fuertes capacidades de modelado multilingüe de los Modelos de Lenguaje de Gran Escala (LLMs), proponemos convertir el texto romano predicho en grafemas específicos del idioma, formando el propuesto Zero-AVSR en Cascada. Yendo un paso más allá, exploramos un enfoque unificado de Zero-AVSR al integrar directamente las representaciones de habla audio-visual codificadas por el AV-Romanizer en el LLM. Esto se logra mediante el ajuste fino del adaptador y el LLM utilizando nuestro esquema propuesto de aprendizaje multitarea. Para capturar el amplio espectro de diversidad fonética y lingüística, también introducimos un Corpus Romanizado Audio-Visual Multilingüe (MARC) que consta de 2,916 horas de datos de habla audio-visual en 82 idiomas, junto con transcripciones en grafemas específicos del idioma y texto romano. Análisis y experimentos exhaustivos confirman que el marco Zero-AVSR propuesto tiene el potencial de ampliar el soporte de idiomas más allá de los idiomas vistos durante el entrenamiento del AV-Romanizer.
Los modelos de series temporales enfrentan desafíos significativos para escalar y manejar conjuntos de datos grandes y complejos, similares a los logrados por los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Las características únicas de los datos de series temporales y las demandas computacionales del escalamiento de modelos requieren enfoques innovadores. Si bien los investigadores han explorado diversas arquitecturas, como Transformers, LSTMs y GRUs, para abordar estos desafíos, proponemos una solución novedosa utilizando RWKV-7, que incorpora metaaprendizaje en su mecanismo de actualización de estados. Al integrar los componentes de mezcla temporal (time mix) y mezcla de canales (channel mix) de RWKV-7 en el modelo de series temporales basado en transformers, Timer, logramos una mejora sustancial en el rendimiento de aproximadamente 1.13 a 43.3 veces y una reducción de 4.5 veces en el tiempo de entrenamiento con 1/23 de los parámetros, todo ello utilizando menos parámetros. Nuestro código y los pesos del modelo están disponibles públicamente para su investigación y desarrollo en https://github.com/Alic-Li/BlackGoose_Rimer.
Los Modelos de Espacio de Estados (SSMs, por sus siglas en inglés) han surgido como alternativas eficientes a los Transformers, mitigando su costo computacional cuadrático. Sin embargo, la aplicación de métodos de Ajuste Fino Eficiente en Parámetros (PEFT, por sus siglas en inglés) a los SSMs sigue siendo en gran medida inexplorada. En particular, los métodos basados en prompts, como Prompt Tuning y Prefix-Tuning, ampliamente utilizados en Transformers, no funcionan bien en SSMs. Para abordar esto, proponemos métodos basados en estados como una alternativa superior a los métodos basados en prompts. Esta nueva familia de métodos surge naturalmente de las características arquitectónicas de los SSMs. Los métodos basados en estados ajustan directamente las características relacionadas con el estado en lugar de depender de prompts externos. Además, introducimos un nuevo método PEFT basado en estados: State-offset Tuning. En cada paso de tiempo, nuestro método afecta directamente el estado en el paso actual, lo que conduce a una adaptación más efectiva. A través de extensos experimentos en diversos conjuntos de datos, demostramos la efectividad de nuestro método. El código está disponible en https://github.com/furiosa-ai/ssm-state-tuning.
La creciente popularidad de los modelos de lenguaje de gran escala no solo ha llevado a su uso generalizado, sino que también ha traído consigo diversos riesgos, incluida la posibilidad de difundir noticias falsas de manera sistemática. En consecuencia, el desarrollo de sistemas de clasificación como DetectGPT se ha vuelto fundamental. Estos detectores son vulnerables a técnicas de evasión, como se demostró en una serie de experimentos: los cambios sistemáticos en la temperatura de los modelos generativos demostraron que los detectores basados en aprendizaje superficial son los menos confiables. El ajuste fino del modelo generativo mediante aprendizaje por refuerzo eludió a los detectores basados en BERT. Finalmente, la reformulación de textos permitió una evasión superior al 90\% de detectores de tipo zero-shot como DetectGPT, aunque los textos mantuvieron una alta similitud con los originales. Una comparación con trabajos existentes destaca el mejor rendimiento de los métodos presentados. Se discuten las posibles implicaciones para la sociedad y futuras investigaciones.
Si bien la guía sin clasificador (CFG, por sus siglas en inglés) es esencial para los modelos de difusión condicional, duplica el número de evaluaciones de funciones neuronales (NFEs, por sus siglas en inglés) por paso de inferencia. Para mitigar esta ineficiencia, introducimos la destilación de guía mediante adaptadores (AGD, por sus siglas en inglés), un enfoque novedoso que simula CFG en un único paso hacia adelante. AGD aprovecha adaptadores ligeros para aproximar CFG, duplicando efectivamente la velocidad de muestreo mientras mantiene o incluso mejora la calidad de las muestras. A diferencia de los métodos previos de destilación de guía que ajustan el modelo completo, AGD mantiene congelado el modelo base y solo entrena parámetros adicionales mínimos (∼2%), reduciendo significativamente los requisitos de recursos durante la fase de destilación. Además, este enfoque preserva los pesos originales del modelo y permite que los adaptadores se combinen sin problemas con otros puntos de control derivados del mismo modelo base. También abordamos un desajuste clave entre el entrenamiento y la inferencia en los métodos existentes de destilación de guía, entrenando en trayectorias guiadas por CFG en lugar de trayectorias estándar de difusión. A través de experimentos extensos, demostramos que AGD logra un FID comparable o superior a CFG en múltiples arquitecturas con solo la mitad de las NFEs. Notablemente, nuestro método permite la destilación de modelos grandes (∼2.6 mil millones de parámetros) en una sola GPU de consumo con 24 GB de VRAM, haciéndolo más accesible que enfoques anteriores que requieren múltiples GPUs de alta gama. Publicaremos la implementación de nuestro método.
Los modelos de Texto a Imagen (T2I) son capaces de generar creaciones artísticas y contenido visual de alta calidad. Sin embargo, las investigaciones y estándares de evaluación existentes se centran predominantemente en el realismo de las imágenes y en una alineación superficial entre texto e imagen, careciendo de una evaluación integral de la comprensión semántica compleja y la integración de conocimiento del mundo en la generación de imágenes a partir de texto. Para abordar este desafío, proponemos WISE, el primer punto de referencia diseñado específicamente para la Evaluación Semántica Informada por Conocimiento del Mundo. WISE va más allá del mapeo simple de palabras a píxeles al desafiar a los modelos con 1000 indicaciones meticulosamente elaboradas en 25 subdominios que abarcan el sentido común cultural, el razonamiento espacio-temporal y las ciencias naturales. Para superar las limitaciones de la métrica CLIP tradicional, introducimos WiScore, una nueva métrica cuantitativa para evaluar la alineación entre conocimiento e imagen. A través de pruebas exhaustivas de 20 modelos (10 modelos T2I dedicados y 10 modelos multimodales unificados) utilizando 1,000 indicaciones estructuradas que abarcan 25 subdominios, nuestros hallazgos revelan limitaciones significativas en su capacidad para integrar y aplicar efectivamente el conocimiento del mundo durante la generación de imágenes, destacando vías críticas para mejorar la incorporación y aplicación de conocimiento en los modelos T2I de próxima generación. El código y los datos están disponibles en https://github.com/PKU-YuanGroup/WISE.
La Generalización de Dominios tiene como objetivo desarrollar modelos que puedan generalizar a distribuciones de datos nuevas y no vistas. En este trabajo, estudiamos cómo las arquitecturas de modelos y los objetivos de preentrenamiento impactan en la riqueza de características y proponemos un método para aprovecharlos eficazmente para la generalización de dominios. Específicamente, dado un espacio de características preentrenado, primero descubrimos estructuras latentes de dominio, denominadas pseudo-dominios, que capturan variaciones específicas del dominio de manera no supervisada. A continuación, aumentamos los clasificadores existentes con estas representaciones complementarias de pseudo-dominios, haciéndolos más adecuados para diversos dominios de prueba no vistos. Analizamos cómo difieren los diferentes espacios de características de preentrenamiento en las variaciones específicas del dominio que capturan. Nuestros estudios empíricos revelan que las características de los modelos de difusión sobresalen en la separación de dominios en ausencia de etiquetas de dominio explícitas y capturan información específica del dominio de manera matizada. En 5 conjuntos de datos, demostramos que nuestro marco muy simple mejora la generalización a dominios no vistos con una mejora máxima en la precisión de prueba de más del 4% en comparación con la línea base estándar de Minimización del Riesgo Empírico (ERM). Crucialmente, nuestro método supera a la mayoría de los algoritmos que acceden a etiquetas de dominio durante el entrenamiento.
Los LLM preentrenados que se entrenan adicionalmente con datos de imágenes obtienen buenos resultados en tareas de visión y lenguaje. Si bien la incorporación de imágenes durante una segunda fase de entrenamiento desbloquea eficazmente esta capacidad, no está claro cuánta ganancia o pérdida aporta este enfoque de dos pasos en comparación con los VLM que integran las imágenes antes en el proceso de entrenamiento. Para investigar esto, entrenamos modelos que abarcan diversos conjuntos de datos, escalas, proporciones de imagen-texto y cantidades de preentrenamiento realizadas antes de introducir tokens visuales. Luego, ajustamos estos modelos y evaluamos su rendimiento en tareas posteriores, tanto de visión y lenguaje como de solo texto. Descubrimos que el preentrenamiento con una mezcla de datos de imagen y texto permite que los modelos obtengan mejores resultados en tareas de visión y lenguaje, manteniendo al mismo tiempo un rendimiento sólido en evaluaciones de solo texto. En un promedio de 6 tareas diversas, encontramos que, para un modelo de 1B, introducir tokens visuales al 80% del preentrenamiento resulta en una mejora promedio del 2% en comparación con introducir tokens visuales en un modelo completamente preentrenado.
Los recientes avances en los modelos de difusión de texto a imagen permiten la generación de imágenes fotorrealistas, pero también conllevan el riesgo de producir contenido malicioso, como imágenes NSFW. Para mitigar este riesgo, se estudian métodos de borrado de conceptos que facilitan que el modelo desaprenda conceptos específicos. Sin embargo, los estudios actuales tienen dificultades para borrar completamente los conceptos maliciosos que están implícitamente incrustados en las indicaciones (por ejemplo, expresiones metafóricas o indicaciones adversarias) mientras se preserva la capacidad de generación normal del modelo. Para abordar este desafío, nuestro estudio propone TRCE, utilizando una estrategia de borrado de conceptos en dos etapas para lograr un equilibrio efectivo entre el borrado confiable y la preservación del conocimiento. En primer lugar, TRCE comienza borrando la semántica maliciosa implícitamente incrustada en las indicaciones textuales. Al identificar un objetivo de mapeo crítico (es decir, la incrustación [EoT]), optimizamos las capas de atención cruzada para mapear indicaciones maliciosas a indicaciones contextualmente similares pero con conceptos seguros. Este paso evita que el modelo se vea excesivamente influenciado por la semántica maliciosa durante el proceso de eliminación de ruido. A continuación, considerando las propiedades determinísticas de la trayectoria de muestreo del modelo de difusión, TRCE dirige aún más la predicción temprana de eliminación de ruido hacia la dirección segura y lejos de la insegura mediante el aprendizaje contrastivo, evitando así aún más la generación de contenido malicioso. Finalmente, realizamos evaluaciones exhaustivas de TRCE en múltiples puntos de referencia de borrado de conceptos maliciosos, y los resultados demuestran su eficacia para borrar conceptos maliciosos mientras se preserva mejor la capacidad de generación original del modelo. El código está disponible en: http://github.com/ddgoodgood/TRCE. ADVERTENCIA: Este artículo incluye contenido generado por modelos que puede contener material ofensivo.
Los modelos de visión preentrenados (PVMs, por sus siglas en inglés) son fundamentales para la robótica moderna, aunque su configuración óptima sigue sin estar clara. A través de una evaluación sistemática, descubrimos que, si bien DINO e iBOT superan a MAE en tareas de control visuomotor y percepción, presentan dificultades cuando se entrenan con datos no centrados en un solo objeto (NOC), una limitación fuertemente correlacionada con su capacidad reducida para aprender representaciones centradas en objetos. Esta investigación indica que la capacidad de formar representaciones centradas en objetos a partir de conjuntos de datos robóticos no centrados en objetos es clave para el éxito de los PVMs. Motivados por este hallazgo, diseñamos SlotMIM, un método que induce representaciones centradas en objetos mediante la introducción de un cuello de botella semántico para reducir el número de prototipos, fomentando así la aparición de la "objetualidad", así como una regularización de consistencia entre vistas para promover la invariancia multivista. Nuestros experimentos abarcan el preentrenamiento con datos centrados en objetos, centrados en escenas, obtenidos de la web y egocéntricos. En todos los escenarios, nuestro enfoque aprende representaciones transferibles y logra mejoras significativas respecto a trabajos anteriores en reconocimiento de imágenes, comprensión de escenas y evaluaciones de aprendizaje robótico. Cuando se escala con conjuntos de datos de millones de muestras, nuestro método también demuestra una eficiencia y escalabilidad superiores. Nuestro código y modelos están disponibles públicamente en https://github.com/CVMI-Lab/SlotMIM.
Resolver tareas multimodales de nivel experto es un hito clave hacia la inteligencia general. A medida que las capacidades de los modelos de lenguaje multimodal de gran escala (MLLMs) continúan mejorando, la evaluación de dicha inteligencia multimodal avanzada se vuelve necesaria, aunque desafiante. En este trabajo, presentamos ProBench, un benchmark de consultas abiertas de usuarios que requieren experiencia profesional y razonamiento avanzado. ProBench consta de 4,000 muestras de alta calidad, enviadas de manera independiente por profesionales basándose en sus demandas diarias de productividad. Abarca 10 campos y 56 subcampos, incluyendo ciencia, artes, humanidades, programación, matemáticas y escritura creativa. Experimentalmente, evaluamos y comparamos 24 de los modelos más recientes utilizando MLLM-as-a-Judge. Nuestros resultados revelan que, aunque los mejores modelos de código abierto rivalizan con los propietarios, ProBench presenta desafíos significativos en percepción visual, comprensión textual, conocimiento de dominio y razonamiento avanzado, ofreciendo así direcciones valiosas para futuros esfuerzos de investigación en IA multimodal.
El Reconocimiento de Habla Audio-Visual (AVSR, por sus siglas en inglés) aprovecha tanto las modalidades de audio como visuales para mejorar la robustez del reconocimiento de habla, especialmente en entornos ruidosos. Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado su eficacia en el reconocimiento de habla, incluyendo el AVSR. Sin embargo, debido a la longitud significativa de las representaciones de habla, la integración directa con los LLMs impone costos computacionales sustanciales. Enfoques previos abordan esto comprimiendo las representaciones de habla antes de alimentarlas a los LLMs. No obstante, tasas de compresión más altas a menudo conducen a una degradación del rendimiento, lo que requiere un equilibrio entre la eficiencia computacional y la precisión del reconocimiento. Para abordar este desafío, proponemos Llama-MTSK, el primer LLM multimodal basado en Matryoshka para AVSR, que permite una adaptación flexible de la asignación de tokens audio-visuales según restricciones computacionales específicas, manteniendo un alto rendimiento. Nuestro enfoque, inspirado en el Aprendizaje de Representaciones Matryoshka, codifica representaciones audio-visuales en múltiples niveles de granularidad dentro de un solo modelo, eliminando la necesidad de entrenar modelos separados para diferentes niveles de compresión. Además, para ajustar eficientemente el LLM, introducimos tres estrategias Matryoshka basadas en LoRA utilizando módulos LoRA globales y específicos de escala. Evaluaciones exhaustivas en los dos conjuntos de datos AVSR más grandes demuestran que Llama-MTSK alcanza resultados de vanguardia, igualando o superando a los modelos entrenados de manera independiente en niveles de compresión fijos.
La rápida expansión de internet móvil ha resultado en un aumento sustancial de imágenes generadas por usuarios (UGC, por sus siglas en inglés), lo que hace que la evaluación exhaustiva de estas imágenes sea urgente y esencial. Recientemente, los modelos de lenguaje multimodal de gran escala (MLLMs) han demostrado un gran potencial en la evaluación de la calidad de imágenes (IQA) y la evaluación estética de imágenes (IAA). A pesar de este progreso, la puntuación efectiva de la calidad y estética de las imágenes UGC aún enfrenta dos desafíos principales: 1) Una sola puntuación es insuficiente para capturar la percepción humana jerárquica. 2) Cómo utilizar MLLMs para generar puntuaciones numéricas, como las puntuaciones medias de opinión (MOS), sigue siendo una pregunta abierta. Para abordar estos desafíos, presentamos un nuevo conjunto de datos, denominado Realistic image Quality and Aesthetic (RealQA), que incluye 14,715 imágenes UGC, cada una anotada con 10 atributos detallados. Estos atributos abarcan tres niveles: bajo (por ejemplo, claridad de la imagen), medio (por ejemplo, integridad del sujeto) y alto (por ejemplo, composición). Además, realizamos una serie de investigaciones profundas y exhaustivas sobre cómo predecir efectivamente puntuaciones numéricas utilizando MLLMs. Sorprendentemente, al predecir solo dos dígitos significativos adicionales, el paradigma del siguiente token puede alcanzar un rendimiento de vanguardia (SOTA). Además, con la ayuda de la cadena de pensamiento (CoT) combinada con los atributos detallados aprendidos, el método propuesto puede superar a los métodos SOTA en cinco conjuntos de datos públicos para IQA e IAA con una interpretabilidad superior y mostrar una fuerte generalización en modo cero para la evaluación de la calidad de video (VQA). El código y el conjunto de datos serán publicados.
Los métodos existentes para la estimación de la pose 6D de objetos novedosos suelen depender de modelos CAD o de vistas de referencia densas, ambos difíciles de adquirir. Utilizar solo una única vista de referencia es más escalable, pero presenta desafíos debido a grandes discrepancias en la pose y a la limitada información geométrica y espacial. Para abordar estos problemas, proponemos un método de estimación de la pose 6D de objetos novedosos basado en una única referencia (SinRef-6D). Nuestra idea clave es establecer de manera iterativa una alineación punto a punto en el sistema de coordenadas de la cámara basada en modelos de espacio de estados (SSMs, por sus siglas en inglés). Específicamente, la alineación iterativa punto a punto en el espacio de la cámara puede manejar eficazmente grandes discrepancias en la pose, mientras que nuestros SSMs propuestos para RGB y puntos pueden capturar dependencias de largo alcance e información espacial a partir de una única vista, ofreciendo complejidad lineal y una capacidad superior de modelado espacial. Una vez preentrenado en datos sintéticos, SinRef-6D puede estimar la pose 6D de un objeto novedoso utilizando solo una única vista de referencia, sin necesidad de reentrenamiento o un modelo CAD. Experimentos exhaustivos en seis conjuntos de datos populares y escenas robóticas del mundo real demuestran que logramos un rendimiento comparable con los métodos basados en CAD y en vistas de referencia densas, a pesar de operar en el entorno más desafiante de una única referencia. El código se publicará en https://github.com/CNJianLiu/SinRef-6D.
Trabajos recientes han demostrado que, cuando se entrenan a gran escala, los codificadores uni-modales de visión 2D y texto convergen en características aprendidas que comparten propiedades estructurales notables, a pesar de surgir de representaciones diferentes. Sin embargo, el papel de los codificadores 3D en relación con otras modalidades sigue sin explorarse. Además, los modelos fundacionales 3D existentes que aprovechan grandes conjuntos de datos suelen entrenarse con objetivos de alineación explícitos respecto a codificadores congelados de otras representaciones. En este trabajo, investigamos la posibilidad de una alineación a posteriori de representaciones obtenidas de codificadores uni-modales 3D en comparación con espacios de características basados en texto. Mostramos que una alineación ingenua de características post-entrenamiento de codificadores uni-modales de texto y 3D resulta en un rendimiento limitado. Luego, nos enfocamos en extraer subespacios de los espacios de características correspondientes y descubrimos que, al proyectar las representaciones aprendidas en subespacios de menor dimensión bien elegidos, la calidad de la alineación aumenta significativamente, lo que conduce a una mayor precisión en tareas de emparejamiento y recuperación. Nuestro análisis arroja más luz sobre la naturaleza de estos subespacios compartidos, que separan aproximadamente entre representaciones de datos semánticos y geométricos. En general, este es el primer trabajo que ayuda a establecer una línea base para la alineación post-entrenamiento de espacios de características uni-modales 3D y de texto, y ayuda a resaltar tanto las propiedades compartidas como las únicas de los datos 3D en comparación con otras representaciones.
Para responder consultas factuales de uno a muchos (por ejemplo, listar las ciudades de un país), un modelo de lenguaje (LM, por sus siglas en inglés) debe recordar conocimiento simultáneamente y evitar repetir respuestas anteriores. ¿Cómo se implementan e integran internamente estas dos subtareas? A través de múltiples conjuntos de datos y modelos, identificamos un mecanismo de promover-y-luego-suprimir: el modelo primero recuerda todas las respuestas y luego suprime las generadas previamente. Específicamente, los LMs utilizan tanto el sujeto como los tokens de respuestas anteriores para realizar el recuerdo de conocimiento, con la atención propagando la información del sujeto y las MLPs (capas de perceptrones multicapa) promoviendo las respuestas. Luego, la atención se enfoca en y suprime los tokens de respuestas anteriores, mientras que las MLPs amplifican la señal de supresión. Nuestro mecanismo está respaldado por evidencia experimental extensa: además de utilizar decodificación temprana y trazado causal, analizamos cómo los componentes utilizan diferentes tokens mediante la introducción de Token Lens, que decodifica actualizaciones de atención agregadas desde tokens específicos, y un método de knockout que analiza cambios en las salidas de las MLPs después de eliminar la atención a tokens específicos. En general, proporcionamos nuevas perspectivas sobre cómo los componentes internos de los LMs interactúan con diferentes tokens de entrada para respaldar el recuerdo factual complejo. El código está disponible en https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.
En este artículo, presentamos un marco novedoso diseñado para reconstruir secuencias largas de movimiento humano en 3D en coordenadas mundiales a partir de videos en entornos naturales con múltiples transiciones de toma. Estas secuencias largas de movimiento en entornos naturales son altamente valiosas para aplicaciones como la generación y comprensión de movimiento, pero representan un gran desafío para su recuperación debido a las transiciones abruptas de toma, oclusiones parciales y fondos dinámicos presentes en dichos videos. Los métodos existentes se centran principalmente en videos de una sola toma, donde se mantiene la continuidad dentro de una única vista de cámara, o simplifican la alineación multi-toma únicamente en el espacio de la cámara. En este trabajo, abordamos estos desafíos integrando una estimación mejorada de la pose de la cámara con la Recuperación de Movimiento Humano (HMR), incorporando un detector de transiciones de toma y un módulo de alineación robusto para garantizar la continuidad precisa de la pose y la orientación entre tomas. Al aprovechar un integrador de movimiento personalizado, mitigamos efectivamente el problema del deslizamiento de los pies y aseguramos la consistencia temporal en la pose humana. Evaluaciones exhaustivas en nuestro conjunto de datos multi-toma creado a partir de conjuntos de datos públicos de humanos en 3D demuestran la robustez de nuestro método para reconstruir movimientos humanos realistas en coordenadas mundiales.
Alinear los modelos de lenguaje de gran escala (LLMs) con las preferencias humanas es crucial para su implementación en el mundo real, aunque métodos existentes como RLHF enfrentan desafíos computacionales y de estabilidad. Mientras que DPO establece un paradigma offline con un único hiperparámetro beta, métodos posteriores como SimPO reintroducen complejidad mediante parámetros duales (beta, gamma). Proponemos {Optimización de Preferencias basada en ReLU (RePO)}, un algoritmo simplificado que elimina beta mediante dos avances: (1) conservar los márgenes sin referencia de SimPO pero eliminar beta mediante análisis de gradientes, y (2) adoptar una función de pérdida de margen máximo basada en ReLU que filtra naturalmente pares triviales. Teóricamente, RePO se caracteriza como el caso límite de SimPO (beta tiende a infinito), donde la ponderación logística colapsa en un umbral binario, formando una envolvente convexa de la pérdida 0-1. Los resultados empíricos en AlpacaEval 2 y Arena-Hard muestran que RePO supera a DPO y SimPO en múltiples modelos base, requiriendo solo un hiperparámetro para ajustar.
Los Modelos de Lenguaje Multimodales a Gran Escala (MLLMs, por sus siglas en inglés) demuestran capacidades robustas de zero-shot en diversas tareas de visión y lenguaje tras ser entrenados con conjuntos de datos a megaescala. Sin embargo, las tareas de predicción densa, como la segmentación semántica y la detección de puntos clave, presentan desafíos significativos para los MLLMs cuando se representan únicamente como salidas de texto. Al mismo tiempo, los MLLMs actuales que utilizan embeddings latentes para la decodificación de tareas visuales generalmente muestran una adaptabilidad limitada tanto al aprendizaje multitarea como a escenarios de múltiples granularidades. En este trabajo, presentamos REF-VLM, un marco de trabajo de extremo a extremo para el entrenamiento unificado de diversas tareas de decodificación visual. Para abordar escenarios complejos de decodificación visual, introducimos el Paradigma de Referencia Basado en Tripletas (TRP, por sus siglas en inglés), que desacopla explícitamente tres dimensiones críticas en las tareas de decodificación visual a través de una estructura de triplete: conceptos, tipos de decodificación y objetivos. El TRP emplea delimitadores simbólicos para reforzar el aprendizaje de representaciones estructuradas, mejorando la capacidad de análisis y la interpretabilidad de las salidas del modelo. Además, construimos el Conjunto de Datos de Seguimiento de Instrucciones Visual-Tarea (VTInstruct), un conjunto de datos multitarea a gran escala que contiene más de 100 millones de muestras de diálogo multimodal en 25 tipos de tareas. Más allá de las entradas y salidas de texto, VT-Instruct incorpora varios indicadores visuales como puntos, cuadros, garabatos y máscaras, y genera salidas compuestas por texto y unidades visuales como cuadros, puntos clave, profundidad y máscaras. La combinación de diferentes indicadores visuales y unidades visuales genera una amplia variedad de tipos de tareas, expandiendo significativamente la aplicabilidad de REF-VLM. Tanto los experimentos cualitativos como cuantitativos demuestran que nuestro REF-VLM supera a otros MLLMs en una variedad de benchmarks estándar. El código, el conjunto de datos y la demo están disponibles en https://github.com/MacavityT/REF-VLM.
Combinar modelos de lenguaje grandes (LLM) expertos preentrenados existentes es un enfoque prometedor para abordar de manera escalable tareas diversas y a gran escala. Sin embargo, seleccionar expertos a nivel de tarea suele ser demasiado general, ya que tareas heterogéneas pueden requerir diferentes conocimientos para cada instancia. Para permitir una mezcla adaptativa a nivel de instancia de expertos LLM preentrenados, proponemos Symbolic-MoE, un marco Mixture-of-Experts simbólico, basado en texto y libre de gradientes. Symbolic-MoE adopta un enfoque detallado en la selección, enfatizando habilidades, por ejemplo, álgebra en matemáticas o biología molecular en razonamiento biomédico. Proponemos una estrategia de reclutamiento basada en habilidades que selecciona dinámicamente el conjunto más relevante de expertos LLM para diversas tareas de razonamiento según sus fortalezas. Cada experto seleccionado genera su propio razonamiento, resultando en k salidas de k expertos, que luego se sintetizan en una respuesta final de alta calidad por un agregador elegido según su capacidad para integrar resultados de razonamiento diversos. Mostramos que la selección de expertos a nivel de instancia de Symbolic-MoE mejora el rendimiento significativamente, pero —cuando se implementa de manera ingenua— puede introducir un alto costo computacional debido a la necesidad de cargar y descargar modelos constantemente. Para abordar esto, implementamos una estrategia de inferencia por lotes que agrupa instancias según sus expertos asignados, cargando cada modelo solo una vez. Esto nos permite integrar 16 modelos expertos en 1 GPU con un costo de tiempo comparable o mejor que enfoques multiagente anteriores que usan 4 GPUs. A través de evaluaciones extensas en diversos benchmarks (MMLU-Pro, GPQA, AIME y MedMCQA), demostramos que Symbolic-MoE supera a LLM fuertes como GPT4o-mini, así como a enfoques multiagente, con una mejora absoluta promedio del 8.15% sobre el mejor baseline multiagente. Además, Symbolic-MoE elimina la necesidad de discusiones multi-ronda costosas, superando a baselines de discusión con menos computación.
Presentamos PhiloBERTA, un modelo transformador multilingüe que mide las relaciones semánticas entre léxicos del griego antiguo y el latín. Mediante el análisis de pares de términos seleccionados de textos clásicos, utilizamos embeddings contextuales y métricas de similitud angular para identificar alineaciones semánticas precisas. Nuestros resultados muestran que los pares etimológicamente relacionados presentan puntajes de similitud significativamente más altos, particularmente para conceptos filosóficos abstractos como epist\=em\=e (scientia) y dikaiosyn\=e (iustitia). El análisis estadístico revela patrones consistentes en estas relaciones (p = 0.012), con pares etimológicamente relacionados mostrando una preservación semántica notablemente estable en comparación con pares de control. Estos hallazgos establecen un marco cuantitativo para examinar cómo los conceptos filosóficos se trasladaron entre las tradiciones griega y latina, ofreciendo nuevos métodos para la investigación filológica clásica.
La manipulación robótica en escenas con objetos transparentes y especulares presenta grandes desafíos para los métodos que dependen de información precisa de profundidad. En este artículo, presentamos NeuGrasp, un método de reconstrucción de superficies neuronales que aprovecha conocimientos previos del fondo para la detección de agarres independiente del material. NeuGrasp integra transformadores y volúmenes de conocimiento global para agregar características multivista con codificación espacial, permitiendo una reconstrucción robusta de superficies en condiciones de visión estrecha y dispersa. Al enfocarse en objetos en primer plano mediante la mejora de características residuales y refinando la percepción espacial con un volumen de ocupación previa, NeuGrasp sobresale en el manejo de objetos con superficies transparentes y especulares. Experimentos extensos en escenarios tanto simulados como del mundo real muestran que NeuGrasp supera a los métodos más avanzados en manipulación mientras mantiene una calidad de reconstrucción comparable. Más detalles están disponibles en https://neugrasp.github.io/.
Si bien los modelos generativos basados en puntuaciones son el modelo preferido en diversos dominios, existen herramientas limitadas disponibles para controlar el comportamiento durante la inferencia de manera fundamentada, por ejemplo, para componer múltiples modelos preentrenados. Los métodos existentes de guía sin clasificador utilizan una heurística simple para mezclar puntuaciones condicionales e incondicionales y muestrear aproximadamente de distribuciones condicionales. Sin embargo, dichos métodos no aproximan las distribuciones intermedias, lo que requiere pasos adicionales de 'corrección'. En este trabajo, proporcionamos un método eficiente y fundamentado para muestrear a partir de una secuencia de distribuciones recocidas, promediadas geométricamente o producto derivadas de modelos basados en puntuaciones preentrenados. Derivamos un esquema de simulación ponderada al que llamamos Correctores de Feynman-Kac (FKCs, por sus siglas en inglés), basado en la célebre fórmula de Feynman-Kac, al considerar cuidadosamente los términos en las ecuaciones diferenciales parciales (EDPs) apropiadas. Para simular estas EDPs, proponemos algoritmos de remuestreo de Monte Carlo Secuencial (SMC, por sus siglas en inglés) que aprovechan el escalado durante la inferencia para mejorar la calidad del muestreo. Demostramos empíricamente la utilidad de nuestros métodos al proponer muestreo amortizado mediante recocido de temperatura durante la inferencia, mejorar la generación de moléculas multiobjetivo utilizando modelos preentrenados y mejorar la guía sin clasificador para la generación de imágenes a partir de texto. Nuestro código está disponible en https://github.com/martaskrt/fkc-diffusion.