Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje de Gran Escala (LLMs) han extendido su impacto más allá del Procesamiento del Lenguaje Natural, fomentando sustancialmente el desarrollo de investigaciones interdisciplinarias. Recientemente, se han desarrollado diversos agentes basados en LLMs para asistir en el progreso del descubrimiento científico en múltiples aspectos y dominios. Entre estos, los agentes que utilizan computadoras, capaces de interactuar con sistemas operativos como lo harían los humanos, están allanando el camino hacia la resolución automatizada de problemas científicos y la gestión de rutinas en los flujos de trabajo de los investigadores. Reconociendo el potencial transformador de estos agentes, presentamos ScienceBoard, que abarca dos contribuciones complementarias: (i) un entorno realista y multidominio que presenta flujos de trabajo científicos dinámicos y visualmente ricos con software profesional integrado, donde los agentes pueden interactuar de manera autónoma a través de diferentes interfaces para acelerar tareas y experimentos de investigación complejos; y (ii) un benchmark desafiante de 169 tareas de alta calidad y rigurosamente validadas en el mundo real, curadas por humanos, que abarcan flujos de trabajo de descubrimiento científico en dominios como bioquímica, astronomía y geoinformática. Evaluaciones exhaustivas de agentes con arquitecturas de vanguardia (por ejemplo, GPT-4o, Claude 3.7, UI-TARS) muestran que, a pesar de algunos resultados prometedores, aún no alcanzan a asistir de manera confiable a los científicos en flujos de trabajo complejos, logrando solo una tasa de éxito general del 15%. Un análisis en profundidad proporciona además valiosas ideas para abordar las limitaciones actuales de los agentes y principios de diseño más efectivos, allanando el camino para construir agentes más capaces para el descubrimiento científico. Nuestro código, entorno y benchmark están disponibles en https://qiushisun.github.io/ScienceBoard-Home/.
La generación de pósteres académicos es una tarea crucial pero desafiante en la comunicación científica, ya que requiere comprimir documentos intercalados de contexto extenso en una sola página visualmente coherente. Para abordar este desafío, presentamos el primer conjunto de referencia y métricas para la generación de pósteres, que empareja artículos recientes de conferencias con pósteres diseñados por los autores y evalúa los resultados en (i) Calidad Visual: alineación semántica con pósteres humanos, (ii) Coherencia Textual: fluidez del lenguaje, (iii) Evaluación Holística: seis criterios estéticos e informativos detallados calificados por un VLM como juez, y notablemente (iv) PaperQuiz: la capacidad del póster para transmitir el contenido central del artículo, medida mediante VLMs que responden cuestionarios generados. Basándonos en este conjunto de referencia, proponemos PosterAgent, una canalización multiagente de arriba hacia abajo con retroalimentación visual: el (a) Analizador destila el artículo en una biblioteca de recursos estructurados; el (b) Planificador alinea pares texto-visual en un diseño de árbol binario que preserva el orden de lectura y el equilibrio espacial; y el (c) Bucle Pintor-Comentarista refina cada panel ejecutando código de renderizado y utilizando retroalimentación del VLM para eliminar desbordamientos y garantizar alineación. En nuestra evaluación exhaustiva, encontramos que los resultados de GPT-4o, aunque visualmente atractivos a primera vista, a menudo presentan texto ruidoso y puntuaciones bajas en PaperQuiz, y descubrimos que el compromiso del lector es el principal cuello de botella estético, ya que los pósteres diseñados por humanos dependen en gran medida de la semántica visual para transmitir significado. Nuestras variantes completamente de código abierto (por ejemplo, basadas en la serie Qwen-2.5) superan a los sistemas multiagente existentes impulsados por 4o en casi todas las métricas, mientras utilizan un 87% menos de tokens. Transforma un artículo de 22 páginas en un póster finalizado pero editable en formato .pptx, todo por solo $0.005. Estos hallazgos trazan direcciones claras para la próxima generación de modelos de generación de pósteres completamente automatizados. El código y los conjuntos de datos están disponibles en https://github.com/Paper2Poster/Paper2Poster.
El razonamiento lógico es un aspecto fundamental de la inteligencia humana y una capacidad esencial para los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés). A pesar de los avances significativos en el razonamiento multimodal, los puntos de referencia existentes no logran evaluar de manera integral sus habilidades de razonamiento debido a la falta de una categorización explícita de los tipos de razonamiento lógico y a una comprensión poco clara del razonamiento. Para abordar estos problemas, presentamos MME-Reasoning, un punto de referencia integral diseñado para evaluar la capacidad de razonamiento de los MLLMs, el cual cubre los tres tipos de razonamiento (es decir, inductivo, deductivo y abductivo) en sus preguntas. Cuidadosamente seleccionamos los datos para asegurar que cada pregunta evalúe efectivamente la capacidad de razonamiento en lugar de habilidades perceptivas o amplitud de conocimiento, y extendemos los protocolos de evaluación para cubrir la evaluación de preguntas diversas. Nuestra evaluación revela limitaciones sustanciales de los MLLMs más avanzados cuando se someten a evaluaciones holísticas de capacidades de razonamiento lógico. Incluso los MLLMs más avanzados muestran un rendimiento limitado en el razonamiento lógico integral, con desequilibrios notables en el rendimiento entre los tipos de razonamiento. Además, realizamos un análisis en profundidad de enfoques como el "modo de pensamiento" y el RL basado en reglas, que comúnmente se cree que mejoran las habilidades de razonamiento. Estos hallazgos resaltan las limitaciones críticas y los desequilibrios de rendimiento de los MLLMs actuales en diversos escenarios de razonamiento lógico, proporcionando una comprensión y evaluación integral y sistemática de las capacidades de razonamiento.
Los recientes avances como OpenAI-o1 y DeepSeek R1 han demostrado el potencial del Aprendizaje por Refuerzo (RL, por sus siglas en inglés) para mejorar las habilidades de razonamiento en los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Si bien los esfuerzos de replicación de código abierto se han centrado principalmente en dominios matemáticos y de programación, los métodos y recursos para desarrollar capacidades de razonamiento general siguen siendo poco explorados. Esta brecha se debe en parte al desafío de recopilar datos de razonamiento diversos y verificables adecuados para RL. Planteamos la hipótesis de que el razonamiento lógico es fundamental para desarrollar capacidades de razonamiento general, ya que la lógica constituye un bloque básico esencial del razonamiento. En este trabajo, presentamos SynLogic, un marco de síntesis de datos y un conjunto de datos que genera datos de razonamiento lógico diversos a gran escala, abarcando 35 tareas de razonamiento lógico distintas. El enfoque de SynLogic permite la síntesis controlada de datos con dificultad y cantidad ajustables. Es importante destacar que todos los ejemplos pueden verificarse mediante reglas simples, lo que los hace ideales para RL con recompensas verificables. En nuestros experimentos, validamos la efectividad del entrenamiento de RL en el conjunto de datos SynLogic utilizando modelos de 7B y 32B. SynLogic logra un rendimiento de razonamiento lógico de vanguardia entre los conjuntos de datos de código abierto, superando a DeepSeek-R1-Distill-Qwen-32B por 6 puntos en BBEH. Además, la mezcla de datos de SynLogic con tareas matemáticas y de programación mejora la eficiencia del entrenamiento en estos dominios y aumenta significativamente la generalización del razonamiento. Cabe destacar que nuestro modelo de entrenamiento mixto supera a DeepSeek-R1-Zero-Qwen-32B en múltiples benchmarks. Estos hallazgos posicionan a SynLogic como un recurso valioso para avanzar en las capacidades de razonamiento más amplias de los LLMs. Hemos liberado tanto la pipeline de síntesis de datos como el conjunto de datos SynLogic en https://github.com/MiniMax-AI/SynLogic.
Los modelos de difusión han avanzado significativamente en la estilización de imágenes, sin embargo, persisten dos desafíos principales: (1) mantener una estilización consistente en escenas complejas, particularmente en la identidad, composición y detalles finos, y (2) prevenir la degradación del estilo en pipelines de imagen a imagen con LoRAs de estilo. La excepcional consistencia en la estilización de GPT-4o resalta la brecha de rendimiento entre los métodos de código abierto y los modelos propietarios. Para cerrar esta brecha, proponemos OmniConsistency, un plugin universal de consistencia que aprovecha los Transformadores de Difusión a gran escala (DiTs). OmniConsistency contribuye con: (1) un marco de aprendizaje de consistencia en contexto entrenado en pares de imágenes alineadas para una generalización robusta; (2) una estrategia de aprendizaje progresivo en dos etapas que desacopla el aprendizaje del estilo de la preservación de la consistencia para mitigar la degradación del estilo; y (3) un diseño completamente plug-and-play compatible con cualquier LoRA de estilo bajo el marco Flux. Experimentos extensos muestran que OmniConsistency mejora significativamente la coherencia visual y la calidad estética, alcanzando un rendimiento comparable al modelo comercial de última generación GPT-4o.
Un estudio reciente demostró que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) pueden reconstruir textos sorprendentemente largos —de hasta miles de tokens— mediante generación autoregresiva a partir de un único embedding de entrada especialmente entrenado. En este trabajo, exploramos si dicha reconstrucción es posible sin autoregresión. Mostramos que los LLMs congelados pueden generar cientos de tokens precisos en un solo paso hacia adelante, cuando se les proporcionan únicamente dos embeddings aprendidos. Esto revela una capacidad sorprendente y poco explorada de los LLMs: la generación de múltiples tokens sin decodificación iterativa. Investigamos el comportamiento de estos embeddings y ofrecemos una visión sobre el tipo de información que codifican. También demostramos empíricamente que, aunque estas representaciones no son únicas para un texto dado, forman regiones conectadas y locales en el espacio de embeddings, una propiedad que sugiere el potencial de aprender un codificador dedicado para ese espacio.
Los modelos de lenguaje de gran escala (LLMs) para razonamiento dependen en gran medida de escalar el cómputo en tiempo de prueba para realizar tareas de razonamiento complejo mediante la generación de extensas cadenas de "pensamiento". Aunque este enfoque demuestra resultados impresionantes, incurre en costos computacionales significativos y tiempos de inferencia prolongados. En este trabajo, cuestionamos la suposición de que cadenas de pensamiento más largas resultan en mejores capacidades de razonamiento. Primero demostramos que cadenas de razonamiento más cortas dentro de preguntas individuales tienen una probabilidad significativamente mayor de producir respuestas correctas, hasta un 34.5% más precisas que la cadena más larga muestreada para la misma pregunta. Basándonos en estos resultados, proponemos short-m@k, un novedoso método de inferencia para LLMs de razonamiento. Nuestro método ejecuta k generaciones independientes en paralelo y detiene el cómputo una vez que se completan los primeros m procesos de pensamiento. La respuesta final se elige mediante votación mayoritaria entre estas m cadenas. El método básico short-1@k demuestra un rendimiento similar o incluso superior al de la votación mayoritaria estándar en configuraciones de bajo cómputo, utilizando hasta un 40% menos de tokens de pensamiento. short-3@k, aunque ligeramente menos eficiente que short-1@k, supera consistentemente la votación mayoritaria en todos los presupuestos de cómputo, siendo además sustancialmente más rápido (hasta un 33% de reducción en tiempo de ejecución). Inspirados por nuestros resultados, ajustamos un LLM utilizando cadenas de razonamiento cortas, largas y seleccionadas aleatoriamente. Observamos que entrenar con las cadenas más cortas conduce a un mejor rendimiento. Nuestros hallazgos sugieren reconsiderar los métodos actuales de cómputo en tiempo de prueba para LLMs de razonamiento, enfatizando que un "pensamiento" más prolongado no necesariamente se traduce en un mejor rendimiento y puede, de manera contraintuitiva, llevar a resultados degradados.
La generación de Subject-to-Video (S2V) tiene como objetivo crear videos que incorporen fielmente contenido de referencia, ofreciendo una mayor flexibilidad en la producción de videos. Para establecer la infraestructura de la generación S2V, proponemos OpenS2V-Nexus, que consta de (i) OpenS2V-Eval, un benchmark de evaluación detallado, y (ii) OpenS2V-5M, un conjunto de datos a gran escala con millones de ejemplos. A diferencia de los benchmarks S2V existentes heredados de VBench, que se centran en una evaluación global y de grano grueso de los videos generados, OpenS2V-Eval se enfoca en la capacidad del modelo para generar videos consistentes con el sujeto, con una apariencia natural y fidelidad en la identidad. Para estos fines, OpenS2V-Eval introduce 180 prompts de siete categorías principales de S2V, que incorporan tanto datos de prueba reales como sintéticos. Además, para alinear con precisión las preferencias humanas con los benchmarks S2V, proponemos tres métricas automáticas: NexusScore, NaturalScore y GmeScore, que cuantifican por separado la consistencia del sujeto, la naturalidad y la relevancia del texto en los videos generados. Sobre esta base, realizamos una evaluación exhaustiva de 16 modelos S2V representativos, destacando sus fortalezas y debilidades en diferentes contenidos. Además, creamos el primer conjunto de datos de gran escala y de código abierto para la generación S2V, OpenS2V-5M, que consta de cinco millones de tripletas sujeto-texto-video de alta calidad en resolución 720P. Específicamente, aseguramos la diversidad de información sobre el sujeto en nuestro conjunto de datos mediante (1) la segmentación de sujetos y la construcción de información de emparejamiento a través de asociaciones entre videos y (2) el uso de GPT-Image-1 en fotogramas sin procesar para sintetizar representaciones multi-vista. A través de OpenS2V-Nexus, ofrecemos una infraestructura robusta para acelerar la investigación futura en generación S2V.
Los métodos de Escalado en Tiempo de Prueba (TTS, por sus siglas en inglés) para mejorar el razonamiento de los Modelos de Lenguaje a Gran Escala (LLM) suelen incurrir en costos computacionales sustanciales, principalmente debido a la dependencia extensiva de Modelos de Recompensa de Procesos (PRM) externos o métodos de muestreo como Mejor-de-N (BoN). Este artículo presenta Guiado por Intuición (GG), un marco TTS autoguiado eficiente que logra un rendimiento comparable al de los PRM sin la necesidad de costosos modelos verificadores externos. Nuestro método emplea una búsqueda en árbol ligera guiada únicamente por señales intrínsecas del LLM, como la confianza a nivel de token y la novedad de los pasos. Una innovación crítica es la mejora de la fiabilidad de las estimaciones de confianza interna mediante una fase de ajuste fino de aprendizaje por refuerzo dirigido. Las evaluaciones empíricas en benchmarks desafiantes de razonamiento matemático demuestran que GG permite que modelos más pequeños (por ejemplo, de 1.5 mil millones de parámetros) alcancen una precisión igual o superior a la de modelos significativamente más grandes (por ejemplo, de 32 a 70 mil millones de parámetros), mientras reduce el uso de memoria GPU hasta en 10 veces. En comparación con los métodos basados en PRM, GG logra una precisión comparable con velocidades de inferencia 8 veces más rápidas y un uso de memoria 4-5 veces menor. Además, GG reduce el uso de memoria de la caché KV en aproximadamente un 50% en comparación con la estrategia BoN, facilitando una implementación más eficiente y práctica de las técnicas TTS.
Los recientes avances en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han permitido el procesamiento unificado de lenguaje, visión y entradas estructuradas, abriendo la puerta a tareas complejas como la deducción lógica, el razonamiento espacial y el análisis científico. A pesar de su potencial, las capacidades de razonamiento de los MLLMs, particularmente aquellos aumentados con trazas de pensamiento intermedio (MLLMs-T), siguen siendo poco comprendidas y carecen de puntos de referencia estandarizados para su evaluación. El trabajo existente se centra principalmente en la percepción o en la corrección de la respuesta final, ofreciendo una visión limitada sobre cómo los modelos razonan o fallan a través de las modalidades. Para abordar esta brecha, presentamos el MMMR, un nuevo punto de referencia diseñado para evaluar rigurosamente el razonamiento multimodal con pensamiento explícito. El MMMR comprende 1) un conjunto de datos de alta dificultad con 1,083 preguntas que abarcan seis tipos diversos de razonamiento con profundidad simbólica y demandas de múltiples saltos, y 2) una Pipeline de Evaluación de Trazas de Razonamiento (RTEP, por sus siglas en inglés) modular para evaluar la calidad del razonamiento más allá de la precisión, mediante métricas como relevancia, consistencia y anotaciones estructuradas de errores. Los resultados empíricos muestran que los MLLMs-T superan en general a sus contrapartes sin pensamiento intermedio, pero incluso los modelos más avanzados como Claude-3.7-Sonnet y Gemini-2.5 Pro sufren de patologías de razonamiento como inconsistencia y sobrepensamiento. Este punto de referencia revela brechas persistentes entre la precisión y la calidad del razonamiento y proporciona una pipeline de evaluación accionable para el desarrollo futuro de modelos. En general, el MMMR ofrece una base escalable para evaluar, comparar y mejorar la próxima generación de sistemas de razonamiento multimodal.
Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs) han mostrado potencial en la generación de código a nivel de funciones, pero las tareas de ingeniería de software a nivel de repositorio siguen siendo un desafío. Las soluciones actuales dependen principalmente de agentes LLM propietarios, lo que introduce imprevisibilidad y limita la accesibilidad, generando preocupaciones sobre la privacidad de los datos y la personalización de los modelos. Este artículo investiga si los LLMs de código abierto pueden abordar eficazmente las tareas a nivel de repositorio sin requerir enfoques basados en agentes. Demostramos que esto es posible al permitir que los LLMs comprendan funciones y archivos dentro de las bases de código a través de su información semántica y dependencias estructurales. Para ello, presentamos los Modelos de Grafos de Código (CGMs), que integran las estructuras de grafos de código del repositorio en el mecanismo de atención del LLM y mapean los atributos de los nodos al espacio de entrada del LLM utilizando un adaptador especializado. Cuando se combina con un marco de RAG de grafos sin agentes, nuestro enfoque logra una tasa de resolución del 43.00% en el benchmark SWE-bench Lite utilizando el modelo de código abierto Qwen2.5-72B. Este rendimiento ocupa el primer lugar entre los modelos de pesos abiertos, el segundo entre los métodos con sistemas de código abierto y el octavo en general, superando al mejor método basado en modelos de código abierto anterior en un 12.33%.
La aplicación del Aprendizaje por Refuerzo (RL) a los Modelos de Lenguaje de Gran Escala para Video (Video-LLMs) muestra un potencial significativo para el razonamiento complejo en video. Sin embargo, los métodos populares de Ajuste Fino por Refuerzo (RFT), como la Optimización de Política Relativa de Grupo basada en Resultados (GRPO), están limitados por cuellos de botella en la preparación de datos (por ejemplo, ruido o alto costo) y exhiben mejoras inestables en la calidad de las cadenas de pensamiento largas (CoTs) y en el rendimiento en tareas posteriores. Para abordar estas limitaciones, proponemos VerIPO, un método de Optimización de Política Iterativa Guiada por Verificador diseñado para mejorar gradualmente la capacidad de los Video-LLMs para generar cadenas de razonamiento profundas y a largo plazo. El componente central es el Verificador Consciente de Rollout, posicionado entre las fases de entrenamiento GRPO y la Optimización de Preferencias Directas (DPO) para formar el bucle de entrenamiento GRPO-Verificador-DPO. Este verificador aprovecha modelos de lenguaje pequeños como jueces para evaluar la lógica de razonamiento de los rollouts, permitiendo la construcción de datos contrastivos de alta calidad, incluyendo CoTs reflexivas y contextualmente consistentes. Estas muestras de preferencia curadas impulsan la etapa eficiente de DPO (7 veces más rápida que GRPO), lo que conduce a mejoras notables en la calidad de las cadenas de razonamiento, especialmente en términos de longitud y consistencia contextual. Este bucle de entrenamiento se beneficia de la búsqueda expansiva de GRPO y la optimización dirigida de DPO. Los resultados experimentales demuestran: 1) Una optimización significativamente más rápida y efectiva en comparación con las variantes estándar de GRPO, obteniendo un rendimiento superior; 2) Nuestros modelos entrenados superan la inferencia directa de Video-LLMs de gran escala ajustados por instrucciones, produciendo CoTs largas y contextualmente consistentes en diversas tareas de razonamiento en video; y 3) Nuestro modelo con una iteración supera a potentes LMMs (por ejemplo, Kimi-VL) y modelos de razonamiento largo (por ejemplo, Video-R1), destacando su efectividad y estabilidad.
Los Transformadores de Difusión (DiTs) son esenciales para la generación de videos, pero sufren de una latencia significativa debido a la complejidad cuadrática de la atención. Al calcular únicamente los tokens críticos, la atención dispersa reduce los costos computacionales y ofrece un enfoque prometedor para la aceleración. Sin embargo, identificamos que los métodos existentes no logran alcanzar una calidad de generación óptima bajo el mismo presupuesto computacional por dos razones: (1) Identificación imprecisa de tokens críticos: los métodos actuales agrupan tokens basándose en la posición en lugar de la semántica, lo que lleva a representaciones agregadas imprecisas. (2) Desperdicio excesivo de computación: los tokens críticos están dispersos entre los no críticos, lo que resulta en un desperdicio de computación en las GPU, que están optimizadas para procesar tokens contiguos. En este artículo, proponemos SVG2, un marco sin necesidad de entrenamiento que maximiza la precisión de identificación y minimiza el desperdicio de computación, logrando un equilibrio de frontera de Pareto entre la calidad de generación y la eficiencia. El núcleo de SVG2 es la permutación semántica, que agrupa y reordena tokens basándose en la similitud semántica utilizando k-means. Este enfoque asegura tanto una representación precisa de los clusters, mejorando la precisión de identificación, como un diseño densificado de tokens críticos, permitiendo una computación eficiente sin relleno. Además, SVG2 integra un control dinámico de presupuesto top-p e implementaciones de kernel personalizadas, logrando aceleraciones de hasta 2.30x y 1.89x mientras mantiene un PSNR de hasta 30 y 26 en HunyuanVideo y Wan 2.1, respectivamente.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han logrado una precisión considerable en el Reconocimiento Óptico de Caracteres (OCR) a partir de imágenes estáticas. Sin embargo, su eficacia en el OCR de videos se ve significativamente reducida debido a factores como el desenfoque por movimiento, las variaciones temporales y los efectos visuales inherentes al contenido de video. Para ofrecer una guía más clara en el entrenamiento de MLLMs prácticos, presentamos el benchmark MME-VideoOCR, que abarca una amplia gama de escenarios de aplicación de OCR en video. MME-VideoOCR incluye 10 categorías de tareas que comprenden 25 tareas individuales y abarca 44 escenarios diversos. Estas tareas van más allá del reconocimiento de texto para incorporar una comprensión y razonamiento más profundos del contenido textual dentro de los videos. El benchmark consta de 1,464 videos con diferentes resoluciones, proporciones de aspecto y duraciones, junto con 2,000 pares de preguntas-respuestas cuidadosamente curadas y anotadas manualmente. Evaluamos 18 MLLMs de última generación en MME-VideoOCR, revelando que incluso el modelo con mejor rendimiento (Gemini-2.5 Pro) alcanza una precisión de solo el 73.7%. Un análisis detallado indica que, aunque los MLLMs existentes demuestran un fuerte rendimiento en tareas donde los textos relevantes están contenidos en uno o pocos fotogramas, muestran una capacidad limitada para manejar eficazmente tareas que requieren una comprensión holística del video. Estas limitaciones son especialmente evidentes en escenarios que exigen razonamiento espacio-temporal, integración de información entre fotogramas o resistencia al sesgo previo del lenguaje. Nuestros hallazgos también destacan la importancia de una entrada visual de alta resolución y una cobertura temporal suficiente para un OCR confiable en escenarios de video dinámicos.
En este artículo, presentamos UI-Genie, un marco de auto-mejora que aborda dos desafíos clave en los agentes de interfaz gráfica de usuario (GUI): la verificación del resultado de la trayectoria es complicada y los datos de entrenamiento de alta calidad no son escalables. Estos desafíos se abordan mediante un modelo de recompensa y una canalización de auto-mejora, respectivamente. El modelo de recompensa, UI-Genie-RM, presenta una arquitectura intercalada de imagen-texto que procesa eficientemente el contexto histórico y unifica las recompensas a nivel de acción y a nivel de tarea. Para apoyar el entrenamiento de UI-Genie-RM, desarrollamos estrategias de generación de datos diseñadas deliberadamente, incluyendo verificación basada en reglas, corrupción controlada de trayectorias y minería de negativos difíciles. Para abordar el segundo desafío, una canalización de auto-mejora expande progresivamente tareas complejas de GUI resolubles mediante la mejora tanto del agente como de los modelos de recompensa a través de la exploración guiada por recompensas y la verificación de resultados en entornos dinámicos. Para entrenar el modelo, generamos UI-Genie-RM-517k y UI-Genie-Agent-16k, estableciendo el primer conjunto de datos específico de recompensas para agentes de GUI, mientras demostramos la generación de trayectorias sintéticas de alta calidad sin anotación manual. Los resultados experimentales muestran que UI-Genie alcanza un rendimiento de vanguardia en múltiples benchmarks de agentes de GUI con tres generaciones de auto-mejora de datos y modelos. Hacemos público el código completo de nuestra implementación del marco y los conjuntos de datos generados para facilitar investigaciones futuras en https://github.com/Euphoria16/UI-Genie.
La Adaptación de Bajo Rango (LoRA) es un método popular para el ajuste fino eficiente en parámetros (PEFT) de modelos generativos, valorado por su simplicidad y efectividad. A pesar de las mejoras recientes, LoRA aún sufre una limitación fundamental: el sobreajuste cuando se amplía el cuello de botella. Funciona mejor en rangos de 32 a 64, pero su precisión se estanca o disminuye en rangos más altos, sin alcanzar el rendimiento del ajuste fino completo (FFT). Identificamos la causa raíz como el cuello de botella estructural de LoRA, que introduce entrelazamiento de gradientes en los canales de entrada no relacionados y distorsiona la propagación del gradiente. Para abordar esto, presentamos una nueva estructura, la Adaptación de Bajo Rango Granular (GraLoRA), que divide las matrices de peso en sub-bloques, cada uno con su propio adaptador de bajo rango. Con un costo computacional o de almacenamiento insignificante, GraLoRA supera las limitaciones de LoRA, aumenta efectivamente la capacidad de representación y se aproxima más al comportamiento de FFT. Los experimentos en benchmarks de generación de código y razonamiento de sentido común muestran que GraLoRA supera consistentemente a LoRA y otras líneas base, logrando una ganancia absoluta de hasta +8.5% en Pass@1 en HumanEval+. Estas mejoras se mantienen en diferentes tamaños de modelos y configuraciones de rango, convirtiendo a GraLoRA en una solución escalable y robusta para PEFT. El código, datos y scripts están disponibles en https://github.com/SqueezeBits/GraLoRA.git.
Los clientes empresariales están adoptando cada vez más los Modelos de Lenguaje de Gran Escala (LLMs) para tareas de comunicación críticas, como redactar correos electrónicos, elaborar propuestas de ventas y componer mensajes informales. Implementar estos modelos en diferentes regiones requiere que comprendan diversos contextos culturales y lingüísticos, y que generen respuestas seguras y respetuosas. Para aplicaciones empresariales, es crucial mitigar riesgos reputacionales, mantener la confianza y garantizar el cumplimiento normativo al identificar y manejar de manera efectiva el lenguaje inseguro u ofensivo. Para abordar esto, presentamos SweEval, un punto de referencia que simula escenarios del mundo real con variaciones en el tono (positivo o negativo) y el contexto (formal o informal). Las instrucciones indican explícitamente al modelo que incluya palabras malsonantes específicas al completar la tarea. Este punto de referencia evalúa si los LLMs cumplen o resisten dichas instrucciones inapropiadas y analiza su alineación con marcos éticos, matices culturales y capacidades de comprensión del lenguaje. Para avanzar en la investigación sobre la construcción de sistemas de IA éticamente alineados para uso empresarial y más allá, publicamos el conjunto de datos y el código: https://github.com/amitbcp/multilingual_profanity.
Los recientes avances en el razonamiento CoT y el entrenamiento posterior con RL han demostrado mejorar las capacidades de razonamiento en video de los MLLM. Este progreso plantea naturalmente una pregunta: ¿pueden estos modelos realizar un razonamiento complejo en video de manera comparable a expertos humanos? Sin embargo, los benchmarks de video existentes evalúan principalmente la percepción visual y las habilidades de fundamentación, con preguntas que pueden responderse basándose en indicaciones explícitas o pistas visuales aisladas. Dichos benchmarks no capturan plenamente las complejidades del razonamiento del mundo real, donde los humanos deben buscar activamente, integrar y analizar múltiples pistas antes de llegar a una conclusión. Para abordar este problema, presentamos Video-Holmes, un benchmark inspirado en el proceso de razonamiento de Sherlock Holmes, diseñado para evaluar las capacidades de razonamiento complejo en video de los MLLM. Video-Holmes consta de 1,837 preguntas derivadas de 270 cortometrajes de suspenso anotados manualmente, que abarcan siete tareas cuidadosamente diseñadas. Cada tarea se construye identificando primero eventos clave y relaciones causales dentro de las películas, y luego diseñando preguntas que requieren que los modelos localicen y conecten activamente múltiples pistas visuales relevantes dispersas en diferentes segmentos de video. Nuestra evaluación exhaustiva de los MLLM más avanzados revela que, aunque estos modelos generalmente sobresalen en percepción visual, encuentran dificultades sustanciales para integrar información y a menudo pasan por alto pistas críticas. Por ejemplo, el modelo con mejor rendimiento, Gemini-2.5-Pro, alcanza una precisión de solo el 45%, con la mayoría de los modelos obteniendo puntuaciones inferiores al 40%. Nuestro objetivo es que Video-Holmes sirva como una "prueba de Holmes" para el razonamiento multimodal, motivando a los modelos a razonar más como humanos y destacando los desafíos continuos en este campo. El benchmark está disponible en https://github.com/TencentARC/Video-Holmes.
El avance en el razonamiento de código en los modelos de lenguaje de gran escala (LLMs) se ve fundamentalmente limitado por la escasez de conjuntos de datos de alta dificultad, especialmente aquellos con casos de prueba verificables de entrada-salida necesarios para una validación rigurosa de soluciones a gran escala. Presentamos rStar-Coder, que mejora significativamente las capacidades de razonamiento de código de los LLMs mediante la construcción de un conjunto de datos verificado a gran escala de 418K problemas de código de nivel competitivo, 580K soluciones de razonamiento extenso junto con casos de prueba ricos y de variada dificultad. Esto se logra a través de tres contribuciones principales: (1) seleccionamos problemas de programación competitiva y soluciones oráculo para sintetizar nuevos problemas resolubles; (2) introducimos una canalización confiable de síntesis de casos de prueba de entrada-salida que desacopla la generación en un método de generación de entrada en tres pasos y un mecanismo de verificación mutua para un etiquetado efectivo de salidas; (3) enriquecemos los problemas con soluciones de razonamiento extenso verificadas mediante casos de prueba de alta calidad. Experimentos extensivos en modelos Qwen (1.5B-14B) a través de varios benchmarks de razonamiento de código demuestran la superioridad del conjunto de datos rStar-Coder, logrando un rendimiento líder comparable a los LLMs de razonamiento de vanguardia con tamaños de modelo mucho más pequeños. En LiveCodeBench, rStar-Coder mejora Qwen2.5-7B del 17.4% a un impresionante 57.3%, y Qwen2.5-14B del 23.3% al 62.5%, superando a o3-mini (bajo) en un 3.1%. En el más desafiante USA Computing Olympiad, nuestro modelo de 7B logra una precisión promedio pass@1 del 16.15%, superando al QWQ-32B de nivel de vanguardia. El código y el conjunto de datos se publicarán en https://github.com/microsoft/rStar.
El reciente cambio de paradigma hacia el entrenamiento de modelos de lenguaje grandes (LLMs) utilizando aprendizaje por refuerzo (RL) al estilo DeepSeek-R1-Zero con recompensas verificables ha llevado a avances impresionantes en el razonamiento matemático y de código. Sin embargo, esta metodología se limita a tareas donde es posible la verificación de respuestas basada en reglas y no se extiende naturalmente a dominios del mundo real como la química, la atención médica, la ingeniería, el derecho, la biología, los negocios y la economía. Las soluciones prácticas actuales utilizan un LLM adicional como verificador basado en modelos; sin embargo, esto introduce problemas como la dependencia de un LLM verificador fuerte, la susceptibilidad al hackeo de recompensas y la carga práctica de mantener el modelo verificador en memoria durante el entrenamiento. Para abordar esto y extender el entrenamiento al estilo DeepSeek-R1-Zero a dominios de razonamiento general, proponemos un método sin verificador (VeriFree) que evita la verificación de respuestas y, en su lugar, utiliza RL para maximizar directamente la probabilidad de generar la respuesta de referencia. Comparamos VeriFree con métodos basados en verificadores y demostramos que, además de sus beneficios prácticos significativos y requisitos de computación reducidos, VeriFree iguala e incluso supera a los métodos basados en verificadores en evaluaciones extensas en MMLU-Pro, GPQA, SuperGPQA y benchmarks relacionados con matemáticas. Además, proporcionamos perspectivas sobre este método desde múltiples ángulos: como una integración elegante del entrenamiento tanto de la política como del verificador implícito en un modelo unificado, y como un enfoque de optimización variacional. El código está disponible en https://github.com/sail-sg/VeriFree.
Las interacciones sociales humanas dependen de la capacidad de inferir las intenciones, emociones y creencias no expresadas de los demás, una habilidad cognitiva fundamentada en el concepto psicológico de la Teoría de la Mente (ToM, por sus siglas en inglés). Si bien los modelos de lenguaje de gran escala (LLMs) sobresalen en tareas de comprensión semántica, tienen dificultades con la ambigüedad y los matices contextuales inherentes a la comunicación humana. Para cerrar esta brecha, presentamos MetaMind, un marco de trabajo multiagente inspirado en teorías psicológicas de la metacognición, diseñado para emular el razonamiento social similar al humano. MetaMind descompone la comprensión social en tres etapas colaborativas: (1) un Agente de Teoría de la Mente genera hipótesis sobre los estados mentales del usuario (por ejemplo, intención, emoción), (2) un Agente de Dominio refina estas hipótesis utilizando normas culturales y restricciones éticas, y (3) un Agente de Respuesta genera respuestas contextualmente apropiadas mientras valida la alineación con la intención inferida. Nuestro marco logra un rendimiento de vanguardia en tres puntos de referencia desafiantes, con una mejora del 35.7% en escenarios sociales del mundo real y un aumento del 6.2% en el razonamiento de ToM. Notablemente, permite que los LLMs igualen el rendimiento humano en tareas clave de ToM por primera vez. Los estudios de ablación confirman la necesidad de todos los componentes, demostrando la capacidad del marco para equilibrar la plausibilidad contextual, la adecuación social y la adaptación al usuario. Este trabajo avanza los sistemas de IA hacia una inteligencia social similar a la humana, con aplicaciones en diálogos empáticos e interacciones culturalmente sensibles. El código está disponible en https://github.com/XMZhangAI/MetaMind.
Mejorar el rendimiento en tareas complejas y permitir la toma de decisiones interpretable en modelos de lenguaje de gran escala (LLMs), especialmente para aplicaciones clínicas, requiere un razonamiento efectivo. Sin embargo, esto sigue siendo un desafío sin un ajuste fino supervisado (SFT) en costosos datos de cadena de pensamiento (CoT) destilados de modelos de código cerrado (por ejemplo, GPT-4o). En este trabajo, presentamos AlphaMed, el primer LLM médico que demuestra que la capacidad de razonamiento puede surgir únicamente a través del aprendizaje por refuerzo (RL), utilizando recompensas minimalistas basadas en reglas en conjuntos de datos públicos de preguntas y respuestas de opción múltiple, sin depender de SFT o datos de CoT destilados. AlphaMed logra resultados de vanguardia en seis benchmarks de preguntas y respuestas médicas, superando a modelos entrenados con pipelines convencionales de SFT+RL. En benchmarks desafiantes (por ejemplo, MedXpert), AlphaMed incluso supera a modelos más grandes o de código cerrado como DeepSeek-V3-671B y Claude-3.5-Sonnet. Para comprender los factores detrás de este éxito, realizamos un análisis centrado en datos guiado por tres preguntas: (i) ¿Puede el RL minimalista basado en reglas incentivar el razonamiento sin supervisión de CoT destilado? (ii) ¿Cómo impactan la cantidad y la diversidad del conjunto de datos en el razonamiento? (iii) ¿Cómo moldea la dificultad de las preguntas la emergencia y generalización del razonamiento? Nuestros hallazgos muestran que la informatividad del conjunto de datos es un factor clave en el rendimiento del razonamiento, y que el RL minimalista en datos informativos de preguntas y respuestas de opción múltiple es efectivo para inducir razonamiento sin supervisión de CoT. También observamos tendencias divergentes entre los benchmarks, destacando limitaciones en la evaluación actual y la necesidad de benchmarks médicos de preguntas y respuestas más desafiantes y orientados al razonamiento.
Los modelos de lenguaje de gran escala para video (video LLMs) destacan en la comprensión de video, pero enfrentan una ineficiencia computacional significativa debido a la redundancia de tokens de video. Los métodos existentes de poda de tokens ofrecen soluciones. Sin embargo, los enfoques que operan dentro del LLM (poda interna del LLM), como FastV, incurren en un sobrecosto computacional intrínseco en las capas superficiales. En contraste, los métodos que realizan la poda de tokens antes del LLM (poda externa del LLM) abordan principalmente la redundancia espacial dentro de fotogramas individuales o ventanas temporales limitadas, descuidando las cruciales dinámicas temporales globales y las correlaciones a lo largo de secuencias de video más largas. Esto conduce a una reducción espacio-temporal subóptima y no aprovecha completamente la compresibilidad del video. Es crucial destacar que el potencial sinérgico y la influencia mutua de combinar estas estrategias permanecen inexplorados. Para reducir aún más la redundancia, presentamos HoliTom, un novedoso marco de fusión holística de tokens sin necesidad de entrenamiento. HoliTom emplea la poda externa del LLM mediante segmentación temporal consciente de la redundancia global, seguida de una fusión espacio-temporal para reducir los tokens visuales en más del 90%, aliviando significativamente la carga computacional del LLM. Complementando esto, introducimos un enfoque robusto de fusión interna de tokens basado en la similitud, diseñado para un rendimiento superior y compatibilidad con la poda externa del LLM. Las evaluaciones demuestran el prometedor equilibrio eficiencia-rendimiento de nuestro método en LLaVA-OneVision-7B, reduciendo los costos computacionales al 6.9% de los FLOPs mientras se mantiene el 99.1% del rendimiento original. Además, logramos una reducción de 2.28x en el Tiempo-Para-Primer-Token (TTFT) y una aceleración de 1.32x en el rendimiento de decodificación, destacando los beneficios prácticos de nuestro enfoque integrado de poda para la inferencia eficiente de video LLMs.
La animación de imágenes con control interactivo del movimiento ha ganado popularidad en la generación de imagen a video (I2V). Los enfoques modernos suelen depender de grandes núcleos gaussianos para extender las trayectorias de movimiento como condición sin definir explícitamente la región de movimiento, lo que resulta en un control de movimiento poco preciso y en la incapacidad de separar el movimiento del objeto y de la cámara. Para abordar estos problemas, presentamos MotionPro, un controlador de movimiento preciso que utiliza de manera novedosa trayectorias por región y una máscara de movimiento para regular la síntesis de movimiento de grano fino e identificar la categoría de movimiento objetivo (es decir, si el objeto o la cámara se mueven), respectivamente. Técnicamente, MotionPro primero estima los mapas de flujo en cada video de entrenamiento mediante un modelo de seguimiento, y luego muestrea las trayectorias por región para simular el escenario de inferencia. En lugar de extender el flujo a través de grandes núcleos gaussianos, nuestro enfoque de trayectorias por región permite un control más preciso al utilizar directamente las trayectorias dentro de regiones locales, caracterizando así de manera efectiva los movimientos de grano fino. Simultáneamente, se deriva una máscara de movimiento a partir de los mapas de flujo predichos para capturar la dinámica holística del movimiento en las regiones. Para lograr un control de movimiento natural, MotionPro refuerza la eliminación de ruido en los videos incorporando tanto las trayectorias por región como la máscara de movimiento a través de la modulación de características. Además, construimos meticulosamente un punto de referencia, es decir, MC-Bench, con 1.1K pares de imagen-trayectoria anotados por usuarios, para la evaluación tanto del control de movimiento I2V de grano fino como a nivel de objeto. Experimentos extensivos realizados en WebVid-10M y MC-Bench demuestran la efectividad de MotionPro. Consulte nuestra página del proyecto para obtener más resultados: https://zhw-zhang.github.io/MotionPro-page/.
La Alineación Multilingüe es un paradigma efectivo y representativo para mejorar las capacidades multilingües de los LLMs (Modelos de Lenguaje de Gran Escala), transfiriendo las capacidades de los idiomas de alto recurso a los de bajo recurso. Mientras tanto, algunas investigaciones sobre neuronas específicas del lenguaje revelan que existen neuronas específicas del lenguaje que se activan selectivamente en los LLMs al procesar diferentes idiomas. Esto proporciona una nueva perspectiva para analizar y comprender los mecanismos de los LLMs de manera más específica en escenarios multilingües. En este trabajo, proponemos un nuevo algoritmo de identificación de neuronas más granular, que detecta neuronas del lenguaje (incluyendo neuronas específicas del lenguaje y neuronas relacionadas con el lenguaje) y neuronas independientes del lenguaje. Además, basándonos en las características distribucionales de los diferentes tipos de neuronas, dividimos el proceso interno de los LLMs para la inferencia multilingüe en cuatro partes: (1) comprensión multilingüe, (2) razonamiento en el espacio semántico compartido, (3) transformación del espacio de salida multilingüe y (4) salida en el espacio de vocabulario. Adicionalmente, analizamos sistemáticamente los modelos antes y después de la alineación, centrándonos en los diferentes tipos de neuronas. También analizamos el fenómeno de la "Alineación Multilingüe Espontánea". En general, nuestro trabajo realiza una investigación exhaustiva basada en diferentes tipos de neuronas, proporcionando resultados empíricos y perspectivas valiosas para comprender mejor la alineación multilingüe y las capacidades multilingües de los LLMs.
La controlabilidad, la coherencia temporal y la síntesis de detalles siguen siendo los desafíos más críticos en la generación de videos. En este artículo, nos centramos en una técnica cinematográfica común pero poco explorada conocida como Frame In y Frame Out. Específicamente, partiendo de la generación de imagen a video, los usuarios pueden controlar los objetos en la imagen para que salgan de la escena de manera natural o proporcionar nuevas referencias de identidad para que entren en la escena, guiados por una trayectoria de movimiento especificada por el usuario. Para apoyar esta tarea, introducimos un nuevo conjunto de datos curado de manera semi-automática, un protocolo de evaluación integral dirigido a este escenario y una arquitectura eficiente de Transformador de Difusión para video con control de movimiento y preservación de identidad. Nuestra evaluación muestra que nuestro enfoque propuesto supera significativamente a los métodos existentes.
Los recientes avances en modelos generativos han permitido la generación de imágenes de alta fidelidad a partir de texto. Sin embargo, los modelos de edición de imágenes de código abierto aún están rezagados en comparación con sus contrapartes propietarias, principalmente debido a la limitada disponibilidad de datos de alta calidad y a la insuficiencia de puntos de referencia. Para superar estas limitaciones, presentamos ImgEdit, un conjunto de datos de edición de imágenes a gran escala y de alta calidad que comprende 1.2 millones de pares de ediciones cuidadosamente seleccionados, los cuales incluyen tanto ediciones novedosas y complejas de un solo paso, como tareas desafiantes de múltiples pasos. Para garantizar la calidad de los datos, empleamos un pipeline de múltiples etapas que integra un modelo de visión y lenguaje de vanguardia, un modelo de detección, un modelo de segmentación, junto con procedimientos específicos de inpainting y un estricto post-procesamiento. ImgEdit supera a los conjuntos de datos existentes tanto en novedad de tareas como en calidad de datos. Utilizando ImgEdit, entrenamos ImgEdit-E1, un modelo de edición que utiliza un Modelo de Lenguaje y Visión para procesar la imagen de referencia y la instrucción de edición, el cual supera a los modelos de código abierto existentes en múltiples tareas, destacando el valor de ImgEdit y el diseño del modelo. Para una evaluación integral, presentamos ImgEdit-Bench, un punto de referencia diseñado para evaluar el rendimiento de la edición de imágenes en términos de adherencia a las instrucciones, calidad de la edición y preservación de detalles. Incluye un conjunto básico de pruebas, un conjunto desafiante de un solo paso y un conjunto dedicado de múltiples pasos. Evaluamos tanto modelos de código abierto como propietarios, así como ImgEdit-E1, proporcionando un análisis profundo y conocimientos prácticos sobre el comportamiento actual de los modelos de edición de imágenes. Los datos fuente están disponibles públicamente en https://github.com/PKU-YuanGroup/ImgEdit.
En muchas aplicaciones del mundo real, los modelos implementados se encuentran con entradas que difieren de los datos vistos durante el entrenamiento. La detección fuera de distribución identifica si una entrada proviene de una distribución no vista, mientras que el reconocimiento en mundo abierto marca dichas entradas para garantizar que el sistema permanezca robusto a medida que surgen categorías previamente desconocidas y deben abordarse sin necesidad de reentrenamiento. Los modelos de base y los modelos de visión-lenguaje se preentrenan en conjuntos de datos grandes y diversos con la expectativa de una generalización amplia en múltiples dominios, incluyendo imágenes médicas. Sin embargo, evaluar estos modelos en conjuntos de prueba con solo unos pocos tipos comunes de valores atípicos reduce silenciosamente la evaluación a un problema de conjunto cerrado, ocultando fallos en condiciones raras o verdaderamente novedosas encontradas en el uso clínico. Por lo tanto, presentamos NOVA, un punto de referencia de evaluación desafiante y basado en la vida real, compuesto por 900 escaneos de resonancia magnética cerebral que abarcan 281 patologías raras y protocolos de adquisición heterogéneos. Cada caso incluye narrativas clínicas detalladas y anotaciones de cuadros delimitadores realizadas por expertos bajo doble ciego. Juntos, estos elementos permiten una evaluación conjunta de la localización de anomalías, la generación de descripciones visuales y el razonamiento diagnóstico. Dado que NOVA nunca se utiliza para el entrenamiento, sirve como una prueba de estrés extrema de la generalización fuera de distribución: los modelos deben superar una brecha de distribución tanto en la apariencia de las muestras como en el espacio semántico. Los resultados de referencia con modelos líderes de visión-lenguaje (GPT-4o, Gemini 2.0 Flash y Qwen2.5-VL-72B) revelan caídas sustanciales en el rendimiento en todas las tareas, estableciendo a NOVA como un banco de pruebas riguroso para avanzar en modelos capaces de detectar, localizar y razonar sobre anomalías verdaderamente desconocidas.
Este artículo presenta DetailFlow, un método de generación de imágenes autoregresivo (AR) unidimensional de grueso a fino que modela imágenes mediante una novedosa estrategia de predicción de detalles sucesivos. Al aprender una secuencia de tokens consciente de la resolución supervisada con imágenes progresivamente degradadas, DetailFlow permite que el proceso de generación comience desde la estructura global y refine incrementalmente los detalles. Esta secuencia de tokens unidimensional de grueso a fino se alinea bien con el mecanismo de inferencia autoregresivo, proporcionando una forma más natural y eficiente para que el modelo AR genere contenido visual complejo. Nuestro modelo AR unidimensional compacto logra una síntesis de imágenes de alta calidad con significativamente menos tokens que enfoques anteriores, como VAR/VQGAN. Además, proponemos un mecanismo de inferencia paralela con autocorrección que acelera la velocidad de generación aproximadamente 8 veces mientras reduce el error de muestreo acumulativo inherente a la supervisión de forzamiento del profesor. En el benchmark ImageNet 256x256, nuestro método alcanza un gFID de 2.96 con 128 tokens, superando a VAR (3.3 FID) y FlexVAR (3.05 FID), que requieren 680 tokens en sus modelos AR. Además, debido al número significativamente reducido de tokens y al mecanismo de inferencia paralela, nuestro método ejecuta la inferencia casi 2 veces más rápido en comparación con VAR y FlexVAR. Los extensos resultados experimentales demuestran la calidad y eficiencia superior de DetailFlow en la generación en comparación con los métodos más avanzados existentes.
La visión activa, también conocida como percepción activa, se refiere al proceso de seleccionar activamente dónde y cómo mirar para recopilar información relevante para una tarea. Es un componente crítico de la percepción eficiente y la toma de decisiones en humanos y agentes corporizados avanzados. Recientemente, el uso de Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) como módulos centrales de planificación y toma de decisiones en sistemas robóticos ha ganado una atención considerable. Sin embargo, a pesar de la importancia de la percepción activa en la inteligencia corporizada, existe poca o ninguna exploración sobre cómo los MLLMs pueden ser equipados o aprender capacidades de percepción activa. En este artículo, primero proporcionamos una definición sistemática de las tareas de percepción activa basadas en MLLMs. Señalamos que la estrategia de búsqueda de zoom propuesta recientemente en el modelo GPT-o3 puede considerarse un caso especial de percepción activa; no obstante, aún sufre de baja eficiencia en la búsqueda y selección imprecisa de regiones. Para abordar estos problemas, proponemos ACTIVE-O3, un marco de entrenamiento basado únicamente en aprendizaje por refuerzo construido sobre GRPO, diseñado para equipar a los MLLMs con capacidades de percepción activa. Además, establecemos un conjunto integral de benchmarks para evaluar ACTIVE-O3 en tareas generales de mundo abierto, como la localización de objetos pequeños y densos, y escenarios específicos de dominio, incluyendo la detección de objetos pequeños en teledetección y conducción autónoma, así como la segmentación interactiva de grano fino. Adicionalmente, ACTIVE-O3 también demuestra fuertes habilidades de razonamiento zero-shot en el Benchmark V*, sin depender de ningún dato explícito de razonamiento. Esperamos que nuestro trabajo pueda proporcionar una base de código simple y un protocolo de evaluación para facilitar futuras investigaciones sobre percepción activa en MLLMs.
El control preciso sobre la generación de modelos de lenguaje es fundamental para garantizar tanto la seguridad como la confiabilidad. Aunque la ingeniería de prompts y la dirección (steering) se utilizan comúnmente para intervenir en los comportamientos del modelo, la gran cantidad de parámetros en los modelos a menudo resulta en representaciones internas altamente interconectadas. Esta interdependencia puede limitar la precisión del control y, en ocasiones, provocar efectos secundarios no deseados. Investigaciones recientes han explorado el uso de autoencoders dispersos (SAE) para desenredar el conocimiento en espacios de alta dimensionalidad con fines de dirección. Sin embargo, estas aplicaciones se han limitado a tareas simples debido al problema no trivial de localizar componentes de conocimiento atómicos. En este artículo, proponemos Átomos de Dirección Objetivo (Steering Target Atoms, STA), un método novedoso que aísla y manipula componentes de conocimiento desenredados para mejorar la seguridad. Experimentos exhaustivos demuestran la efectividad de nuestro enfoque. Un análisis adicional revela que la dirección exhibe una robustez y flexibilidad superiores, particularmente en escenarios adversarios. También aplicamos la estrategia de dirección al modelo de razonamiento a gran escala, confirmando su efectividad en el control preciso del razonamiento.
Presentamos FinTagging, el primer punto de referencia XBRL de alcance completo y consciente de tablas diseñado para evaluar las capacidades de extracción de información estructurada y alineación semántica de los modelos de lenguaje de gran escala (LLMs) en el contexto de informes financieros basados en XBRL. A diferencia de los puntos de referencia anteriores que simplifican en exceso el etiquetado XBRL como una clasificación multiclase plana y se centran únicamente en texto narrativo, FinTagging descompone el problema de etiquetado XBRL en dos subtareas: FinNI para la extracción de entidades financieras y FinCL para la alineación de conceptos basada en taxonomías. Requiere que los modelos extraigan hechos y los alineen con la taxonomía completa de US-GAAP de más de 10,000 elementos, tanto en texto no estructurado como en tablas estructuradas, permitiendo una evaluación realista y detallada. Evaluamos un conjunto diverso de LLMs en configuraciones de cero disparos, analizando sistemáticamente su rendimiento en ambas subtareas y en la precisión general del etiquetado. Nuestros resultados revelan que, aunque los LLMs demuestran una fuerte generalización en la extracción de información, tienen dificultades con la alineación detallada de conceptos, particularmente en la desambiguación de entradas de taxonomía estrechamente relacionadas. Estos hallazgos resaltan las limitaciones de los LLMs existentes para automatizar completamente el etiquetado XBRL y subrayan la necesidad de mejorar el razonamiento semántico y el modelado consciente del esquema para satisfacer las demandas de divulgación financiera precisa. El código está disponible en nuestro repositorio de GitHub y los datos en nuestro repositorio de Hugging Face.
Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) han demostrado capacidades notables en la comprensión y el razonamiento sobre contenido visual, pero persisten desafíos significativos en tareas que requieren comprensión desde múltiples puntos de vista y razonamiento espacial. Identificamos una limitación crítica: los VLMs actuales destacan principalmente en el razonamiento espacial egocéntrico (desde la perspectiva de la cámara), pero no logran generalizar a puntos de vista allocéntricos cuando se requiere adoptar el marco de referencia espacial de otra entidad. Presentamos ViewSpatial-Bench, el primer punto de referencia integral diseñado específicamente para la evaluación del reconocimiento de localización espacial desde múltiples puntos de vista, abarcando cinco tipos de tareas distintos, respaldado por una pipeline de anotación 3D automatizada que genera etiquetas direccionales precisas. La evaluación exhaustiva de diversos VLMs en ViewSpatial-Bench revela una disparidad significativa en el rendimiento: los modelos muestran un desempeño razonable en tareas desde la perspectiva de la cámara, pero exhiben una precisión reducida al razonar desde un punto de vista humano. Al ajustar finamente los VLMs en nuestro conjunto de datos espaciales de múltiples perspectivas, logramos una mejora general del rendimiento del 46.24% en las tareas, destacando la eficacia de nuestro enfoque. Nuestro trabajo establece un punto de referencia crucial para la inteligencia espacial en sistemas de IA encarnada y proporciona evidencia empírica de que el modelado de relaciones espaciales en 3D mejora las capacidades de comprensión espacial correspondientes de los VLMs.
Los gráficos vectoriales escalables (SVG, por sus siglas en inglés) ofrecen un formato potente para representar diseños visuales como código interpretable. Los avances recientes en modelos de visión y lenguaje (VLMs, por sus siglas en inglés) han permitido la generación de SVG de alta calidad al enmarcar el problema como una tarea de generación de código y aprovechar el preentrenamiento a gran escala. Los VLMs son particularmente adecuados para esta tarea, ya que capturan tanto la semántica global como los patrones visuales detallados, al mismo tiempo que transfieren conocimiento entre los dominios de visión, lenguaje natural y código. Sin embargo, los enfoques existentes basados en VLMs a menudo tienen dificultades para producir SVGs fieles y eficientes porque nunca observan las imágenes renderizadas durante el entrenamiento. Aunque la renderización diferenciada para la generación autoregresiva de código SVG sigue sin estar disponible, las salidas renderizadas aún pueden compararse con las entradas originales, lo que permite retroalimentación evaluativa adecuada para el aprendizaje por refuerzo (RL, por sus siglas en inglés). Introducimos RLRF (Reinforcement Learning from Rendering Feedback), un método de RL que mejora la generación de SVG en VLMs autoregresivos al aprovechar la retroalimentación de las salidas renderizadas de SVG. Dada una imagen de entrada, el modelo genera secuencias de SVG que se renderizan y comparan con la imagen original para calcular una recompensa. Esta retroalimentación de fidelidad visual guía al modelo hacia la producción de SVGs más precisos, eficientes y semánticamente coherentes. RLRF supera significativamente el ajuste fino supervisado, abordando modos de fallo comunes y permitiendo la generación precisa y de alta calidad de SVGs con un fuerte entendimiento estructural y generalización.
Estudios recientes muestran que las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) pueden mejorarse aplicando Aprendizaje por Refuerzo (RL, por sus siglas en inglés) a tareas de preguntas y respuestas (QA, por sus siglas en inglés) en áreas como matemáticas y programación. Con un contexto extenso, los LLMs pueden aprender a realizar búsquedas, como lo indica el comportamiento de autocorrección observado en DeepSeek R1. Sin embargo, este comportamiento de búsqueda suele ser impreciso y carece de confianza, lo que resulta en respuestas largas y redundantes, destacando deficiencias en la intuición y la verificación. Inspirados por la Teoría del Proceso Dual en psicología, introducimos una modificación simple a la tarea de QA que incluye cuatro etapas: Pensamiento Rápido, donde el LLM debe responder dentro de un límite estricto de tokens; Verificación, donde el modelo evalúa su respuesta inicial; Pensamiento Lento, donde refina la respuesta inicial con mayor deliberación; y Resumen, donde condensa el refinamiento de la etapa anterior en pasos precisos. Nuestra tarea propuesta mejora la precisión promedio de 24.9% a 27.9% para Qwen2.5-1.5B, y de 45.9% a 49.8% para DeepSeek-R1-Qwen-1.5B. Notablemente, para Qwen2.5-1.5B, el modo de Pensamiento Rápido por sí solo alcanza un 26.8% de precisión utilizando menos de 1000 tokens, demostrando ganancias sustanciales en eficiencia de inferencia. Estos hallazgos sugieren que la intuición y el razonamiento deliberativo son sistemas distintos y complementarios que se benefician de un entrenamiento específico.
Presentamos VisTA, un nuevo marco de aprendizaje por refuerzo que capacita a agentes visuales para explorar, seleccionar y combinar dinámicamente herramientas de una biblioteca diversa basándose en el rendimiento empírico. Los métodos existentes para el razonamiento aumentado con herramientas dependen de técnicas de prompting sin entrenamiento o de ajuste fino a gran escala; ambos carecen de exploración activa de herramientas y suelen asumir una diversidad limitada de estas, y los métodos de ajuste fino además requieren una supervisión humana extensa. En contraste, VisTA aprovecha el aprendizaje por refuerzo de extremo a extremo para refinar iterativamente estrategias sofisticadas de selección de herramientas específicas para cada consulta, utilizando los resultados de las tareas como señales de retroalimentación. A través de la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés), nuestro marco permite que un agente descubra de manera autónoma vías efectivas de selección de herramientas sin requerir supervisión explícita de razonamiento. Los experimentos en los benchmarks ChartQA, Geometry3K y BlindTest demuestran que VisTA logra mejoras sustanciales en el rendimiento en comparación con líneas base sin entrenamiento, especialmente en ejemplos fuera de distribución. Estos resultados resaltan la capacidad de VisTA para mejorar la generalización, utilizar de manera adaptativa diversas herramientas y allanar el camino hacia sistemas de razonamiento visual flexibles y guiados por la experiencia.
Los modelos de lenguaje multimodal de gran escala (MLLMs) siguen siendo vulnerables a ejemplos adversarios transferibles. Mientras que los métodos existentes suelen lograr ataques dirigidos al alinear características globales—como el token [CLS] de CLIP—entre muestras adversarias y objetivo, a menudo pasan por alto la rica información local codificada en los tokens de parches. Esto conduce a una alineación subóptima y una transferibilidad limitada, especialmente para modelos de código cerrado. Para abordar esta limitación, proponemos un método de ataque adversario transferible dirigido basado en la alineación óptima de características, llamado FOA-Attack, para mejorar la capacidad de transferencia adversaria. Específicamente, a nivel global, introducimos una pérdida de características globales basada en la similitud del coseno para alinear las características de grano grueso de las muestras adversarias con las de las muestras objetivo. A nivel local, dada las ricas representaciones locales dentro de los Transformers, utilizamos técnicas de agrupamiento para extraer patrones locales compactos y así mitigar características locales redundantes. Luego, formulamos la alineación de características locales entre muestras adversarias y objetivo como un problema de transporte óptimo (OT) y proponemos una pérdida de transporte óptimo con agrupamiento local para refinar la alineación de características de grano fino. Además, proponemos una estrategia de ponderación dinámica de modelos en conjunto para equilibrar adaptativamente la influencia de múltiples modelos durante la generación de ejemplos adversarios, mejorando así aún más la transferibilidad. Experimentos extensos en varios modelos demuestran la superioridad del método propuesto, superando a los métodos más avanzados, especialmente en la transferencia a MLLMs de código cerrado. El código está disponible en https://github.com/jiaxiaojunQAQ/FOA-Attack.
Presentamos SeePhys, un benchmark multimodal a gran escala para el razonamiento de LLMs basado en preguntas de física que abarcan desde nivel de secundaria hasta exámenes de calificación para doctorado. El benchmark cubre 7 dominios fundamentales que abarcan la disciplina de la física, incorporando 21 categorías de diagramas altamente heterogéneos. A diferencia de trabajos previos donde los elementos visuales cumplen principalmente un papel auxiliar, nuestro benchmark presenta una proporción significativa de problemas esencialmente visuales (75\%) que requieren la extracción de información visual para obtener soluciones correctas. A través de una evaluación exhaustiva, observamos que incluso los modelos de razonamiento visual más avanzados (por ejemplo, Gemini-2.5-pro y o4-mini) alcanzan una precisión inferior al 60\% en nuestro benchmark. Estos resultados revelan desafíos fundamentales en las capacidades actuales de comprensión visual de los modelos de lenguaje grandes, particularmente en: (i) establecer un acoplamiento riguroso entre la interpretación de diagramas y el razonamiento físico, y (ii) superar su dependencia persistente en pistas textuales como atajos cognitivos.
La evaluación automática de la generación multimodal presenta un desafío significativo, ya que las métricas automatizadas a menudo tienen dificultades para alinearse de manera confiable con la evaluación humana, especialmente en tareas complejas que involucran múltiples modalidades. Para abordar este problema, presentamos MMMG, un punto de referencia integral y alineado con la evaluación humana para la generación multimodal en 4 combinaciones de modalidades (imagen, audio, texto e imagen intercalados, texto y audio intercalados), con un enfoque en tareas que representan desafíos significativos para los modelos de generación, al mismo tiempo que permiten una evaluación automática confiable mediante una combinación de modelos y programas. MMMG abarca 49 tareas (incluyendo 29 desarrolladas recientemente), cada una con una canalización de evaluación cuidadosamente diseñada, y 937 instrucciones para evaluar sistemáticamente el razonamiento, la controlabilidad y otras capacidades clave de los modelos de generación multimodal. Una validación extensa demuestra que MMMG está altamente alineado con la evaluación humana, logrando un acuerdo promedio del 94.3%. Los resultados de evaluación en 24 modelos de generación multimodal revelan que, aunque el modelo más avanzado, GPT Image, alcanza un 78.3% de precisión en la generación de imágenes, se queda corto en el razonamiento multimodal y la generación intercalada. Además, los resultados sugieren un margen considerable de mejora en la generación de audio, destacando una dirección importante para futuras investigaciones.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) entrenados mediante Aprendizaje por Refuerzo (RL, por sus siglas en inglés) han demostrado capacidades de razonamiento sólidas y comportamientos reflexivos emergentes, como la retroalimentación y la corrección de errores. Sin embargo, el RL Markoviano convencional limita la exploración a la fase de entrenamiento para aprender una política determinista óptima y depende de los contextos históricos únicamente a través del estado actual. Por lo tanto, sigue sin estar claro si el razonamiento reflexivo surgirá durante el entrenamiento de RL Markoviano o por qué es beneficioso en el momento de prueba. Para remediar esto, reformulamos la exploración reflexiva dentro del marco de RL Bayesiano Adaptativo, que optimiza explícitamente el retorno esperado bajo una distribución posterior sobre procesos de decisión de Markov. Esta formulación bayesiana incentiva inherentemente tanto la explotación maximizadora de recompensas como la exploración de recopilación de información mediante actualizaciones de creencias. Nuestro algoritmo resultante, BARL, instruye al LLM para combinar y cambiar estrategias basándose en los resultados observados, ofreciendo una guía fundamentada sobre cuándo y cómo el modelo debería explorar reflexivamente. Los resultados empíricos en tareas de razonamiento tanto sintéticas como matemáticas demuestran que BARL supera los enfoques estándar de RL Markoviano en el momento de prueba, logrando una eficiencia de tokens superior con una mejora en la efectividad de la exploración. Nuestro código está disponible en https://github.com/shenao-zhang/BARL.
A medida que el escalado en tiempo de prueba se convierte en una frontera de investigación crucial en el desarrollo de Modelos de Lenguaje a Gran Escala (LLMs), las metodologías contemporáneas y avanzadas de post-entrenamiento se centran cada vez más en extender la longitud de generación de respuestas largas de Cadenas de Pensamiento (CoT) para mejorar las capacidades de razonamiento hacia un rendimiento similar a DeepSeek R1. Sin embargo, estudios recientes revelan un fenómeno persistente de sobrepensamiento en los modelos de razonamiento más avanzados, manifestándose como redundancia excesiva o patrones de pensamiento repetitivos en respuestas largas de CoT. Para abordar este problema, en este artículo proponemos un marco de aprendizaje por refuerzo de dos etapas, simple pero efectivo, para lograr un razonamiento conciso en LLMs, denominado ConciseR. Específicamente, la primera etapa, utilizando más pasos de entrenamiento, tiene como objetivo incentivar las capacidades de razonamiento del modelo mediante la Optimización de Política Relativa en Grupo con componentes de recorte superior y muestreo dinámico (GRPO++), y la segunda etapa, utilizando menos pasos de entrenamiento, aplica explícitamente la concisión y mejora la eficiencia mediante la Optimización de Política Relativa en Grupo Consciente de la Longitud (L-GRPO). Es importante destacar que ConciseR solo optimiza la longitud de la respuesta una vez que todas las iteraciones de una muestra son correctas, siguiendo el principio de "caminar antes de correr". Los resultados experimentales extensivos demuestran que nuestro modelo ConciseR, que genera respuestas de razonamiento CoT más concisas, supera a los modelos de razonamiento más recientes con el paradigma de RL cero en los benchmarks de AIME 2024, MATH-500, AMC 2023, Minerva y Olimpiadas.
Comprender la perspectiva es fundamental para la percepción visual humana, sin embargo, el grado en que los modelos de lenguaje multimodal de gran escala (MLLMs) internalizan la geometría de la perspectiva sigue siendo incierto. Presentamos MMPerspective, el primer punto de referencia diseñado específicamente para evaluar sistemáticamente la comprensión de la perspectiva en los MLLMs a través de 10 tareas cuidadosamente elaboradas en tres dimensiones complementarias: Percepción de la Perspectiva, Razonamiento y Robustez. Nuestro punto de referencia comprende 2,711 instancias de imágenes del mundo real y sintéticas con 5,083 pares de preguntas y respuestas que exploran capacidades clave, como la percepción y conteo de puntos de fuga, el razonamiento sobre tipos de perspectiva, la comprensión de relaciones de líneas en el espacio 3D, la invariancia a transformaciones que preservan la perspectiva, etc. A través de una evaluación exhaustiva de 43 MLLMs de última generación, descubrimos limitaciones significativas: aunque los modelos demuestran competencia en tareas perceptivas superficiales, tienen dificultades con el razonamiento compositivo y el mantenimiento de la consistencia espacial bajo perturbaciones. Nuestro análisis revela además patrones intrigantes entre la arquitectura del modelo, su escala y las capacidades de perspectiva, destacando tanto los cuellos de botella en la robustez como los beneficios del encadenamiento de pensamientos. MMPerspective establece un valioso banco de pruebas para diagnosticar y avanzar en la comprensión espacial en sistemas de visión y lenguaje. Recursos disponibles en: https://yunlong10.github.io/MMPerspective/
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han permitido que los agentes realicen tareas complejas y abiertas de manera autónoma. Sin embargo, muchos de los marcos existentes dependen en gran medida de herramientas y flujos de trabajo predefinidos manualmente, lo que limita su adaptabilidad, escalabilidad y generalización entre dominios. En este trabajo, presentamos Alita, un agente generalista diseñado bajo el principio de "La simplicidad es la máxima sofisticación", que permite un razonamiento agéntico escalable mediante una predefinición mínima y una autoevolución máxima. Para la predefinición mínima, Alita está equipado con un solo componente para la resolución directa de problemas, lo que lo hace mucho más simple y limpio que enfoques anteriores que dependían en gran medida de herramientas y flujos de trabajo elaborados y diseñados manualmente. Este diseño limpio mejora su potencial para generalizar en preguntas desafiantes, sin estar limitado por herramientas. Para la autoevolución máxima, potenciamos la creatividad de Alita proporcionando un conjunto de componentes de propósito general para construir, refinar y reutilizar capacidades externas de manera autónoma, generando protocolos de contexto de modelo (MCPs, por sus siglas en inglés) relacionados con tareas a partir de fuentes abiertas, lo que contribuye a un razonamiento agéntico escalable. Cabe destacar que Alita alcanza un 75.15% en pass@1 y un 87.27% en pass@3 en precisión, situándose entre los mejores agentes de propósito general en el conjunto de datos de validación del benchmark GAIA, y un 74.00% y 52.00% en pass@1, respectivamente, en Mathvista y PathVQA, superando a muchos sistemas de agentes con una complejidad mucho mayor. Más detalles se actualizarán en https://github.com/CharlesQ9/Alita{https://github.com/CharlesQ9/Alita}.
Los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) han logrado resultados sólidos en benchmarks de codificación y matemáticas que son desafiantes para los humanos, pero su capacidad para realizar tareas que nos resultan naturales—como la percepción, la navegación espacial y la gestión de la memoria—sigue siendo poco estudiada. Los videojuegos reales están diseñados para ser intuitivos y fáciles de aprender y dominar para los humanos, aprovechando sesgos inductivos innatos, lo que los convierte en un banco de pruebas ideal para evaluar dichas capacidades en los VLMs. Con este fin, presentamos VideoGameBench, un benchmark compuesto por 10 videojuegos populares de la década de 1990 con los que los VLMs interactúan directamente en tiempo real. VideoGameBench desafía a los modelos a completar juegos enteros con acceso únicamente a entradas visuales sin procesar y una descripción de alto nivel de los objetivos y controles, un enfoque significativamente diferente a las configuraciones existentes que dependen de andamiajes específicos del juego e información auxiliar. Mantenemos tres de los juegos en secreto para fomentar soluciones que generalicen a entornos no vistos. Nuestros experimentos muestran que los modelos de vanguardia en visión y lenguaje tienen dificultades para avanzar más allá del comienzo de cada juego. Identificamos que la latencia de inferencia es una limitación importante de los modelos de vanguardia en el entorno de tiempo real; por lo tanto, introducimos VideoGameBench Lite, una configuración en la que el juego se pausa mientras espera la siguiente acción del modelo de lenguaje. El modelo con mejor rendimiento, Gemini 2.5 Pro, completa solo el 0.48% de VideoGameBench y el 1.6% de VideoGameBench Lite. Esperamos que la formalización de las habilidades humanas mencionadas en este benchmark impulse el progreso en estas direcciones de investigación.
Con el rápido avance de las técnicas de posentrenamiento para razonamiento y búsqueda de información, los modelos de lenguaje de gran escala (LLMs) pueden incorporar una gran cantidad de conocimiento recuperado para resolver tareas complejas. Sin embargo, la ventana de contexto limitada de los LLMs obstaculiza la escalabilidad de la cantidad de conocimiento externo que se puede introducir, impidiendo mejoras adicionales, especialmente en tareas que requieren una cantidad significativa de conocimiento externo. Los métodos existentes para extender la ventana de contexto inevitablemente causan pérdida de información. Los métodos basados en LLM de múltiples agentes surgen como un nuevo paradigma para manejar entradas masivas de manera distribuida, donde identificamos dos cuellos de botella principales en los procesos existentes de sincronización de conocimiento y razonamiento. En este trabajo, desarrollamos un marco de múltiples agentes, ExtAgents, para superar estos cuellos de botella y permitir una mejor escalabilidad en la integración de conocimiento durante la inferencia sin necesidad de entrenamiento con contextos más largos. Evaluado con nuestra prueba mejorada de respuesta a preguntas de múltiples saltos, $boldsymbol{inftyBench+}$, y otros conjuntos de pruebas públicos, incluida la generación de encuestas largas, ExtAgents mejora significativamente el rendimiento en comparación con los métodos existentes que no requieren entrenamiento, utilizando la misma cantidad de conocimiento externo, ya sea que este caiga dentro o exceda la ventana de contexto. Además, el método mantiene una alta eficiencia debido a su alto paralelismo. Un estudio adicional sobre la coordinación de agentes LLM con un aumento en la entrada de conocimiento externo podría beneficiar aplicaciones del mundo real.
El intercalado de fotogramas tiene como objetivo sintetizar secuencias de video intermedias condicionadas por los fotogramas inicial y final dados. Los métodos actuales más avanzados principalmente extienden modelos de Difusión de Imagen a Video (I2V-DMs) preentrenados a gran escala, incorporando restricciones del fotograma final mediante ajuste fino directo u omitiendo el entrenamiento. Identificamos una limitación crítica en su diseño: sus inyecciones de la restricción del fotograma final suelen utilizar el mismo mecanismo que originalmente impuso la restricción del fotograma inicial (una sola imagen). Sin embargo, dado que los I2V-DMs originales ya están adecuadamente entrenados para la condición del fotograma inicial, introducir la restricción del fotograma final mediante el mismo mecanismo con mucho menos (incluso ningún) entrenamiento especializado probablemente no puede hacer que el fotograma final tenga un impacto lo suficientemente fuerte en el contenido intermedio como el fotograma inicial. Esta asimetría en la fuerza de control de los dos fotogramas sobre el contenido intermedio probablemente conduce a movimientos inconsistentes o colapso de apariencia en los fotogramas generados. Para lograr eficientemente restricciones simétricas de los fotogramas inicial y final, proponemos un nuevo marco, denominado Sci-Fi, que aplica una inyección más fuerte para la restricción de una escala de entrenamiento más pequeña. Específicamente, maneja la restricción del fotograma inicial como antes, mientras introduce la restricción del fotograma final mediante un mecanismo mejorado. El nuevo mecanismo se basa en un módulo ligero bien diseñado, llamado EF-Net, que codifica solo el fotograma final y lo expande en características adaptativas temporales por fotograma inyectadas en el I2V-DM. Esto hace que la restricción del fotograma final sea tan fuerte como la del fotograma inicial, permitiendo que nuestro Sci-Fi produzca transiciones más armoniosas en varios escenarios. Experimentos extensivos demuestran la superioridad de nuestro Sci-Fi en comparación con otras líneas base.
Los modelos de difusión de video basados en Transformadores de Difusión (DiT) generan videos de alta calidad a gran escala, pero incurren en una latencia de procesamiento y costos de memoria prohibitivos para videos largos. Para abordar esto, proponemos una novedosa estrategia de inferencia distribuida, denominada DualParal. La idea central es que, en lugar de generar un video completo en una sola GPU, paralelizamos tanto los fotogramas temporales como las capas del modelo a través de múltiples GPUs. Sin embargo, una implementación ingenua de esta división enfrenta una limitación clave: dado que los modelos de difusión requieren niveles de ruido sincronizados entre fotogramas, esta implementación conduce a la serialización de los paralelismos originales. Para manejar esto, aprovechamos un esquema de eliminación de ruido por bloques. Específicamente, procesamos una secuencia de bloques de fotogramas a través de la tubería con niveles de ruido progresivamente decrecientes. Cada GPU maneja un bloque y un subconjunto de capas específicos, mientras pasa los resultados anteriores a la siguiente GPU, permitiendo computación y comunicación asíncronas. Para optimizar aún más el rendimiento, incorporamos dos mejoras clave. En primer lugar, se implementa una caché de características en cada GPU para almacenar y reutilizar características del bloque anterior como contexto, minimizando la comunicación entre GPUs y la computación redundante. En segundo lugar, empleamos una estrategia coordinada de inicialización de ruido, asegurando dinámicas temporales globalmente consistentes al compartir patrones de ruido iniciales entre GPUs sin costos adicionales de recursos. Juntas, estas técnicas permiten una generación de video rápida, libre de artefactos y de longitud infinita. Aplicado al último generador de video basado en transformadores de difusión, nuestro método produce eficientemente videos de 1,025 fotogramas con una latencia hasta 6.54 veces menor y un costo de memoria 1.48 veces menor en 8 GPUs RTX 4090.
La compresión post-entrenamiento reduce los costos computacionales y de memoria de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), permitiendo un despliegue eficiente de recursos. Sin embargo, los benchmarks de compresión existentes se centran únicamente en el modelado del lenguaje (por ejemplo, la perplejidad) y en tareas de comprensión del lenguaje natural (por ejemplo, la precisión en GLUE), ignorando las capacidades agentivas: flujos de trabajo, uso de herramientas/llamadas a funciones, comprensión de contextos largos y aplicaciones en el mundo real. Presentamos el Benchmark de Compresión Agéntica (ACBench), el primer benchmark integral para evaluar cómo la compresión afecta las habilidades agentivas de los LLMs. ACBench abarca (1) 12 tareas distribuidas en 4 capacidades (por ejemplo, WorfBench para la generación de flujos de trabajo, Needle-in-Haystack para la recuperación en contextos largos), (2) cuantización (GPTQ, AWQ) y poda (Wanda, SparseGPT), y (3) 15 modelos, incluyendo LLMs pequeños (Gemma-2B), estándar (Qwen2.5 7B-32B) y de razonamiento destilado (DeepSeek-R1-Distill). Nuestros experimentos revelan compensaciones en la compresión: la cuantización de 4 bits preserva la generación de flujos de trabajo y el uso de herramientas (caída del 1%-3%), pero degrada la precisión en aplicaciones del mundo real en un 10%-15%. Introducimos ERank, Correlación de Ranking Top-k y Energía para sistematizar el análisis. ACBench proporciona insights prácticos para optimizar la compresión de LLMs en escenarios agentivos. El código se puede encontrar en https://github.com/pprp/ACBench.
Los recientes avances en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han mostrado resultados prometedores en la integración de diversas modalidades, como textos e imágenes. Sin embargo, los MLLMs están fuertemente influenciados por el sesgo de modalidad, a menudo dependiendo del lenguaje mientras subutilizan otras modalidades, como las entradas visuales. Este documento de posición argumenta que los MLLMs están profundamente afectados por el sesgo de modalidad. En primer lugar, diagnosticamos el estado actual del sesgo de modalidad, destacando sus manifestaciones en diversas tareas. En segundo lugar, proponemos una hoja de ruta sistemática de investigación relacionada con el sesgo de modalidad en los MLLMs. En tercer lugar, identificamos los factores clave del sesgo de modalidad en los MLLMs y ofrecemos sugerencias prácticas para futuras investigaciones que lo mitiguen. Para respaldar estos hallazgos, realizamos experimentos que demuestran la influencia de cada factor: 1. Características de los datos: los datos de lenguaje son compactos y abstractos, mientras que los datos visuales son redundantes y complejos, creando un desequilibrio inherente en la dinámica de aprendizaje. 2. Capacidades desequilibradas de los modelos base: el dominio de los modelos de lenguaje preentrenados en los MLLMs conduce a una dependencia excesiva del lenguaje y al descuido de la información visual. 3. Objetivos de entrenamiento: los objetivos actuales a menudo no promueven una alineación multimodal equilibrada, lo que resulta en un aprendizaje de atajos sesgado hacia el lenguaje. Estos hallazgos resaltan la necesidad de estrategias de entrenamiento y arquitecturas de modelos equilibradas para integrar mejor múltiples modalidades en los MLLMs. Hacemos un llamado a esfuerzos interdisciplinarios para abordar estos desafíos e impulsar la innovación en la investigación de MLLMs. Nuestro trabajo ofrece una nueva perspectiva sobre el sesgo de modalidad en los MLLMs y proporciona ideas para desarrollar sistemas multimodales más robustos y generalizables, avanzando hacia el progreso de la Inteligencia Artificial General.
Los investigadores biomédicos dependen cada vez más de bases de datos estructuradas a gran escala para tareas analíticas complejas. Sin embargo, los sistemas actuales de texto a SQL a menudo tienen dificultades para mapear preguntas científicas cualitativas en SQL ejecutable, especialmente cuando se requiere razonamiento implícito del dominio. Presentamos BiomedSQL, el primer benchmark diseñado explícitamente para evaluar el razonamiento científico en la generación de texto a SQL sobre una base de conocimiento biomédica del mundo real. BiomedSQL comprende 68,000 tripletas de pregunta/consulta SQL/respuesta basadas en una base de conocimiento armonizada de BigQuery que integra asociaciones gen-enfermedad, inferencia causal a partir de datos ómicos y registros de aprobación de fármacos. Cada pregunta requiere que los modelos infieran criterios específicos del dominio, como umbrales de significación a nivel genómico, direccionalidad del efecto o filtrado por fase de ensayos, en lugar de depender únicamente de la traducción sintáctica. Evaluamos una variedad de modelos de lenguaje grandes (LLM) de código abierto y cerrado a través de estrategias de prompting y paradigmas de interacción. Nuestros resultados revelan una brecha de rendimiento sustancial: GPT-o3-mini alcanza un 59.0% de precisión en la ejecución, mientras que nuestro agente personalizado de múltiples pasos, BMSQL, llega al 62.6%, ambos muy por debajo del baseline experto del 90.0%. BiomedSQL proporciona una nueva base para avanzar en sistemas de texto a SQL capaces de apoyar el descubrimiento científico mediante un razonamiento robusto sobre bases de conocimiento biomédicas estructuradas. Nuestro conjunto de datos está disponible públicamente en https://huggingface.co/datasets/NIH-CARD/BiomedSQL, y nuestro código es de código abierto en https://github.com/NIH-CARD/biomedsql.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) son potentes pero propensos a alucinaciones debido a su conocimiento estático. La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) ayuda al inyectar información externa, pero los métodos actuales suelen ser costosos, generalizan de manera deficiente o ignoran el conocimiento interno del modelo. En este artículo, presentamos R1-Searcher++, un marco novedoso diseñado para entrenar LLMs con el fin de aprovechar de manera adaptativa tanto fuentes de conocimiento internas como externas. R1-Searcher++ emplea una estrategia de entrenamiento en dos etapas: una fase inicial de Arranque en Frío mediante Ajuste Superficial (SFT) para el aprendizaje preliminar de formatos, seguida de un Aprendizaje por Refuerzo (RL) para la Adquisición Dinámica de Conocimiento. La etapa de RL utiliza supervisión basada en resultados para fomentar la exploración, incorpora un mecanismo de recompensa para la utilización del conocimiento interno e integra un mecanismo de memorización para asimilar continuamente la información recuperada, enriqueciendo así el conocimiento interno del modelo. Al aprovechar el conocimiento interno y un motor de búsqueda externo, el modelo mejora continuamente sus capacidades, permitiendo un razonamiento aumentado por recuperación eficiente. Nuestros experimentos demuestran que R1-Searcher++ supera a los métodos anteriores de RAG y razonamiento, logrando una recuperación eficiente. El código está disponible en https://github.com/RUCAIBox/R1-Searcher-plus.
Los modelos de lenguaje de gran escala han demostrado capacidades de razonamiento impresionantes, pero están intrínsecamente limitados por su reserva de conocimiento. El razonamiento aumentado por recuperación mitiga esta limitación al permitir que los LLM consulten recursos externos, pero los métodos existentes a menudo recuperan información irrelevante o ruidosa, lo que dificulta un razonamiento preciso. En este artículo, proponemos AutoRefine, un marco de aprendizaje por refuerzo posentrenamiento que adopta un nuevo paradigma de "buscar y refinar durante el pensamiento". AutoRefine introduce pasos explícitos de refinamiento de conocimiento entre llamadas de búsqueda sucesivas, permitiendo que el modelo filtre, destile y organice evidencia de manera iterativa antes de generar una respuesta. Además, incorporamos recompensas específicas de recuperación junto con recompensas de corrección de respuestas utilizando la optimización de políticas relativas por grupos. Los experimentos en benchmarks de preguntas y respuestas de un solo salto y múltiples saltos demuestran que AutoRefine supera significativamente a los enfoques existentes, particularmente en escenarios de razonamiento complejo y de múltiples saltos. Un análisis detallado muestra que AutoRefine realiza búsquedas frecuentes y de mayor calidad, y sintetiza la evidencia de manera efectiva.
El rápido avance de los Modelos Multimodales de Gran Escala (LMMs) para imágenes y videos 2D ha motivado la extensión de estos modelos para comprender escenas 3D, con el objetivo de alcanzar una inteligencia visual-espacial similar a la humana. Sin embargo, lograr una comprensión espacial profunda comparable a las capacidades humanas presenta desafíos significativos en la codificación de modelos y la adquisición de datos. Los métodos existentes frecuentemente dependen de sensores de profundidad externos para capturar geometría o utilizan algoritmos preexistentes para preconstruir mapas 3D, lo que limita su escalabilidad, especialmente con entradas de video monoculares prevalentes y para aplicaciones sensibles al tiempo. En este trabajo, presentamos VLM-3R, un marco unificado para Modelos de Visión-Lenguaje (VLMs) que incorpora ajuste instructivo reconstructivo 3D. VLM-3R procesa fotogramas de video monoculares empleando un codificador de geometría para derivar tokens 3D implícitos que representan la comprensión espacial. Aprovechando nuestra Fusión Espacial-Visual-Vista y más de 200K pares de preguntas-respuestas (QA) de ajuste instructivo reconstructivo 3D seleccionados, VLM-3R alinea eficazmente el contexto espacial del mundo real con instrucciones de lenguaje. Esto permite asistencia espacial 3D monocular y razonamiento encarnado. Para facilitar la evaluación del razonamiento temporal, introducimos el benchmark de Inteligencia Espacial-Temporal-Visual, que presenta más de 138.6K pares QA en cinco tareas distintas centradas en relaciones espaciales en evolución. Experimentos extensivos demuestran que nuestro modelo, VLM-3R, no solo facilita un razonamiento visual-espacial robusto, sino que también permite la comprensión de cambios de contexto 3D temporales, destacándose tanto en precisión como en escalabilidad.
La recuperación de información multimodal (MIR, por sus siglas en inglés) enfrenta desafíos inherentes debido a la heterogeneidad de las fuentes de datos y la complejidad de la alineación entre modalidades. Si bien estudios previos han identificado brechas modales en los espacios de características, un enfoque sistemático para abordar estos desafíos sigue sin explorarse. En este trabajo, presentamos UNITE, un marco universal que aborda estos desafíos a través de dos aspectos críticos pero poco explorados: la curación de datos y las configuraciones de entrenamiento conscientes de la modalidad. Nuestro trabajo proporciona el primer análisis exhaustivo de cómo las propiedades específicas de los datos de cada modalidad influyen en el rendimiento de tareas posteriores en diversos escenarios. Además, proponemos el Aprendizaje Contrastivo Enmascarado Consciente de la Modalidad (MAMCL, por sus siglas en inglés) para mitigar las relaciones competitivas entre las instancias de diferentes modalidades. Nuestro marco logra resultados de vanguardia en múltiples benchmarks de recuperación multimodal, superando a los métodos existentes por márgenes notables. A través de experimentos exhaustivos, demostramos que la curación estratégica de modalidades y los protocolos de entrenamiento personalizados son fundamentales para un aprendizaje robusto de representaciones entre modalidades. Este trabajo no solo avanza el rendimiento de MIR, sino que también proporciona un plan de base fundamental para futuras investigaciones en sistemas multimodales. Nuestro proyecto está disponible en https://friedrichor.github.io/projects/UNITE.
La Extracción de Voz Objetivo (TSE, por sus siglas en inglés) tiene como objetivo aislar la voz de un hablante específico de una mezcla de múltiples hablantes aprovechando pistas específicas del hablante, generalmente proporcionadas como audio auxiliar (también conocido como audio de referencia). Aunque los avances recientes en TSE han empleado principalmente modelos discriminativos que ofrecen una alta calidad perceptual, estos modelos a menudo introducen artefactos no deseados, reducen la naturalidad y son sensibles a las discrepancias entre los entornos de entrenamiento y prueba. Por otro lado, los modelos generativos para TSE se quedan atrás en términos de calidad perceptual e inteligibilidad. Para abordar estos desafíos, presentamos SoloSpeech, una novedosa canalización generativa en cascada que integra procesos de compresión, extracción, reconstrucción y corrección. SoloSpeech incluye un extractor de objetivo libre de incrustaciones de hablante que utiliza información condicional del espacio latente del audio de referencia, alineándolo con el espacio latente del audio de mezcla para evitar desajustes. Evaluado en el conjunto de datos ampliamente utilizado Libri2Mix, SoloSpeech alcanza el nuevo estado del arte en inteligibilidad y calidad en tareas de extracción de voz objetivo y separación de habla, además de demostrar una generalización excepcional en datos fuera de dominio y escenarios del mundo real.
Los recientes avances en los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han mejorado significativamente sus capacidades; sin embargo, sus habilidades de percepción espacial siguen siendo una limitación notable. Para abordar este desafío, la síntesis de datos multimodales ofrece una solución prometedora. No obstante, garantizar que los datos sintetizados se ajusten al sentido común espacial es una tarea no trivial. En este trabajo, presentamos SKG2Data, un novedoso enfoque de síntesis multimodal guiado por grafos de conocimiento espacial, basado en el concepto de generación de conocimiento a datos. SKG2Data construye automáticamente un Grafo de Conocimiento Espacial (SKG, por sus siglas en inglés) para emular la percepción humana de direcciones y distancias espaciales, el cual se utiliza posteriormente para guiar la síntesis de datos multimodales. Experimentos exhaustivos demuestran que los datos sintetizados a partir de diversos tipos de conocimiento espacial, incluyendo dirección y distancia, no solo mejoran las habilidades de percepción y razonamiento espacial de los MLLMs, sino que también exhiben fuertes capacidades de generalización. Esperamos que la idea de la síntesis de datos basada en conocimiento pueda impulsar el desarrollo de la inteligencia espacial.
Mientras que los sistemas de prueba virtual (VTON) buscan renderizar una prenda sobre la imagen de una persona objetivo, este artículo aborda la novedosa tarea de desprueba virtual (VTOFF), que resuelve el problema inverso: generar imágenes estandarizadas de productos a partir de fotografías del mundo real de individuos vestidos. A diferencia del VTON, que debe manejar variaciones diversas en posturas y estilos, el VTOFF se beneficia de un formato de salida consistente y bien definido — típicamente una representación plana y extendida de la prenda —, lo que lo convierte en una herramienta prometedora para la generación de datos y la mejora de conjuntos de datos. Sin embargo, los enfoques existentes de VTOFF enfrentan dos limitaciones principales: (i) dificultad para separar las características de la prenda de oclusiones y posturas complejas, lo que a menudo resulta en artefactos visuales, y (ii) aplicabilidad restringida a prendas de una sola categoría (por ejemplo, solo ropa de la parte superior del cuerpo), limitando la generalización. Para abordar estos desafíos, presentamos Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), una arquitectura novedosa que cuenta con un backbone dual basado en DiT con un mecanismo de atención multimodal modificado para una extracción robusta de características de la prenda. Nuestra arquitectura está diseñada para recibir información de la prenda desde múltiples modalidades, como imágenes, texto y máscaras, para funcionar en un entorno de múltiples categorías. Finalmente, proponemos un módulo adicional de alineación para refinar aún más los detalles visuales generados. Los experimentos en los conjuntos de datos VITON-HD y Dress Code muestran que TEMU-VTOFF establece un nuevo estado del arte en la tarea VTOFF, mejorando significativamente tanto la calidad visual como la fidelidad a las prendas objetivo.
A medida que los modelos de lenguaje grande (LLM) aumentan en capacidad y agencia, identificar vulnerabilidades mediante pruebas de red teaming se vuelve crucial para un despliegue seguro. Sin embargo, los enfoques tradicionales de ingeniería de prompts pueden resultar ineficaces una vez que el red teaming se convierte en un problema de débil a fuerte, donde los modelos objetivo superan en capacidades a los red teamers. Para estudiar este cambio, enmarcamos el red teaming desde la perspectiva de la brecha de capacidades entre el atacante y el objetivo. Evaluamos más de 500 pares atacante-objetivo utilizando ataques de jailbreak basados en LLM que imitan a red teamers humanos en diversas familias, tamaños y niveles de capacidad. Emergen tres tendencias claras: (i) los modelos más capaces son mejores atacantes, (ii) el éxito del ataque disminuye drásticamente una vez que la capacidad del objetivo supera la del atacante, y (iii) las tasas de éxito del ataque se correlacionan con un alto rendimiento en las secciones de ciencias sociales del benchmark MMLU-Pro. A partir de estas tendencias, derivamos una ley de escalamiento de jailbreaking que predice el éxito del ataque para un objetivo fijo basado en la brecha de capacidades entre atacante y objetivo. Estos hallazgos sugieren que los atacantes de capacidad fija (por ejemplo, humanos) pueden volverse ineficaces contra modelos futuros, que los modelos de código abierto cada vez más capaces amplifican los riesgos para los sistemas existentes, y que los proveedores de modelos deben medir y controlar con precisión las habilidades persuasivas y manipuladoras de los modelos para limitar su efectividad como atacantes.
La Investigación Forense Digital y Respuesta a Incidentes (DFIR, por sus siglas en inglés) implica el análisis de evidencia digital para respaldar investigaciones legales. Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ofrecen nuevas oportunidades en tareas de DFIR, como el análisis de registros y la forensia de memoria, pero su susceptibilidad a errores y alucinaciones genera preocupación en contextos de alto riesgo. A pesar del creciente interés, no existe un punto de referencia integral para evaluar los LLMs en los dominios teóricos y prácticos de DFIR. Para abordar esta brecha, presentamos DFIR-Metric, un punto de referencia con tres componentes: (1) Evaluación de Conocimiento: un conjunto de 700 preguntas de opción múltiple revisadas por expertos, obtenidas de certificaciones estándar de la industria y documentación oficial; (2) Desafíos Forenses Realistas: 150 tareas estilo CTF que ponen a prueba el razonamiento de múltiples pasos y la correlación de evidencias; y (3) Análisis Práctico: 500 casos de forensia de disco y memoria del Programa de Pruebas de Herramientas de Informática Forense del NIST (CFTT, por sus siglas en inglés). Evaluamos 14 LLMs utilizando DFIR-Metric, analizando tanto su precisión como su consistencia en múltiples pruebas. También introducimos una nueva métrica, la Puntuación de Comprensión de Tareas (TUS, por sus siglas en inglés), diseñada para evaluar de manera más efectiva los modelos en escenarios donde logran una precisión cercana a cero. Este punto de referencia ofrece una base rigurosa y reproducible para avanzar en la aplicación de la IA en la forensia digital. Todos los scripts, artefactos y resultados están disponibles en el sitio web del proyecto en https://github.com/DFIR-Metric.
Con el rápido avance de los modelos generativos, la generación de propósito general ha ganado una atención creciente como un enfoque prometedor para unificar diversas tareas a través de múltiples modalidades dentro de un solo sistema. A pesar de este progreso, los marcos de código abierto existentes a menudo siguen siendo frágiles y luchan por soportar aplicaciones complejas del mundo real debido a la falta de planificación estructurada de flujos de trabajo y retroalimentación a nivel de ejecución. Para abordar estas limitaciones, presentamos ComfyMind, un sistema de IA colaborativo diseñado para permitir una generación de propósito general robusta y escalable, construido sobre la plataforma ComfyUI. ComfyMind introduce dos innovaciones principales: la Interfaz de Flujo de Trabajo Semántico (SWI, por sus siglas en inglés), que abstrae los gráficos de nodos de bajo nivel en módulos funcionales invocables descritos en lenguaje natural, permitiendo una composición de alto nivel y reduciendo errores estructurales; y el mecanismo de Planificación de Árbol de Búsqueda con ejecución de retroalimentación localizada, que modela la generación como un proceso de decisión jerárquico y permite correcciones adaptativas en cada etapa. Juntos, estos componentes mejoran la estabilidad y flexibilidad de los flujos de trabajo generativos complejos. Evaluamos ComfyMind en tres benchmarks públicos: ComfyBench, GenEval y Reason-Edit, que abarcan tareas de generación, edición y razonamiento. Los resultados muestran que ComfyMind supera consistentemente a las líneas base de código abierto existentes y alcanza un rendimiento comparable a GPT-Image-1. ComfyMind allana un camino prometedor para el desarrollo de sistemas de IA generativa de propósito general de código abierto. Página del proyecto: https://github.com/LitaoGuo/ComfyMind
Los Agentes Web basados en Modelos de Visión-Lenguaje (VLM) representan un avance significativo hacia la automatización de tareas complejas al simular interacciones similares a las humanas con sitios web. Sin embargo, su implementación en entornos web no controlados introduce vulnerabilidades de seguridad considerables. Las investigaciones existentes sobre ataques de inyección ambiental adversaria a menudo se basan en suposiciones poco realistas, como la manipulación directa de HTML, el conocimiento de la intención del usuario o el acceso a los parámetros del modelo del agente, lo que limita su aplicabilidad práctica. En este artículo, proponemos AdInject, un método novedoso y realista de ataque de caja negra que aprovecha la entrega de publicidad en internet para inyectar contenido malicioso en el entorno del Agente Web. AdInject opera bajo un modelo de amenaza significativamente más realista que trabajos previos, asumiendo un agente de caja negra, restricciones de contenido malicioso estático y sin conocimiento específico de la intención del usuario. AdInject incluye estrategias para diseñar contenido publicitario malicioso destinado a engañar a los agentes para que hagan clic, y una técnica de optimización de contenido publicitario basada en VLM que infiere posibles intenciones del usuario a partir del contexto del sitio web objetivo e integra estas intenciones en el contenido publicitario para que parezca más relevante o crítico para la tarea del agente, mejorando así la efectividad del ataque. Las evaluaciones experimentales demuestran la efectividad de AdInject, con tasas de éxito del ataque superiores al 60% en la mayoría de los escenarios y acercándose al 100% en ciertos casos. Esto demuestra firmemente que la entrega de publicidad prevalente constituye un vector potente y realista para ataques de inyección ambiental contra Agentes Web. Este trabajo destaca una vulnerabilidad crítica en la seguridad de los Agentes Web derivada de canales de manipulación ambiental del mundo real, subrayando la necesidad urgente de desarrollar mecanismos de defensa robustos contra tales amenazas. Nuestro código está disponible en https://github.com/NicerWang/AdInject.
Los modelos de última generación para la generación de texto a movimiento se basan en la representación cinemática local-relativa popularizada por HumanML3D, que codifica el movimiento relativo a la pelvis y al fotograma anterior con redundancia incorporada. Si bien este diseño simplifica el entrenamiento para modelos de generación anteriores, introduce limitaciones críticas para los modelos de difusión y dificulta su aplicabilidad en tareas posteriores. En este trabajo, revisitamos la representación del movimiento y proponemos una alternativa radicalmente simplificada y largamente abandonada para la generación de texto a movimiento: coordenadas absolutas de las articulaciones en el espacio global. A través de un análisis sistemático de las decisiones de diseño, demostramos que esta formulación logra una fidelidad de movimiento significativamente mayor, una mejor alineación con el texto y una fuerte escalabilidad, incluso con una arquitectura Transformer simple y sin pérdidas auxiliares conscientes de la cinemática. Además, nuestra formulación admite naturalmente tareas posteriores, como el control de movimiento impulsado por texto y la edición temporal/espacial, sin necesidad de reingeniería específica para cada tarea ni de una costosa generación de guía clasificadora a partir de señales de control. Finalmente, demostramos una generalización prometedora al generar directamente vértices de malla SMPL-H en movimiento a partir de texto, sentando una base sólida para futuras investigaciones y aplicaciones relacionadas con el movimiento.
Los modelos de visión-lenguaje (VLMs) destacan en diversas tareas, pero presentan altos costos de inferencia en tiempo y memoria. La escasez de tokens mitiga las ineficiencias en el uso de tokens, mientras que la escasez de neuronas reduce los cálculos de alta dimensionalidad, ofreciendo ambas soluciones prometedoras para mejorar la eficiencia. Recientemente, estos dos paradigmas de escasez han evolucionado en gran medida en paralelo, fomentando la suposición predominante de que funcionan de manera independiente. Sin embargo, una pregunta fundamental pero poco explorada persiste: ¿Realmente operan de forma aislada, o existe una interacción subyacente más profunda que aún no se ha descubierto? En este artículo, realizamos la primera investigación exhaustiva sobre esta cuestión. Al introducir y analizar el mecanismo de correspondencia entre Neuronas Clave y Tokens Clave, descubrimos que las neuronas y tokens clave para la inferencia se influyen y refuerzan mutuamente. Basándonos en esta idea, proponemos CoreMatching, un marco de inferencia escasa co-adaptativo, que aprovecha la sinergia entre la escasez de tokens y neuronas para mejorar la eficiencia de la inferencia. A través de análisis teóricos y evaluaciones de eficiencia, demostramos que el método propuesto supera a los baselines más avanzados en diez tareas de comprensión de imágenes y tres dispositivos de hardware. Notablemente, en la NVIDIA Titan Xp, logró una reducción de 5x en FLOPs y una aceleración general de 10x. El código está disponible en https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.
DeepSeek-R1 ha demostrado capacidades de razonamiento potentes en el dominio del texto a través del aprendizaje por refuerzo (RL) estable. Recientemente, en el dominio multimodal, se han comenzado a aplicar directamente técnicas de RL para generar razonamientos de forma libre similares a R1 en tareas de Respuesta Visual a Preguntas (VQA). Sin embargo, las tareas multimodales tienen una naturaleza intrínsecamente diferente a las tareas textuales, ya que dependen en gran medida de la comprensión de la imagen de entrada para resolver el problema. Por lo tanto, este tipo de razonamiento de forma libre enfrenta dos limitaciones críticas en la tarea de VQA: (1) Las cadenas de razonamiento extendidas dispersan el enfoque visual de las regiones críticas para la tarea, lo que degrada la precisión de las respuestas. (2) Los pasos intermedios no verificables amplifican la varianza del gradiente de la política y los costos computacionales adicionales. Para abordar estos problemas, en este artículo presentamos SATORI (Optimización de Tareas Ancladas Espacialmente con Aprendizaje por Refuerzo), que descompone la tarea de VQA en tres etapas verificables, incluyendo la descripción global de la imagen, la localización de regiones y la predicción de respuestas, cada una proporcionando señales de recompensa explícitas. Además, también presentamos VQA-Verify, un conjunto de datos de 12k anotado con descripciones y cuadros delimitadores alineados con las respuestas para facilitar el entrenamiento. Los experimentos demuestran mejoras consistentes en el rendimiento en siete benchmarks de VQA, logrando una mejora de hasta el 15.7% en precisión en comparación con la línea base similar a R1. Nuestro análisis del mapa de atención confirma un enfoque mejorado en las regiones críticas, lo que aporta mejoras en la precisión. Nuestro código está disponible en https://github.com/justairr/SATORI-R1.
Las arquitecturas de mezcla de expertos (MoE, por sus siglas en inglés) permiten escalar modelos de lenguaje grandes (LLMs) a recuentos de parámetros masivos sin un aumento proporcional en los costos computacionales. Sin embargo, las demandas significativas de memoria de los modelos MoE grandes dificultan su implementación en diversos entornos computacionales, desde servidores en la nube hasta dispositivos de consumo. Este estudio demuestra primero una especialización pronunciada en los patrones de activación de expertos dentro de las capas MoE, específica para cada tarea. Basándonos en esto, presentamos PreMoe, un marco novedoso que permite la implementación eficiente de modelos MoE masivos en entornos con limitaciones de memoria. PreMoe incluye dos componentes principales: poda probabilística de expertos (PEP) y recuperación de expertos adaptativa a la tarea (TAER). PEP emplea una nueva métrica, la puntuación de selección esperada condicionada a la tarea (TCESS), derivada de los logits del enrutador para cuantificar la importancia de los expertos en tareas específicas, identificando así un conjunto mínimo de expertos críticos. TAER aprovecha estos perfiles de importancia de expertos específicos para la tarea para realizar inferencias eficientes. Precalcula y almacena patrones compactos de expertos para diversas tareas. Cuando se recibe una consulta del usuario, TAER identifica rápidamente el patrón de tarea almacenado más relevante y reconstruye el modelo cargando solo el pequeño subconjunto de expertos cruciales para esa tarea. Este enfoque reduce drásticamente la huella de memoria en todos los escenarios de implementación. DeepSeek-R1 671B mantiene un 97.2\% de precisión en MATH500 cuando se poda a una configuración de 8/128 (reducción del 50\% de expertos), y aún logra un 72.0\% con una poda agresiva de 8/32 (reducción del 87.5\% de expertos). Pangu-Ultra-MoE 718B alcanza un 97.15\% en MATH500 y un 81.3\% en AIME24 con una poda de 8/128, mientras que una poda aún más agresiva a 4/64 (390GB de memoria) preserva un 96.95\% de precisión en MATH500. Hacemos nuestro código disponible públicamente en https://github.com/JarvisPei/PreMoe.
En este trabajo, buscamos incentivar la capacidad de razonamiento de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) mediante el aprendizaje por refuerzo (RL, por sus siglas en inglés) y desarrollar un enfoque efectivo que mitigue los problemas de recompensas dispersas y desvanecimiento de ventajas durante el RL. Para ello, proponemos Share-GRPO, un novedoso enfoque de RL que aborda estos problemas explorando y compartiendo trayectorias de razonamiento diversas en un espacio de preguntas ampliado. Específicamente, Share-GRPO primero expande el espacio de preguntas para una pregunta dada mediante técnicas de transformación de datos, y luego incentiva al MLLM a explorar de manera efectiva diversas trayectorias de razonamiento en el espacio de preguntas ampliado, compartiendo las trayectorias descubiertas entre las preguntas ampliadas durante el RL. Además, Share-GRPO también comparte información de recompensa durante el cálculo de ventajas, estimando jerárquicamente las ventajas de las soluciones entre y dentro de las variantes de preguntas, lo que permite una estimación más precisa de las ventajas relativas y mejora la estabilidad del entrenamiento de políticas. Evaluaciones exhaustivas en seis benchmarks de razonamiento ampliamente utilizados demuestran el rendimiento superior de nuestro método. El código estará disponible en https://github.com/HJYao00/R1-ShareVL.
Comprender las fuentes de incertidumbre de un modelo respecto a sus predicciones es crucial para una colaboración efectiva entre humanos e IA. Trabajos previos proponen el uso de incertidumbre numérica o expresiones cautelosas ("No estoy seguro, pero..."), las cuales no explican la incertidumbre que surge de evidencia conflictiva, dejando a los usuarios incapaces de resolver desacuerdos o confiar en la salida. Presentamos CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations), el primer marco para generar explicaciones en lenguaje natural de la incertidumbre del modelo mediante (i) la identificación de relaciones entre fragmentos de texto que revelan conflictos o acuerdos entre afirmaciones y evidencia, o entre evidencias, que impulsan la incertidumbre predictiva del modelo de manera no supervisada, y (ii) la generación de explicaciones mediante prompting y direccionamiento de atención que verbalizan estas interacciones críticas. A través de tres modelos de lenguaje y dos conjuntos de datos de verificación de hechos, demostramos que CLUE produce explicaciones más fieles a la incertidumbre del modelo y más consistentes con decisiones de verificación de hechos que el prompting para explicaciones de incertidumbre sin guía de interacción entre fragmentos. Evaluadores humanos consideran que nuestras explicaciones son más útiles, más informativas, menos redundantes y más lógicamente consistentes con la entrada que esta línea base. CLUE no requiere ajustes finos ni cambios arquitectónicos, lo que lo hace plug-and-play para cualquier modelo de lenguaje de caja blanca. Al vincular explícitamente la incertidumbre con conflictos de evidencia, ofrece soporte práctico para la verificación de hechos y se generaliza fácilmente a otras tareas que requieren razonamiento sobre información compleja.
Los algoritmos de programación dinámica (DP) para problemas de optimización combinatoria funcionan mediante la maximización, minimización y la suma clásica en sus algoritmos de recursión. Las funciones de valor asociadas corresponden a poliedros convexos en el semianillo max-plus. Sin embargo, los modelos existentes de Razonamiento Algorítmico Neuronal se basan en la atención de producto punto normalizada con softmax, donde la ponderación exponencial suavizada difumina estas estructuras poliédricas nítidas y colapsa cuando se evalúa en configuraciones fuera de distribución (OOD). Introducimos la atención Tropical, una función de atención novedosa que opera de manera nativa en el semianillo max-plus de la geometría tropical. Demostramos que la atención Tropical puede aproximar circuitos tropicales de algoritmos combinatorios de tipo DP. Luego proponemos que el uso de transformadores Tropicales mejora el rendimiento empírico OOD tanto en la generalización de longitud como en la generalización de valor, en tareas de razonamiento algorítmico, superando los baselines de softmax mientras se mantiene estable bajo ataques adversarios. También presentamos la generalización frente a ataques adversarios como un tercer eje para la evaluación comparativa del Razonamiento Algorítmico Neuronal. Nuestros resultados demuestran que la atención Tropical restaura el razonamiento nítido e invariante a la escala que falta en softmax.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son cada vez más reconocidos como herramientas poderosas para el descubrimiento científico, particularmente en el ámbito de las ciencias moleculares. Un requisito fundamental para estos modelos es la capacidad de comprender con precisión las estructuras moleculares, comúnmente codificadas en la representación SMILES. Sin embargo, los LLMs actuales tienen dificultades para interpretar SMILES, incluso fallando en tareas básicas como contar anillos moleculares. Para abordar esta limitación, presentamos CLEANMOL, un marco novedoso que formula el análisis de SMILES en un conjunto de tareas limpias y deterministas diseñadas explícitamente para promover la comprensión molecular a nivel de grafos. Estas tareas abarcan desde la coincidencia de subgrafos hasta la coincidencia de grafos globales, proporcionando supervisión estructurada alineada con las propiedades estructurales moleculares. Construimos un conjunto de datos de preentrenamiento molecular con puntuación de dificultad adaptativa y preentrenamos LLMs de código abierto en estas tareas. Nuestros resultados muestran que CLEANMOL no solo mejora la comprensión estructural, sino que también logra el mejor rendimiento o compite con la línea base en el benchmark Mol-Instructions.
La Generación Aumentada por Recuperación mejora la precisión de los LLM al agregar pasajes recuperados de un corpus externo al prompt del LLM. Este artículo investiga cómo el sesgo posicional -la tendencia de los LLM a ponderar la información de manera diferente según su posición en el prompt- afecta no solo la capacidad del LLM para aprovechar los pasajes relevantes, sino también su susceptibilidad a pasajes distractores. A través de extensos experimentos en tres benchmarks, demostramos cómo las pipelines de recuperación de última generación, al intentar recuperar pasajes relevantes, sistemáticamente colocan pasajes altamente distractores en los primeros puestos, con más del 60% de las consultas conteniendo al menos un pasaje altamente distractor entre los 10 primeros pasajes recuperados. Como resultado, el impacto del sesgo posicional del LLM, que en entornos controlados a menudo se reporta como muy prominente en trabajos relacionados, en realidad es marginal en escenarios reales, ya que tanto los pasajes relevantes como los distractores son, a su vez, penalizados. De hecho, nuestros hallazgos revelan que las estrategias sofisticadas que intentan reorganizar los pasajes basándose en las preferencias posicionales del LLM no funcionan mejor que una mezcla aleatoria.
Los Transformers de Visión (ViTs) han surgido como la arquitectura dominante para tareas de procesamiento visual, demostrando una excelente escalabilidad con el aumento de datos de entrenamiento y tamaño del modelo. Sin embargo, trabajos recientes han identificado la aparición de tokens de artefactos en los ViTs que son incongruentes con la semántica local. Estos tokens anómalos degradan el rendimiento de los ViTs en tareas que requieren localización fina o coherencia estructural. Una mitigación efectiva de este problema es la adición de tokens de registro a los ViTs, que implícitamente "absorben" el término de artefacto durante el entrenamiento. Dada la disponibilidad de varios ViTs preentrenados a gran escala, en este artículo buscamos equiparlos con dichos tokens de registro sin la necesidad de reentrenarlos desde cero, lo cual es inviable considerando su tamaño. Específicamente, proponemos Registros Post Hoc (PH-Reg), un método eficiente de auto-distilación que integra registros en un ViT existente sin requerir datos etiquetados adicionales ni un reentrenamiento completo. PH-Reg inicializa tanto la red maestra como la red estudiante a partir del mismo ViT preentrenado. La red maestra permanece congelada y sin modificaciones, mientras que la red estudiante se aumenta con tokens de registro inicializados aleatoriamente. Al aplicar aumentación en tiempo de prueba a las entradas de la red maestra, generamos embeddings densos libres de artefactos, que luego se utilizan para optimizar solo un pequeño subconjunto de pesos desbloqueados de la red estudiante. Demostramos que nuestro enfoque puede reducir efectivamente el número de tokens de artefactos, mejorando la segmentación y predicción de profundidad del ViT estudiante bajo evaluación zero-shot y linear probing.
Los modelos de lenguaje de proteínas (PLMs, por sus siglas en inglés) han surgido como herramientas poderosas para detectar patrones complejos en secuencias de proteínas. Sin embargo, la capacidad de los PLMs para capturar completamente la información sobre las secuencias de proteínas podría verse limitada al enfocarse en tareas únicas de preentrenamiento. Aunque la adición de modalidades de datos u objetivos supervisados puede mejorar el rendimiento de los PLMs, el preentrenamiento a menudo sigue centrado en la eliminación de ruido en secuencias corruptas. Para ampliar los límites de los PLMs, nuestra investigación exploró una estrategia de preentrenamiento multitarea. Desarrollamos Ankh3, un modelo optimizado conjuntamente en dos objetivos: modelado de lenguaje enmascarado con múltiples probabilidades de enmascaramiento y completación de secuencias de proteínas utilizando únicamente secuencias de proteínas como entrada. Este preentrenamiento multitarea demostró que los PLMs pueden aprender representaciones más ricas y generalizables únicamente a partir de secuencias de proteínas. Los resultados mostraron un mejor rendimiento en tareas posteriores, como la predicción de estructura secundaria, fluorescencia, aptitud GB1 y predicción de contactos. La integración de múltiples tareas proporcionó al modelo una comprensión más completa de las propiedades de las proteínas, lo que condujo a predicciones más robustas y precisas.
Las interacciones proteína-proteína (PPIs) son fundamentales para numerosos procesos celulares, y su caracterización es crucial para comprender los mecanismos de las enfermedades y guiar el descubrimiento de fármacos. Si bien los modelos de lenguaje de proteínas (PLMs) han demostrado un éxito notable en la predicción de la estructura y función de las proteínas, su aplicación en la predicción de la afinidad de unión de PPIs basada en secuencias sigue siendo relativamente poco explorada. Esta brecha se atribuye a menudo a la escasez de conjuntos de datos de alta calidad y rigurosamente refinados, así como a la dependencia de estrategias simples para concatenar representaciones de proteínas. En este trabajo, abordamos estas limitaciones. En primer lugar, presentamos una versión meticulosamente curada del conjunto de datos PPB-Affinity, que consta de un total de 8,207 entradas únicas de interacciones proteína-proteína, resolviendo inconsistencias en las anotaciones y entradas duplicadas para interacciones de proteínas de múltiples cadenas. Este conjunto de datos incorpora un umbral estricto de identidad de secuencia menor o igual al 30% para garantizar una división robusta en conjuntos de entrenamiento, validación y prueba, minimizando la fuga de datos. En segundo lugar, proponemos y evaluamos sistemáticamente cuatro arquitecturas para adaptar los PLMs a la predicción de la afinidad de unión de PPIs: concatenación de embeddings (EC), concatenación de secuencias (SC), agrupación jerárquica (HP) y adición de atención agrupada (PAD). Estas arquitecturas se evaluaron utilizando dos métodos de entrenamiento: ajuste fino completo y un enfoque ligero que emplea cabezas ConvBERT sobre características congeladas de los PLMs. Nuestros experimentos exhaustivos con múltiples PLMs líderes (ProtT5, ESM2, Ankh, Ankh2 y ESM3) demostraron que las arquitecturas HP y PAD superan consistentemente los métodos de concatenación convencionales, logrando un aumento de hasta el 12% en términos de correlación de Spearman. Estos resultados destacan la necesidad de diseños arquitectónicos sofisticados para explotar plenamente las capacidades de los PLMs en la predicción matizada de la afinidad de unión de PPIs.
El diagnóstico diferencial de las demencias neurodegenerativas es una tarea clínica compleja, principalmente debido a la superposición en la presentación de síntomas y la similitud de los patrones observados en la neuroimagen estructural. Para mejorar la eficiencia y precisión diagnóstica, se han propuesto métodos basados en aprendizaje profundo, como Redes Neuronales Convolucionales y Transformadores de Visión, para la clasificación automática de resonancias magnéticas cerebrales. Sin embargo, a pesar de su fuerte rendimiento predictivo, estos modelos tienen una utilidad clínica limitada debido a su toma de decisiones opaca. En este trabajo, proponemos un marco que integra dos componentes principales para mejorar la transparencia diagnóstica. Primero, introducimos una canalización modular para convertir resonancias magnéticas cerebrales T1 ponderadas en 3D en informes radiológicos textuales. Segundo, exploramos el potencial de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) modernos para asistir a los clínicos en el diagnóstico diferencial entre subtipos de demencia frontotemporal, enfermedad de Alzheimer y envejecimiento normal basándose en los informes generados. Para cerrar la brecha entre la precisión predictiva y la explicabilidad, empleamos aprendizaje por refuerzo para incentivar el razonamiento diagnóstico en los LLMs. Sin requerir trazas de razonamiento supervisadas o destilación de modelos más grandes, nuestro enfoque permite la emergencia de racionales diagnósticos estructurados basados en hallazgos de neuroimagen. A diferencia de los métodos de explicabilidad post-hoc que justifican retrospectivamente las decisiones del modelo, nuestro marco genera racionales diagnósticos como parte del proceso de inferencia, produciendo explicaciones causalmente fundamentadas que informan y guían el proceso de toma de decisiones del modelo. Al hacerlo, nuestro marco iguala el rendimiento diagnóstico de los métodos existentes de aprendizaje profundo mientras ofrece racionales que respaldan sus conclusiones diagnósticas.