Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Qwen3-VL, el modelo de visión y lenguaje más capaz de la serie Qwen hasta la fecha, que logra un rendimiento superior en una amplia gama de benchmarks multimodales. Soporta nativamente contextos entrelazados de hasta 256K tokens, integrando perfectamente texto, imágenes y video. La familia de modelos incluye variantes densas (2B/4B/8B/32B) y de mezcla de expertos (30B-A3B/235B-A22B) para adaptarse a diversas compensaciones entre latencia y calidad. Qwen3-VL ofrece tres pilares fundamentales: (i) una comprensión de texto puro notablemente más sólida, superando a arquitecturas especializadas solo en texto en varios casos; (ii) una comprensión robusta de contextos largos con una ventana nativa de 256K tokens tanto para texto como para entradas multimodales entrelazadas, permitiendo la retención, recuperación y referencia cruzada fiel a lo largo de documentos largos y videos; y (iii) un razonamiento multimodal avanzado en tareas de imagen única, múltiples imágenes y video, demostrando un rendimiento líder en evaluaciones integrales como MMMU y benchmarks de matemáticas visuales (por ejemplo, MathVista y MathVision). Arquitectónicamente, introducimos tres mejoras clave: (i) un MRoPE entrelazado mejorado para un modelado espacio-temporal más fuerte en imágenes y video; (ii) la integración de DeepStack, que aprovecha eficazmente las características ViT multinivel para reforzar la alineación visión-lenguaje; y (iii) la alineación temporal basada en texto para video, evolucionando desde T-RoPE hacia una alineación explícita de marcas de tiempo textuales para una localización temporal más precisa. Con presupuestos de tokens y restricciones de latencia comparables, Qwen3-VL logra un rendimiento superior tanto en arquitecturas densas como de Mezcla de Expertos (MoE). Prevemos que Qwen3-VL sirva como un motor fundamental para el razonamiento basado en imágenes, la toma de decisiones agentiva y la inteligencia de código multimodal en flujos de trabajo del mundo real.
Los modelos Visión-Lenguaje-Acción (VLA), entrenados mediante objetivos de correspondencia de flujo (flow-matching) o difusión, sobresalen en el aprendizaje de comportamientos complejos a partir de conjuntos de datos multimodales a gran escala (por ejemplo, teleoperación humana, políticas guionadas). Sin embargo, dado que los VLA incorporan diversos modos de datos en la etapa de preentrenamiento, y el conjunto de datos de ajuste fino a menudo contiene datos de demostración recopilados de una manera cinemáticamente subóptima o indeseable, existen modos de acción redundantes que son irrelevantes para los modos de acción exitosos de la tarea secundaria. Específicamente, observamos una fragilidad crítica en el momento de la inferencia entre diversos ruidos muestreados después del ajuste fino supervisado de VLA preentrenados. En este artículo, atribuimos esta inestabilidad al cambio de distribución entre la política del VLA y la política inducida por los modos estables de éxito del conjunto de datos de la tarea secundaria. Por lo tanto, proponemos TACO, un marco de escalado en tiempo de prueba (TTS) que aplica un estimador de pseudo-conteo ligero como verificador de alta fidelidad de fragmentos de acción. Los modelos VLA integrados con TACO pueden ejecutar las acciones con el máximo pseudo-conteo de todos los fragmentos de acción muestreados, evitando así cambios de distribución mientras se preserva la capacidad de generalización de los VLA, ya que la restricción se aplica solo durante la inferencia. Nuestro método se asemeja al principio clásico de anti-exploración en el aprendizaje por refuerzo fuera de línea (RL), y al ser libre de gradientes, conlleva beneficios computacionales significativos en comparación con la actualización por RL, especialmente para VLA basados en flujo o difusión, en los que es difícil realizar actualizaciones por RL debido al proceso de eliminación de ruido. Experimentos exhaustivos en cuatro benchmarks de simulación (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) y una plataforma de doble brazo demuestran que nuestro método mejora significativamente la estabilidad de la inferencia y las tasas de éxito en las adaptaciones a tareas secundarias.
Imitar el comportamiento humano para aprender activamente de la experiencia general y lograr la inteligencia artificial general siempre ha sido un sueño de la humanidad. Los modelos recientes de razonamiento a gran escala basados en aprendizaje por refuerzo (RL) demuestran capacidades impresionantes a nivel de experto en dominios como software y matemáticas, pero aún dependen en gran medida de recompensas verificables en dominios específicos, lo que supone un cuello de botella significativo para extender el límite de rendimiento de las capacidades de razonamiento general. En este trabajo, proponemos PretrainZero, un marco de aprendizaje activo por refuerzo construido sobre el corpus de preentrenamiento para extender el RL desde el post-entrenamiento específico de dominio al preentrenamiento general. PretrainZero presenta las siguientes características: 1) Preentrenamiento activo: inspirado por la capacidad de aprendizaje activo de los humanos, PretrainZero aprende una política de razonamiento unificada para identificar activamente contenidos razonables e informativos del corpus de preentrenamiento, y razonar para predecir estos contenidos mediante RL. 2) Aprendizaje auto-supervisado: sin etiquetas verificables, modelos de recompensa preentrenados o ajuste fino supervisado, preentrenamos directamente razonadores a partir de modelos base de 3 a 30B en el corpus general de Wikipedia usando RL, rompiendo significativamente la barrera de datos de verificación para el razonamiento general. 3) Escalado de verificación: al abordar spans enmascarados cada vez más desafiantes, PretrainZero mejora sustancialmente las capacidades de razonamiento general de los modelos base preentrenados. En el preentrenamiento por refuerzo, PretrainZero mejora Qwen3-4B-Base en 8.43, 5.96 y 10.60 puntos en los benchmarks MMLU-Pro, SuperGPQA y promedio matemático, respectivamente. En el post-entrenamiento, los modelos preentrenados también pueden servir como modelos base de razonamiento para tareas posteriores de RLVR.
Comprender las diferencias visuales entre escenas dinámicas requiere la percepción comparativa de cambios compositivos, espaciales y temporales, una capacidad que sigue estando poco explorada en los sistemas de visión y lenguaje existentes. Si bien trabajos previos sobre la Descripción de Diferencias en Imágenes (IDC) han permitido a los modelos describir cambios semánticos entre imágenes estáticas, estos enfoques no logran capturar la continuidad del movimiento, la evolución de eventos o la coherencia de edición a lo largo del tiempo. Presentamos la tarea ViDiC (Descripción de Diferencias en Video) y su conjunto de datos correspondiente, ViDiC-1K, diseñado para evaluar la capacidad de los Modelos de Lenguaje Grandes Multimodales (MLLMs) para proporcionar descripciones detalladas de similitudes y diferencias entre pares de videos. ViDiC-1K comprende 1,000 pares de videos seleccionados y anotados con más de 4,000 ítems de listas de verificación comparativas, que cubren siete categorías: sujeto, estilo, fondo, cinematografía, movimiento, ubicación y técnicas de reproducción. Para garantizar una evaluación confiable, proponemos un marco de doble lista de verificación que mide la precisión de similitudes y diferencias por separado, basado en el protocolo LLM-como-Juez. Los experimentos con diecinueve modelos multimodales representativos revelan una brecha de rendimiento significativa en sus capacidades de descripción comparativa y percepción de diferencias. Esperamos que ViDiC-1K pueda ser un punto de referencia desafiante que siente una base sólida para avanzar en la comprensión de videos, la conciencia de la edición y el razonamiento comparativo en la inteligencia multimodal.
El aprendizaje por refuerzo (RL) ha logrado recientemente un éxito notable en la elicitación del razonamiento visual dentro de los Modelos de Lenguaje Multimodales Grandes (MLLM). Sin embargo, los enfoques existentes suelen entrenar modelos separados para diferentes tareas y tratan el razonamiento sobre imágenes y videos como dominios disjuntos. Esto resulta en una escalabilidad limitada hacia un generalista de razonamiento multimodal, lo cual restringe la versatilidad práctica e impide el potencial intercambio de conocimiento entre tareas y modalidades. Para ello, proponemos OneThinker, un modelo de razonamiento todo-en-uno que unifica la comprensión de imágenes y videos a través de diversas tareas visuales fundamentales, incluyendo respuesta a preguntas, descripción, localización espacial y temporal, seguimiento y segmentación. Para lograrlo, construimos el corpus de entrenamiento OneThinker-600k que cubre todas estas tareas y empleamos modelos comerciales para la anotación de Cadena de Pensamiento (CoT), resultando en OneThinker-SFT-340k para el arranque en frío mediante Ajuste Supervisado (SFT). Además, proponemos EMA-GRPO para manejar la heterogeneidad de las recompensas en el RL multitarea mediante el seguimiento de medias móviles por tarea de las desviaciones estándar de las recompensas para una optimización equilibrada. Experimentos exhaustivos en diversos benchmarks visuales muestran que OneThinker ofrece un rendimiento sólido en 31 benchmarks, abarcando 10 tareas fundamentales de comprensión visual. Además, exhibe una transferencia de conocimiento efectiva entre ciertas tareas y una capacidad preliminar de generalización zero-shot, marcando un paso hacia un generalista unificado de razonamiento multimodal. Todo el código, modelo y datos son liberados.
Los Modelos de Lenguaje Visual (VLM) demuestran una sólida comprensión visual cualitativa, pero presentan dificultades en el razonamiento espacial métricamente preciso requerido para aplicaciones de embodiment. El paradigma de agencia promete que los VLM pueden utilizar una amplia variedad de herramientas que podrían aumentar estas capacidades, como estimadores de profundidad, modelos de segmentación y estimadores de postura. Sin embargo, sigue siendo un reto abierto cómo materializar esta visión sin depender únicamente de estrategias de prompting manuales o de imponer pipelines de herramientas fijos y predefinidos que limitan la capacidad de los VLM para descubrir patrones óptimos de uso de herramientas. El Aprendizaje por Refuerzo podría superar esta brecha, pero hasta ahora se ha limitado al razonamiento con una única herramienta visual debido al gran espacio de búsqueda en el razonamiento multi-herramienta. Presentamos Double Interactive Reinforcement Learning (DIRL), un marco de entrenamiento en dos fases donde los VLM aprenden a coordinar múltiples herramientas mediante exploración y retroalimentación interactivas. En la fase de enseñanza, combinamos demostraciones de un especialista en una sola herramienta entrenado mediante RL interactivo con trazas de un modelo de frontera que utiliza todas las herramientas. En la fase de exploración, el modelo refina aún más la coordinación multi-herramienta mediante RL continuado. Nuestro modelo, SpaceTools, con capacidad de razonamiento espacial aumentado por herramientas, logra un rendimiento de vanguardia en benchmarks de comprensión espacial (RoboSpatial-Home, BLINK, BOP-ASK) y demuestra una manipulación confiable en el mundo real utilizando un robot de 7-GDL como herramienta. DIRL proporciona mejoras sustanciales respecto a los baselines de SFT estándar (+12% en RoboSpatial) y de RL (+16% en RoboSpatial). Página del proyecto: https://spacetools.github.io/.
Lograr una alineación precisa entre la intención del usuario y los elementos visuales generados sigue siendo un desafío central en la generación de texto a visual, ya que un único intento a menudo no produce el resultado deseado. Para manejar esto, los enfoques anteriores principalmente escalan el proceso de generación visual (por ejemplo, aumentando los pasos de muestreo o las semillas), pero esto rápidamente conduce a una meseta de calidad. Esta limitación surge porque el *prompt*, crucial para guiar la generación, se mantiene fijo. Para abordar esto, proponemos el Rediseño de *Prompts* para el Escalado en Tiempo de Inferencia, denominado PRIS, un marco que revisa adaptativamente el *prompt* durante la inferencia en respuesta a las generaciones visuales escaladas. La idea central de PRIS es revisar los elementos visuales generados, identificar patrones de fallo recurrentes en ellos y rediseñar el *prompt* en consecuencia antes de regenerar los elementos visuales con el *prompt* revisado. Para proporcionar una retroalimentación de alineación precisa para la revisión del *prompt*, introducimos un nuevo verificador, la *corrección factual a nivel de elemento*, que evalúa la alineación entre los atributos del *prompt* y los elementos visuales generados a un nivel granular, logrando evaluaciones más precisas e interpretables que las medidas holísticas. Experimentos exhaustivos en benchmarks de texto-a-imagen y texto-a-vídeo demuestran la efectividad de nuestro enfoque, incluyendo una mejora del 15% en VBench 2.0. Estos resultados destacan que escalar conjuntamente los *prompts* y los elementos visuales es clave para aprovechar plenamente las leyes de escalado en tiempo de inferencia. Las visualizaciones están disponibles en el sitio web: https://subin-kim-cv.github.io/PRIS.
Un modelo de mundo verdaderamente interactivo requiere tres ingredientes clave: transmisión continua en tiempo real de larga duración, memoria espacial consistente y control preciso del usuario. Sin embargo, la mayoría de los enfoques existentes abordan solo uno de estos aspectos de forma aislada, ya que lograr los tres simultáneamente es altamente complejo; por ejemplo, los mecanismos de memoria a largo plazo a menudo degradan el rendimiento en tiempo real. En este trabajo presentamos RELIC, un marco unificado que aborda estos tres desafíos de manera integral. Dada una única imagen y una descripción textual, RELIC permite la exploración consciente de la memoria y de larga duración de escenas arbitrarias en tiempo real. Construido sobre técnicas recientes de destilación de difusión de video autorregresivo, nuestro modelo representa la memoria de largo horizonte utilizando tokens latentes históricos altamente comprimidos, codificados con acciones relativas y poses de cámara absolutas dentro de la caché KV. Esta estructura de memoria compacta y consciente de la cámara permite la recuperación implícita de contenido 3D-consistente y garantiza coherencia a largo plazo con una sobrecarga computacional mínima. En paralelo, ajustamos un modelo de video "maestro" bidireccional para generar secuencias más allá de su horizonte de entrenamiento original de 5 segundos, y lo transformamos en un generador "estudiante" causal utilizando un nuevo paradigma de auto-forzado eficiente en memoria que permite la destilación de contexto completo tanto sobre largas secuencias del maestro como sobre auto-ejecuciones largas del estudiante. Implementado como un modelo de 14B de parámetros y entrenado en un conjunto de datos curado renderizado con Unreal Engine, RELIC logra una generación en tiempo real a 16 FPS, demostrando un seguimiento de acciones más preciso, una transmisión de largo horizonte más estable y una recuperación de memoria espacial más robusta en comparación con trabajos anteriores. Estas capacidades establecen a RELIC como una base sólida para la próxima generación de modelado interactivo de mundos.
Los modelos de lenguaje grandes multimodales (MLLMs) que piensan con imágenes pueden utilizar herramientas de forma interactiva para razonar sobre entradas visuales, pero los enfoques actuales a menudo dependen de un conjunto limitado de herramientas con escasa necesidad y escalabilidad en el mundo real. En este trabajo, primero revelamos una debilidad crítica y previamente pasada por alto: incluso los MLLMs más avanzados son sorprendentemente frágiles, mostrando una degradación significativa del rendimiento en imágenes con simples cambios de orientación o corrupciones naturales, lo que subraya la necesidad de un razonamiento basado en herramientas más robusto. Para abordar esto, proponemos CodeVision, un marco flexible y escalable de código-como-herramienta donde el modelo genera código como interfaz universal para invocar cualquier operación de imagen, superando los registros de herramientas fijos. Entrenamos nuestro modelo utilizando una metodología de dos etapas, comenzando con el Ajuste Fino Supervisado (SFT) en un conjunto de datos de alta calidad seleccionado para la composición compleja de herramientas en múltiples turnos y la recuperación de errores, seguido de Aprendizaje por Refuerzo (RL) con una función de recompensa de proceso novedosa y densa para fomentar un uso estratégico y eficiente de las herramientas. Para facilitar esta investigación, construimos nuevos conjuntos de datos SFT y RL e introducimos un nuevo y desafiante conjunto de puntos de referencia diseñado para evaluar rigurosamente la robustez frente a cambios de orientación y el razonamiento con múltiples herramientas. Los experimentos en las series Qwen2.5-VL y Qwen3-VL muestran que nuestro enfoque mejora significativamente el rendimiento del modelo y fomenta capacidades emergentes como la composición flexible de herramientas, la ejecución encadenada eficiente y la recuperación robusta de errores a partir de retroalimentación en tiempo de ejecución. El código está disponible en https://github.com/ByteDance-BandAI/CodeVision.
Los Flujos Normalizadores (NFs) son una clase de modelos generativos que se distinguen por una arquitectura matemáticamente invertible, donde el paso hacia adelante transforma los datos en un espacio latente para la estimación de densidad, y el paso inverso genera nuevas muestras a partir de este espacio. Esta característica crea una sinergia intrínseca entre el aprendizaje de representaciones y la generación de datos. Sin embargo, la calidad generativa de los NFs estándar se ve limitada por las pobres representaciones semánticas resultantes de la optimización de la verosimilitud logarítmica. Para remediar esto, proponemos una novedosa estrategia de alineación que aprovecha creativamente la invertibilidad de los NFs: en lugar de regularizar el paso hacia adelante, alineamos las características intermedias del paso generativo (inverso) con representaciones de un modelo de base de visión potente, demostrando una eficacia superior frente a una alineación simple. También introducimos un novedoso algoritmo de optimización en tiempo de prueba y sin entrenamiento para clasificación, que proporciona una evaluación más intrínseca del conocimiento semántico incrustado en el NF. Experimentos exhaustivos demuestran que nuestro enfoque acelera el entrenamiento de los NFs en más de 3.3 veces, al mismo tiempo que ofrece mejoras significativas tanto en la calidad generativa como en la precisión de clasificación. Se establecen nuevos resultados de vanguardia para NFs en ImageNet 64x64 y 256x256. Nuestro código está disponible en https://github.com/MCG-NJU/FlowBack.
La alineación de los Modelos de Lenguaje Grandes (LLM) con las preferencias humanas generalmente depende de supervisión externa, lo que enfrenta limitaciones críticas: las anotaciones humanas son escasas y subjetivas, los modelos de recompensa son vulnerables a la manipulación de recompensas (reward hacking), y los métodos de autoevaluación sufren de sensibilidad a los prompts y sesgos. En este trabajo, proponemos el *rango estable* (stable rank), una señal de calidad intrínseca y libre de anotaciones derivada de las representaciones del modelo. El rango estable mide la dimensionalidad efectiva de los estados ocultos calculando la relación entre la varianza total y la varianza en la dirección dominante, capturando la calidad a través de cómo se distribuye la información entre las dimensiones de representación. Empíricamente, el rango estable alcanza un 84.04% de precisión en RewardBench y mejora la precisión en tareas en un promedio de 11.3 puntos porcentuales sobre la decodificación voraz mediante muestreo Best-of-N. Aprovechando esta idea, presentamos la Optimización de Políticas Relativas por Grupos de Rango Estable (SR-GRPO), que utiliza el rango estable como señal de recompensa para el aprendizaje por refuerzo. Sin supervisión externa, SR-GRPO mejora el modelo Qwen2.5-1.5B-Instruct en un 10% en STEM y en un 19% en razonamiento matemático, superando tanto a los modelos de recompensa aprendidos como a las líneas base de autoevaluación. Nuestros hallazgos demuestran que las señales de calidad pueden extraerse de la geometría interna del modelo, ofreciendo un camino hacia una alineación escalable sin supervisión externa.
Si bien las Unidades de Procesamiento Neuronal (NPU) ofrecen una alta eficiencia teórica para la IA en el edge, los modelos visión-lenguaje (VLM) de vanguardia diseñados para GPU a menudo presentan un rendimiento deficiente en estos sustratos. Atribuimos este desajuste hardware-modelo a dos factores principales: la fragilidad ante la cuantización de los Transformers de Visión (ViT) y la naturaleza limitada por E/S de los mecanismos de atención autoregresivos, que no logran utilizar el alto rendimiento aritmético de las NPU. Para cerrar esta brecha, proponemos AutoNeural, una arquitectura VLM nativa de NPU co-diseñada para inferencia exclusiva con enteros. Reemplazamos el codificador ViT estándar con una columna vertebral de estilo MobileNetV5 que utiliza convoluciones separables en profundidad, lo que garantiza distribuciones de activación acotadas para una cuantización INT4/8/16 estable. Complementando esto, nuestra columna vertebral lingüística integra principios de Modelos de Espacio de Estados (SSM) con capas de Transformer, empleando convoluciones con puertas eficientes para lograr una complejidad temporal lineal. Este diseño híbrido elimina la gran sobrecarga de E/S de memoria del almacenamiento en caché de Clave-Valor durante la generación. Nuestro enfoque proporciona ganancias sustanciales de eficiencia, reduciendo el error de cuantización del codificador visual hasta 7 veces y la latencia de extremo a extremo 14 veces en comparación con los métodos convencionales de referencia. AutoNeural también ofrece una velocidad de decodificación 3 veces mayor y una ventana de contexto 4 veces más larga que la línea de base. Validamos estas mejoras mediante un estudio de caso automotriz del mundo real en el SoC Qualcomm SA8295P, demostrando un rendimiento en tiempo real para aplicaciones de cabina. Nuestros resultados resaltan que repensar la topología del modelo específicamente para las restricciones de las NPU es un requisito previo para una inteligencia multimodal en el edge robusta.
La cocina es una actividad secuencial y visualmente fundamentada, donde cada paso, como cortar, mezclar o freír, conlleva tanto una lógica procedimental como una semántica visual. Si bien los modelos de difusión recientes han demostrado una gran capacidad en la generación de imágenes a partir de texto, presentan dificultades para manejar escenarios estructurados de múltiples pasos, como la ilustración de recetas. Además, los métodos actuales de ilustración de recetas no pueden adaptarse a la variabilidad natural en la longitud de las recetas, generando un número fijo de imágenes independientemente de la estructura real de las instrucciones. Para abordar estas limitaciones, presentamos CookAnything, un marco flexible y consistente basado en difusión que genera secuencias de imágenes coherentes y semánticamente distintas a partir de instrucciones culinarias textuales de longitud arbitraria. El marco introduce tres componentes clave: (1) Control Regional por Pasos (SRC), que alinea los pasos textuales con las regiones de imagen correspondientes dentro de un único proceso de eliminación de ruido; (2) RoPE Flexible, un mecanismo de codificación posicional consciente de los pasos que mejora tanto la coherencia temporal como la diversidad espacial; y (3) Control de Consistencia Transpaso (CSCC), que mantiene la consistencia de ingredientes a nivel de grano fino a lo largo de los pasos. Los resultados experimentales en benchmarks de ilustración de recetas muestran que CookAnything supera a los métodos existentes en entornos con y sin entrenamiento. El marco propuesto permite una síntesis visual escalable y de alta calidad de instrucciones complejas de múltiples pasos, y posee un potencial significativo para amplias aplicaciones en medios instructivos y creación de contenido procedimental.
Desde 2019, el Hugging Face Model Hub ha sido la principal plataforma global para compartir modelos de IA de pesos abiertos. Al publicar un conjunto de datos del historial completo de descargas semanales de modelos (junio de 2020-agosto de 2025) junto con metadatos de los modelos, proporcionamos el examen más riguroso hasta la fecha de la dinámica de concentración y las características en evolución en la economía de modelos abiertos. Nuestro análisis abarca 851.000 modelos, más de 200 atributos agregados por modelo y 2.200 millones de descargas. Documentamos una reconfiguración fundamental del poder económico: el dominio de la industria estadounidense de pesos abiertos por parte de Google, Meta y OpenAI ha disminuido drásticamente en favor de desarrolladores independientes, organizaciones comunitarias y, a partir de 2025, la industria china, donde los modelos DeepSeek y Qwen podrían estar anunciando una nueva consolidación del poder de mercado. Identificamos cambios estadísticamente significativos en las propiedades de los modelos, un aumento de 17 veces en el tamaño promedio de los modelos, un crecimiento rápido en la generación multimodal (3,4 veces), la cuantización (5 veces) y las arquitecturas de mezcla de expertos (7 veces), junto con disminuciones preocupantes en la transparencia de los datos, ya que en 2025, por primera vez, los modelos de pesos abiertos superaron a los modelos verdaderamente de código abierto. Exponemos una nueva capa de intermediarios desarrolladores que ha surgido, centrada en cuantizar y adaptar modelos base tanto para la eficiencia como para la expresión artística. Para permitir la investigación y supervisión continuas, publicamos el conjunto de datos completo con un panel interactivo para el monitoreo en tiempo real de la dinámica de concentración y las propiedades en evolución en la economía de modelos abiertos.
Presentamos Jina-VLM, un modelo de visión y lenguaje de 2.400 millones de parámetros que logra un rendimiento de vanguardia en tareas multilingües de respuesta visual a preguntas entre los modelos de visión y lenguaje (VLM) abiertos de escala 2B. El modelo combina un codificador visual SigLIP2 con un modelo de lenguaje base Qwen3 mediante un conector de agrupación por atención que permite el procesamiento eficiente de tokens para imágenes de resolución arbitraria. En evaluaciones estándar de VQA y pruebas multilingües, Jina-VLM supera a modelos comparables manteniendo un rendimiento competitivo en tareas exclusivamente textuales.
La evaluación de modelos de alineación imagen-texto como CLIP es crucial para conectar las representaciones visuales y lingüísticas. Sin embargo, los puntos de referencia existentes se basan en perturbaciones basadas en reglas o descripciones breves, lo que limita su capacidad para medir la alineación a nivel granular. Presentamos AlignBench, un benchmark que proporciona un nuevo indicador de alineación imagen-texto mediante la evaluación de pares detallados de imagen-descripción generados por diversos modelos de imagen-a-texto y texto-a-imagen. Cada oración está anotada en cuanto a su corrección, permitiendo la evaluación directa de los Modelos de Lenguaje Visual (VLM) como evaluadores de alineación. La evaluación de una amplia gama de VLM basados en decodificadores revela tres hallazgos clave: (i) los modelos basados en CLIP, incluso aquellos adaptados para razonamiento compositivo, permanecen prácticamente ciegos; (ii) los detectores sobrevaloran sistemáticamente las oraciones iniciales; y (iii) muestran una fuerte autopreferencia, favoreciendo sus propias salidas y perjudicando el rendimiento de la detección. Nuestra página del proyecto estará disponible en https://dahlian00.github.io/AlignBench/.
Presentamos Doublespeak, un sencillo ataque de secuestro de representaciones en contexto contra modelos de lenguaje grande (LLMs). El ataque funciona reemplazando sistemáticamente una palabra clave dañina (por ejemplo, *bomb*) con un token benigno (por ejemplo, *carrot*) a lo largo de múltiples ejemplos en contexto, dado un prefijo de una solicitud dañina. Demostramos que esta sustitución conduce a que la representación interna del token benigno converja hacia la de la palabra dañina, incorporando efectivamente la semántica dañina bajo un eufemismo. Como resultado, instrucciones superficialmente inocuas (por ejemplo, "¿Cómo construir una *carrot*?") son interpretadas internamente como instrucciones prohibidas (por ejemplo, "¿Cómo construir una *bomb*?"), eludiendo así la alineación de seguridad del modelo. Utilizamos herramientas de interpretabilidad para mostrar que esta sobrescritura semántica emerge capa por capa, con significados benignos en las capas iniciales convergiendo en semánticas dañinas en las capas posteriores. Doublespeak no requiere optimización, es ampliamente transferible entre familias de modelos y logra altas tasas de éxito en sistemas de código cerrado y abierto, alcanzando un 74\% de Tasa de Éxito de Ataque (ASR) en Llama-3.3-70B-Instruct con una sola anulación de contexto de una frase. Nuestros hallazgos destacan una nueva superficie de ataque en el espacio latente de los LLMs, revelando que las estrategias de alineación actuales son insuficientes y deberían operar, en cambio, a nivel de representación.
El despliegue de modelos de grandes lenguajes (LLM) en plataformas móviles enfrenta desafíos significativos debido a la memoria limitada y los recursos computacionales compartidos del dispositivo. La disponibilidad de recursos puede ser un problema, ya que se ve directamente afectada por la carga de trabajo actual del dispositivo, lo que añade incertidumbre al despliegue de modelos. Presentamos UniQL, un marco unificado de cuantización posterior al entrenamiento y compresión de bajo rango con tasas de poda configurables en el dispositivo para LLMs de edge. UniQL es un marco general que integra cuantización y compresión de bajo rango para Transformers, Modelos de Espacio de Estados (SSM) y modelos híbridos, para soportar diversas aplicaciones de edge. En nuestro marco conjunto propuesto, introducimos un método eficiente de clasificación estructural de pesos que acelera el cálculo en 20x, una descomposición en valores singulares (SVD) consciente de la cuantización para minimizar errores, una clasificación de pesos con conciencia del estado para SSMs, y un núcleo fusionado de incrustación posicional rotatoria (RoPE) para modelos podados. Nuestro marco realiza la clasificación de pesos, el ajuste fino y la cuantización en la nube en un flujo de trabajo de pasada única, permitiendo tasas de poda configurables en el dispositivo de hasta el 35%. Nuestros experimentos muestran que los modelos cuantizados y podados logran una reducción de memoria de 4x-5.7x y una mejora en el rendimiento de tokens de 2.7x-3.4x, manteniendo una precisión dentro del 5% de los modelos originales con una poda del 15% en Transformers (Llama3 y Qwen2.5), SSMs (Mamba2) y modelos híbridos (Nemotron-H y Bamba-v2). El código y los modelos cuantizados están disponibles en: https://github.com/enyac-group/UniQL.
Los modelos de razonamiento que utilizan largas cadenas de pensamiento emplean diversas habilidades cognitivas, como la verificación de sus respuestas, la retroceso, el reintento mediante un método alternativo y más. Trabajos previos han demostrado que cuando un modelo de lenguaje base exhibe estas habilidades, el entrenamiento adicional de dicho modelo con aprendizaje por refuerzo (RL) puede aprender a aprovecharlas. ¿Cómo podemos conseguir que los modelos utilicen habilidades que no exhiben los modelos base? Nuestro trabajo, SkillFactory, es un método para ajustar modelos con el fin de aprender aproximadamente estas habilidades durante una etapa de ajuste fino supervisado (SFT) previa al RL. Nuestro enfoque no se basa en la destilación de un modelo más potente, sino que utiliza muestras del propio modelo, reorganizadas para proporcionar datos de entrenamiento en el formato de dichas habilidades. Estos rastros SFT "plata" pueden ser imperfectos, pero aun así son efectivos para preparar a un modelo para adquirir habilidades durante el RL. Nuestra evaluación muestra que (1) comenzar desde una inicialización SFT de SkillFactory ayuda a que un modelo generalice hacia variantes más difíciles de una tarea después del RL, a pesar de un rendimiento inferior antes del RL; (2) las habilidades cognitivas son efectivamente utilizadas por el modelo; (3) los modelos SkillFactory ajustados con RL son más robustos frente a la regresión en tareas fuera de dominio que los modelos base ajustados con RL. Nuestro trabajo sugiere que los sesgos inductivos aprendidos antes del RL ayudan a los modelos a aprender un uso robusto de las habilidades cognitivas.
La aplicación de Modelos Multimodales Grandes (LMMs) a la comprensión de vídeos de larga duración se ve limitada por las longitudes de contexto restringidas y el costo computacionalmente prohibitivo de procesar tokens de vídeo densos. En consecuencia, investigaciones recientes se han centrado en la selección de fotogramas sensible a la consulta, métodos que a menudo conllevan una sobrecarga computacional significativa. Este artículo cuestiona la suposición de que tales mecanismos de búsqueda complejos son universalmente necesarios. Primero identificamos y validamos una tipología de consultas que distingue entre consulta global y consulta localizada. Demostramos que, si bien el muestreo uniforme es eficaz y eficiente para consultas globales, las consultas localizadas sí requieren una selección sensible a la consulta para un rendimiento óptimo. Basándonos en esta idea, proponemos DIG, un marco de selección de fotogramas que no requiere entrenamiento y que adapta su estrategia según el tipo de consulta. Específicamente, DIG emplea un muestreo uniforme eficiente para consultas globales, mientras activa una canalización especializada para extraer fotogramas relevantes para la consulta en el caso de consultas localizadas. Los experimentos en tres benchmarks de comprensión de vídeos de larga duración demuestran que DIG supera consistentemente los métodos de referencia existentes y mejora de forma robusta el rendimiento de los LMM, incluso cuando se escala el número de fotogramas de entrada a 256.
Los Modelos de Lenguaje-Visión (VLMs) han logrado un éxito notable en tareas de respuesta visual a preguntas, pero su dependencia de un gran número de tokens visuales introduce una sobrecarga computacional significativa. Si bien los enfoques eficientes de VLM existentes reducen los tokens visuales mediante compresión de proporción fija, operan de manera pasiva y carecen de la capacidad de adaptarse a requisitos de tarea variables. Esto plantea una pregunta fundamental: ¿Pueden los VLMs determinar autónomamente el número mínimo de tokens visuales requeridos para cada muestra? Inspirados por los mecanismos de visión activa humana, presentamos AdaptVision, un paradigma eficiente de VLM que permite la adquisición adaptativa de tokens visuales mediante un enfoque de grueso a fino. Nuestro modelo procesa inicialmente tokens visuales comprimidos de imágenes de baja resolución y adquiere selectivamente información visual adicional invocando una herramienta de cuadro delimitador para recortar regiones clave cuando es necesario. Entrenamos AdaptVision utilizando un marco de aprendizaje por refuerzo que equilibra cuidadosamente la precisión y la eficiencia. Central a nuestro enfoque es la Optimización de Política de Turno Desacoplada (DTPO), que desacopla el objetivo de aprendizaje en dos componentes: (1) aprendizaje de herramientas, que optimiza la utilización correcta de herramientas, y (2) mejora de la precisión, que refina las respuestas generadas para mejorar la corrección de las respuestas. Basándonos en esta formulación, desacoplamos aún más la estimación de ventaja calculando ventajas separadas para los tokens asociados con cada objetivo. Esta formulación permite una optimización más efectiva para AdaptVision en comparación con GRPO convencional. Experimentos exhaustivos en múltiples benchmarks de VQA demuestran que AdaptVision logra un rendimiento superior mientras consume sustancialmente menos tokens visuales que los métodos eficientes de VLM más avanzados.
Los modelos de difusión muestran potencial para la eliminación de desenfoque en escenas dinámicas; sin embargo, los estudios existentes a menudo no logran aprovechar la naturaleza intrínseca del proceso de desenfoque dentro de los modelos de difusión, limitando su potencial completo. Para abordarlo, presentamos un Modelo de Difusión de Desenfoque (BlurDM), que integra perfectamente el proceso de formación de desenfoque en la difusión para la eliminación de desenfoque en imágenes. Observando que el desenfoque de movimiento proviene de la exposición continua, BlurDM modela implícitamente el proceso de formación de desenfoque mediante un esquema directo de doble difusión, difundiendo tanto ruido como desenfoque sobre una imagen nítida. Durante el proceso de generación inversa, derivamos una formulación de doble eliminación de ruido y desenfoque, permitiendo que BlurDM recupere la imagen nítida mediante la eliminación simultánea de ruido y desenfoque, dado un ruido gaussiano puro condicionado por la imagen desenfocada como entrada. Adicionalmente, para integrar eficientemente BlurDM en redes de eliminación de desenfoque, realizamos BlurDM en el espacio latente, formando una red de generación de previos flexible para la eliminación de desenfoque. Experimentos exhaustivos demuestran que BlurDM mejora significativa y consistentemente los métodos existentes de eliminación de desenfoque en cuatro conjuntos de datos de referencia. El código fuente está disponible en https://github.com/Jin-Ting-He/BlurDM.
Los mecanismos de atención son el núcleo de los modelos base, pero su complejidad cuadrática sigue siendo un cuello de botella crítico para la escalabilidad. Este desafío ha impulsado el desarrollo de mecanismos de atención eficientes, surgiendo la dispersión (sparsity) como paradigma dominante. Los métodos actuales normalmente retienen o descartan bloques clave-valor completos con máscaras binarias, lo que resulta en una pérdida sustancial de información bajo alta dispersión. Para mitigar esta brecha, presentamos Pyramid Sparse Attention (PSA), un módulo versátil aplicable tanto a tareas de comprensión como de generación de video. En lugar de enmascaramiento binario, PSA introduce representaciones KV agrupadas (pooled) multinivel, permitiendo una granularidad de máscara más fina. Específicamente, cada bloque de consulta asigna dinámicamente niveles de agrupamiento más bajos a bloques KV críticos y niveles más altos a los menos importantes, creando una interpolación informativa entre la retención completa y la poda total. Este diseño, análogo a la cuantización de punto fijo y las redes clásicas de pirámide de características (feature pyramid networks) en visión por computadora, mitiga eficazmente la pérdida de información mientras preserva la eficiencia computacional con un presupuesto bajo de cálculo. Funciona con un kernel nativo y compatible con el hardware que aprovecha un diseño desacoplado de bloque-baldosa (block-tile) para garantizar una ejecución eficiente. En diversos benchmarks de comprensión y generación de video, PSA preserva la información contextual y la fidelidad visual, superando consistentemente o logrando un rendimiento comparable con las líneas base de atención dispersa existentes, con mejores compensaciones entre eficiencia y calidad. Nuestro código y los pesos del modelo están disponibles públicamente en: http://ziplab.co/PSA
El diseño gráfico constituye la piedra angular de la comunicación visual moderna, sirviendo como un medio vital para promover eventos culturales y comerciales. Los avances recientes han explorado la automatización de este proceso utilizando Modelos Multimodales Grandes (LMMs), aunque los métodos existentes a menudo producen diseños geométricamente inexactos y carecen de la edición iterativa y específica por capas requerida en los flujos de trabajo profesionales. Para abordar estas limitaciones, presentamos PosterCopilot, un marco que avanza en el razonamiento de diseño y la edición controlable para el diseño gráfico profesional. Específicamente, introducimos una estrategia de entrenamiento progresiva de tres etapas que dota a los LMMs de comprensión geométrica y razonamiento estético para el diseño de layouts, consistente en: Fine-Tuning Supervisado Perturbado, Aprendizaje por Refuerzo para la Alineación Visual-Realidad y Aprendizaje por Refuerzo a partir de Retroalimentación Estética. Además, desarrollamos un flujo de trabajo completo que acopla el modelo de diseño basado en LMM entrenado con modelos generativos, permitiendo una edición iterativa y controlable por capas para el refinamiento preciso de elementos mientras se mantiene la coherencia visual global. Experimentos exhaustivos demuestran que PosterCopilot logra diseños geométricamente precisos y estéticamente superiores, ofreciendo una controlabilidad sin precedentes para el diseño iterativo profesional.
Introducimos el Ataque de Confusión Adversaria, una nueva clase de amenazas contra los modelos de lenguaje multimodal de gran escala. A diferencia de los jailbreaks o la clasificación errónea dirigida, el objetivo es inducir una disrupción sistemática que haga que el modelo genere resultados incoherentes o incorrectos con alta confianza. Las aplicaciones prácticas incluyen incrustar dichas imágenes adversarias en sitios web para impedir que los Agentes de IA basados en MLLM operen de manera confiable. El ataque propuesto maximiza la entropía del siguiente token utilizando un pequeño conjunto de MLLM de código abierto. En el escenario de caja blanca, demostramos que una sola imagen adversaria puede perturbar todos los modelos del conjunto, tanto en la configuración de imagen completa como en la de CAPTCHA Adversario. A pesar de depender de una técnica adversarial básica (PGD), el ataque genera perturbaciones que se transfieren tanto a modelos de código abierto no vistos (por ejemplo, Qwen3-VL) como a modelos propietarios (por ejemplo, GPT-5.1).