Artículos de investigación en IA seleccionados diariamente con traducciones
El panorama de los modelos de generación de imágenes de alto rendimiento está actualmente dominado por sistemas propietarios, como Nano Banana Pro y Seedream 4.0. Las principales alternativas de código abierto, incluyendo Qwen-Image, Hunyuan-Image-3.0 y FLUX.2, se caracterizan por sus recuentos masivos de parámetros (20B a 80B), lo que las hace impracticables para inferencia y ajuste fino en hardware de grado consumidor. Para abordar esta brecha, proponemos Z-Image, un modelo generativo base eficiente de 6B de parámetros construido sobre una arquitectura de Transformer de Difusión de Flujo Único Escalable (S3-DiT) que desafía el paradigma de "escala a cualquier costo". Mediante la optimización sistemática de todo el ciclo de vida del modelo —desde una infraestructura de datos curada hasta un plan de entrenamiento simplificado— completamos el flujo de trabajo de entrenamiento completo en solo 314K horas de GPU H800 (aproximadamente $630K). Nuestro esquema de destilación en pocos pasos con recompensa post-entrenamiento produce además Z-Image-Turbo, que ofrece tanto una latencia de inferencia inferior a un segundo en una GPU H800 de grado empresarial como compatibilidad con hardware de grado consumidor (<16GB de VRAM). Adicionalmente, nuestro paradigma de pre-entrenamiento ómni también permite el entrenamiento eficiente de Z-Image-Edit, un modelo de edición con capacidades impresionantes para seguir instrucciones. Experimentos cualitativos y cuantitativos demuestran que nuestro modelo logra un rendimiento comparable o superior al de los principales competidores en varias dimensiones. Más notablemente, Z-Image exhibe capacidades excepcionales en la generación de imágenes fotorrealistas y la representación de texto bilingüe, entregando resultados que rivalizan con los modelos comerciales de primer nivel, demostrando así que se pueden alcanzar resultados de vanguardia con una sobrecarga computacional significativamente reducida. Publicamos nuestro código, pesos y demostración en línea para fomentar el desarrollo de modelos generativos accesibles, económicos y de última generación.
Los recientes avances en modelos de edición de imágenes han mostrado un progreso notable. Un diseño arquitectónico común combina un codificador de modelo de lenguaje grande multimodal (MLLM) con un decodificador de difusión, como se observa en sistemas como Step1X-Edit y Qwen-Image-Edit, donde el MLLM codifica tanto la imagen de referencia como la instrucción, pero permanece congelado durante el entrenamiento. En este trabajo, demostramos que desbloquear las capacidades de razonamiento del MLLM puede impulsar aún más los límites de los modelos de edición. Específicamente, exploramos dos mecanismos de razonamiento, *pensamiento* y *reflexión*, que mejoran la comprensión de instrucciones y la precisión de la edición. Con base en esto, nuestro marco propuesto permite la edición de imágenes en un bucle de pensamiento-edición-reflexión: el mecanismo de pensamiento aprovecha el conocimiento del mundo del MLLM para interpretar instrucciones abstractas, mientras que la reflexión revisa los resultados de la edición, corrige automáticamente las manipulaciones no deseadas e identifica la ronda de finalización. Experimentos exhaustivos demuestran que nuestro enfoque de razonamiento logra mejoras significativas de rendimiento, con incrementos de ImgEdit (+4.3%), GEdit (+4.7%) y Kris (+8.2%) al inicializar nuestro DiT desde Step1X-Edit (ReasonEdit-S), y también supera a métodos de código abierto anteriores tanto en GEdit como en Kris cuando se integra con Qwen-Image-Edit (ReasonEdit-Q).
Recientemente, la generación de vídeos multipersona ha comenzado a ganar prominencia. Si bien algunos trabajos preliminares han explorado la generación de vídeos parlantes multipersona impulsados por audio, a menudo se enfrentan a desafíos debido a los altos costos de la recopilación de datos multipersona diversos y la dificultad de dirigir múltiples identidades con interactividad coherente. Para abordar estos desafíos, proponemos AnyTalker, un marco de generación multipersona que presenta una arquitectura de procesamiento de flujos múltiples extensible. Específicamente, extendemos el bloque de atención del Transformer de Difusión con un novedoso mecanismo de atención consciente de la identidad que procesa iterativamente pares identidad-audio, permitiendo escalar arbitrariamente las identidades dirigibles. Además, entrenar modelos generativos multipersona requiere datos masivos multipersona. Nuestra pipeline de entrenamiento propuesta depende únicamente de vídeos de una sola persona para aprender patrones de habla multipersona y refina la interactividad con solo unos pocos clips reales multipersona. Además, contribuimos con una métrica y un conjunto de datos específicos diseñados para evaluar la naturalidad e interactividad de los vídeos multipersona generados. Experimentos exhaustivos demuestran que AnyTalker logra una sincronización labial notable, calidad visual e interactividad natural, logrando un equilibrio favorable entre los costos de datos y la escalabilidad de identidades.
Presentamos Vision Bridge Transformer (ViBT), una implementación a gran escala de los Modelos de Puente Browniano diseñada para generación condicional. A diferencia de los modelos de difusión tradicionales que transforman ruido en datos, los Modelos de Puente modelan directamente la trayectoria entre entradas y salidas, creando un paradigma eficiente de traducción de datos a datos. Al escalar estos modelos a 20.000 y 1.300 millones de parámetros, demostramos su eficacia para tareas de traducción de imágenes y vídeo. Para soportar esta escala, adoptamos una arquitectura Transformer y proponemos un objetivo de correspondencia de velocidad con varianza estabilizada para un entrenamiento robusto. En conjunto, estos avances destacan el poder del escalado de Modelos de Puente para la edición de imágenes basada en instrucciones y la traducción compleja de vídeo.
Los modelos multimodales unificados para generación y comprensión de imágenes representan un avance significativo hacia la AGI y han atraído una atención generalizada por parte de los investigadores. El principal desafío de esta tarea radica en la dificultad para establecer un paradigma de entrenamiento óptimo debido a los objetivos inherentemente conflictivos entre las tareas de comprensión y generación. Para mitigar estos conflictos y alcanzar un mayor rendimiento, muchos investigadores adoptan distintos grados de desacoplamiento del modelo (por ejemplo, codificadores de imagen dobles, arquitecturas MOE/MOT o MLLM congelados). Sin embargo, un desacoplamiento excesivo puede provocar la pérdida de la capacidad de generación entrelazada, socavando el propósito original de los modelos unificados. En este trabajo, nuestro objetivo es explorar cómo mitigar los conflictos entre tareas sin recurrir al desacoplamiento del modelo. En primer lugar, analizamos por qué el desacoplamiento mitiga los conflictos mediante el estudio del comportamiento de atención multimodal cruzada de los modelos. Observamos que el desacoplamiento del modelo impulsa esencialmente a los modelos hacia patrones de interacción multimodal específicos de la tarea, como se observa en Qwen-VL y HunyuanImage, y que cuanto más exhaustivo es el desacoplamiento, más consistente se vuelve el comportamiento. Motivados por esta observación, proponemos la pérdida por Alineación de Interacción de Atención (AIA), que aprende explícitamente patrones de interacción multimodal específicos de la tarea durante el entrenamiento. Para demostrar la generalizabilidad de nuestra pérdida AIA, la aplicamos a Emu3 y Janus-Pro durante las etapas de SFT y post-entrenamiento, respectivamente. Sin elementos superfluos, AIA no solo refina los patrones de atención multimodal cruzada, sino que también mejora el rendimiento tanto en generación como en comprensión.
Los grandes modelos de lenguaje han logrado avances significativos en el razonamiento matemático, que sirve como un importante banco de pruebas para la IA y podría impactar la investigación científica si continúa avanzando. Mediante la escalabilidad del razonamiento con aprendizaje por refuerzo que premia respuestas finales correctas, los LLM han evolucionado de un rendimiento deficiente a saturar competencias de razonamiento cuantitativo como AIME y HMMT en un año. Sin embargo, este enfoque enfrenta limitaciones fundamentales. Buscar una mayor precisión en las respuestas finales no aborda un problema clave: las respuestas correctas no garantizan un razonamiento correcto. Además, muchas tareas matemáticas como la demostración de teoremas requieren una derivación rigurosa paso a paso en lugar de respuestas numéricas, haciendo inaplicables las recompensas por respuestas finales. Para superar los límites del razonamiento profundo, creemos necesario verificar la exhaustividad y el rigor del razonamiento matemático. La autoverificación es particularmente importante para escalar el cómputo en tiempo de prueba, especialmente para problemas abiertos sin soluciones conocidas. Hacia un razonamiento matemático autoverificable, investigamos cómo entrenar un verificador preciso y fiel basado en LLM para demostración de teoremas. Luego entrenamos un generador de demostraciones utilizando el verificador como modelo de recompensa, incentivando al generador a identificar y resolver tantos problemas como sea posible en sus propias demostraciones antes de finalizarlas. Para mantener la brecha generación-verificación a medida que el generador se fortalece, proponemos escalar el cómputo de verificación para etiquetar automáticamente nuevas demostraciones difíciles de verificar, creando datos de entrenamiento para mejorar aún más el verificador. Nuestro modelo resultante, DeepSeekMath-V2, demuestra sólidas capacidades para demostrar teoremas, alcanzando puntuaciones de nivel oro en la IMO 2025 y CMO 2024 y un casi perfecto 118/120 en el Putnam 2024 con cómputo escalado en tiempo de prueba.
Los modelos de difusión enfrentan una disyuntiva fundamental entre la calidad de generación y la eficiencia computacional. Los Modelos de Difusión Latente (LDM) ofrecen una solución eficiente pero adolecen de una potencial pérdida de información y de un entrenamiento no extremo a extremo. En contraste, los modelos existentes en el espacio de píxeles evitan el uso de VAEs pero son computacionalmente prohibitivos para la síntesis de alta resolución. Para resolver este dilema, proponemos DiP, un marco de difusión eficiente en el espacio de píxeles. DiP desacopla la generación en una etapa global y una local: una columna vertebral de Transformador de Difusión (DiT) opera sobre parches grandes para una construcción eficiente de la estructura global, mientras que una Cabezal Detallador de Parches ligero, entrenado conjuntamente, aprovecha las características contextuales para restaurar los detalles locales finos. Este diseño sinérgico logra una eficiencia computacional comparable a la de los LDMs sin depender de un VAE. DiP se logra con velocidades de inferencia hasta 10 veces más rápidas que el método anterior mientras aumenta el número total de parámetros en solo un 0.3%, y alcanza un puntaje FID de 1.79 en ImageNet 256x256.
Para construir un modelo generalizable de Visión-Lenguaje-Acción (VLA) con una fuerte capacidad de razonamiento, una estrategia común es primero entrenar un VLA especialista en demostraciones robóticas para adquirir habilidades de manipulación confiables, y luego incorporar datos robóticos anotados mixtos junto con datos multimodales para restaurar capacidades de razonamiento más amplias. Sin embargo, observamos que el VLA de razonamiento resultante a menudo sufre un rendimiento de acción degradado en comparación con el modelo especialista antes del ajuste fino, un fenómeno que denominamos degeneración de la acción. Para abordar este problema, proponemos DualVLA, que mejora el rendimiento de la acción mediante un post-entrenamiento cuidadosamente diseñado mientras preserva la capacidad de razonamiento. Primero introducimos un método de poda de datos de doble capa que elimina el razonamiento corporeizado redundante, evitando que influya negativamente en el aprendizaje de la acción. Para fortalecer aún más la generación de acciones, diseñamos una estrategia de destilación adaptativa de doble profesor que asigna diferentes señales de supervisión a diferentes dominios de datos mientras mantiene la capacidad de razonamiento. Para llenar el vacío de evaluación para VLAs generalistas, también proponemos VLA Score, que desacopla la capacidad VLA en dimensiones de razonamiento, intención, acción y alineación para una evaluación más detallada. Los experimentos muestran que DualVLA logra una tasa de éxito promedio de 61.0 en SimplerEnv y una puntuación promedio de 65.4 en ocho puntos de referencia multimodales competitivos, demostrando un equilibrio más fuerte entre la ejecución de acciones precisas y la comprensión multimodal. Sitio web del proyecto: https://costaliya.github.io/DualVLA/.
Presentamos los modelos de flujo adversarial, una clase de modelos generativos que unifica los modelos adversariales y los modelos de flujo. Nuestro método permite la generación nativa en una sola etapa o en múltiples etapas y se entrena utilizando el objetivo adversarial. A diferencia de los GAN tradicionales, donde el generador aprende un plan de transporte arbitrario entre las distribuciones de ruido y datos, nuestro generador aprende un mapeo determinístico de ruido a datos, que es el mismo transporte óptimo que en los modelos de *flow-matching*. Esto estabiliza significativamente el entrenamiento adversarial. Además, a diferencia de los métodos basados en consistencia, nuestro modelo aprende directamente la generación en una o pocas etapas sin necesidad de aprender los pasos intermedios del flujo de probabilidad para la propagación. Esto ahorra capacidad del modelo, reduce las iteraciones de entrenamiento y evita la acumulación de errores. Bajo la misma configuración de 1NFE en ImageNet-256px, nuestro modelo B/2 se acerca al rendimiento de los modelos basados en consistencia XL/2, mientras que nuestro modelo XL/2 establece un nuevo récord de FID de 2.38. Además, demostramos la posibilidad de entrenar modelos de 56 y 112 capas de extremo a extremo mediante repetición de profundidad sin ninguna supervisión intermedia, y logramos FIDs de 2.08 y 1.94 utilizando una sola pasada hacia adelante, superando a sus contrapartes de 2NFE y 4NFE.
Este trabajo explora el desafío de construir "Máquinas que Pueden Recordar", enmarcando la memoria a largo plazo como el problema del modelado eficiente de contextos ultralargos. Sostenemos que esto requiere tres propiedades clave: dispersión (sparsity), flexibilidad de acceso aleatorio y generalización de longitud. Para abordar el modelado de contextos ultralargos, aprovechamos la Atención Dispersa Jerárquica (HSA), un novedoso mecanismo de atención que satisface las tres propiedades. Integramos HSA en Transformers para construir HSA-UltraLong, un modelo MoE de 8B parámetros entrenado con más de 8 billones de tokens y evaluado rigurosamente en diferentes tareas con longitudes de contexto dentro y fuera del dominio, demostrando su capacidad para manejar contextos ultralargos. Los resultados muestran que nuestro modelo tiene un rendimiento comparable a los modelos de referencia con atención completa en longitudes dentro del dominio, mientras alcanza más del 90% de precisión en la mayoría de las tareas de recuperación en contexto con extensiones de hasta 16M tokens. Este informe describe nuestras conclusiones experimentales y problemas abiertos, contribuyendo con una base para futuras investigaciones en modelado de contextos ultralargos.
La destilación de modelos de difusión ha surgido como una técnica poderosa para crear generadores eficientes de pocos pasos y de un solo paso. Entre estos, la Destilación por Correspondencia de Distribuciones (DMD) y sus variantes destacan por su impresionante rendimiento, el cual se atribuye ampliamente a su mecanismo central de hacer coincidir la distribución de salida del estudiante con la de un modelo profesor preentrenado. En este trabajo, cuestionamos esta comprensión convencional. Mediante una descomposición rigurosa del objetivo de entrenamiento de DMD, revelamos que en tareas complejas como la generación de texto a imagen, donde típicamente se requiere CFG para un rendimiento deseable en pocos pasos, el principal impulsor de la destilación de pocos pasos no es la correspondencia de distribuciones, sino un componente previamente pasado por alto que identificamos como Aumento de CFG (CA). Demostramos que este término actúa como el "motor" central de la destilación, mientras que el término de Correspondencia de Distribuciones (DM) funciona como un "regularizador" que garantiza la estabilidad del entrenamiento y mitiga artefactos. Validamos aún más este desacoplamiento demostrando que, si bien el término DM es un regularizador altamente efectivo, no es único; restricciones no paramétricas más simples u objetivos basados en GAN pueden cumplir la misma función estabilizadora, aunque con diferentes compensaciones. Este desacoplamiento de funciones motiva un análisis más fundamentado de las propiedades de ambos términos, conduciendo a una comprensión más sistemática y profunda. Esta nueva comprensión nos permite además proponer modificaciones fundamentadas al proceso de destilación, como desacoplar los programas de ruido para el motor y el regularizador, lo que conduce a ganancias adicionales de rendimiento. Cabe destacar que nuestro método ha sido adoptado por el proyecto Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) para desarrollar un modelo de generación de imágenes de primer nivel en 8 pasos, validando empíricamente la generalización y robustez de nuestros hallazgos.
¿Pueden los modelos de lenguaje (LM) autorrefinar sus propias respuestas? Esta pregunta es cada vez más relevante ya que una amplia gama de interacciones con usuarios del mundo real implica solicitudes de refinamiento. Sin embargo, estudios previos han evaluado principalmente las capacidades de refinamiento de los LM en tareas verificables, como matemáticas de competición o razonamiento simbólico con andamiajes simplificados, mientras que los usuarios a menudo plantean consultas abiertas y proporcionan distintos grados de retroalimentación sobre lo que desean. La reciente aparición de modelos de razonamiento que exhiben patrones de autorreflexión en sus cadenas de pensamiento motiva aún más esta cuestión. Para analizarlo, presentamos RefineBench, un benchmark de 1.000 problemas desafiantes en 11 dominios, junto con un marco de evaluación basado en listas de verificación. Evaluamos dos modos de refinamiento: (1) refinamiento guiado, donde se proporciona retroalimentación en lenguaje natural a un LM, y (2) autorrefinamiento, donde los LM intentan mejorar sin guía. En el entorno de autorrefinamiento, incluso LM de vanguardia como Gemini 2.5 Pro y GPT-5 obtienen puntuaciones de referencia modestas del 31.3% y 29.1%, respectivamente, y la mayoría de los modelos no logran mejorar consistentemente entre iteraciones (por ejemplo, Gemini-2.5-Pro gana solo +1.8%, mientras que DeepSeek-R1 disminuye -0.1%). Por el contrario, en el refinamiento guiado, tanto los LM propietarios como los LM de gran tamaño de peso abierto (>70B) pueden aprovechar la retroalimentación específica para refinar las respuestas hasta niveles casi perfectos en cinco turnos. Estos hallazgos sugieren que los LM de vanguardia requieren avances fundamentales para autorrefinar sus respuestas incorrectas, y que RefineBench proporciona un banco de pruebas valioso para rastrear el progreso.
El despliegue eficiente de pequeños modelos de lenguaje (SLM) es esencial para numerosas aplicaciones del mundo real con restricciones estrictas de latencia. Si bien trabajos previos sobre el diseño de SLM se han centrado principalmente en reducir el número de parámetros para lograr SLM óptimos en parámetros, la eficiencia de parámetros no necesariamente se traduce en aceleraciones proporcionales en dispositivos reales. Este trabajo tiene como objetivo identificar los determinantes clave de la latencia de los SLM en dispositivos reales y ofrecer principios y metodologías generalizables para el diseño y entrenamiento de SLM cuando la latencia en dispositivo real es la consideración principal. Específicamente, identificamos dos factores arquitectónicos centrales: las relaciones profundidad-anchura y las elecciones de operadores. El primero es crucial para la latencia con tamaños de lote pequeños, mientras que el segundo afecta tanto a la latencia como al rendimiento con tamaños de lote grandes. En vista de esto, primero estudiamos las relaciones profundidad-anchura óptimas para latencia, con el hallazgo clave de que, aunque los modelos profundos y delgados generalmente logran una mejor precisión bajo el mismo presupuesto de parámetros, pueden no estar en la frontera de equilibrio precisión-latencia. A continuación, exploramos alternativas emergentes de atención eficiente para evaluar su potencial como operadores básicos candidatos. Utilizando los operadores prometedores identificados, construimos un marco de búsqueda evolutiva para descubrir automáticamente combinaciones óptimas de latencia de estos operadores dentro de SLM híbridos, avanzando así en la frontera precisión-latencia. Además de las mejoras arquitectónicas, mejoramos aún más el entrenamiento de SLM utilizando una técnica de normalización de pesos que permite actualizaciones de pesos más efectivas y mejora la convergencia final. Combinando estos métodos, presentamos una nueva familia de SLM híbridos, llamada Nemotron-Flash, que avanza significativamente la frontera precisión-eficiencia de los SLM más avanzados, por ejemplo, logrando más de +5.5% de precisión promedio, 1.3x/1.9x menor latencia y 18.7x/45.6x mayor rendimiento en comparación con Qwen3-1.7B/0.6B, respectivamente.
Los motores de mundo buscan sintetizar videos largos y 3D-consistentes que permitan la exploración interactiva de una escena bajo movimientos de cámara controlados por el usuario. Sin embargo, los sistemas existentes tienen dificultades con trayectorias agresivas de 6 grados de libertad y diseños complejos en exteriores: pierden coherencia geométrica a larga distancia, se desvían de la trayectoria objetivo o colapsan en movimientos excesivamente conservadores. Para abordar esto, presentamos Captain Safari, un motor de mundo condicionado por pose que genera videos recuperando información de una memoria mundial persistente. Dada una trayectoria de cámara, nuestro método mantiene una memoria local dinámica y utiliza un recuperador para obtener tokens mundiales alineados con la pose, los cuales condicionan luego la generación de video a lo largo de la trayectoria. Este diseño permite al modelo mantener una estructura 3D estable mientras ejecuta con precisión maniobras de cámara desafiantes. Para evaluar este escenario, hemos creado OpenSafari, un nuevo conjunto de datos FPV en entornos naturales que contiene videos dinámicos de drones con trayectorias de cámara verificadas, construido mediante una canalización de validación geométrica y cinemática en múltiples etapas. En cuanto a calidad de video, consistencia 3D y seguimiento de trayectoria, Captain Safari supera sustancialmente a los generadores controlados por cámara más avanzados. Reduce MEt3R de 0.3703 a 0.3690, mejora AUC@30 de 0.181 a 0.200 y produce un FVD significativamente menor que todas las líneas base controladas por cámara. Más importante aún, en un estudio humano con 50 participantes y 5 opciones, donde los anotadores seleccionan el mejor resultado entre cinco modelos anónimos, el 67.6% de las preferencias favorecen a nuestro método en todos los ejes. Nuestros resultados demuestran que la memoria mundial condicionada por pose es un mecanismo poderoso para la generación de video controlable a largo plazo y ofrecemos OpenSafari como un nuevo y desafiante punto de referencia para la futura investigación en motores de mundo.
En un mundo globalizado, los elementos culturales de diversos orígenes aparecen frecuentemente juntos en una misma escena visual. Nos referimos a estos como escenarios de mezcla cultural, pero la forma en que los Modelos Grandes de Visión y Lenguaje (LVLM, por sus siglas en inglés) los perciben sigue siendo un área poco explorada. Investigamos la mezcla cultural como un desafío crítico para los LVLM y examinamos cómo se comportan los modelos actuales cuando aparecen juntos elementos culturales de múltiples regiones. Para analizar sistemáticamente estos comportamientos, construimos CultureMix, un benchmark de Respuesta Visual a Preguntas (VQA) sobre comida con 23k imágenes de mezcla cultural generadas por difusión y verificadas por humanos, que abarca cuatro subtareas: (1) solo comida, (2) comida+comida, (3) comida+fondo y (4) comida+comida+fondo. Al evaluar 10 LVLM, encontramos fallos consistentes para preservar las identidades culturales individuales en entornos mixtos. Los modelos muestran una fuerte dependencia del fondo, con una precisión que cae un 14% cuando se añaden fondos culturales a las líneas base de solo comida, y producen predicciones inconsistentes para comidas idénticas en diferentes contextos. Para abordar estas limitaciones, exploramos tres estrategias de robustez. Encontramos que el ajuste fino supervisado utilizando un conjunto de datos diverso de mezcla cultural mejora sustancialmente la consistencia del modelo y reduce la sensibilidad al fondo. Hacemos un llamado para prestar mayor atención a los escenarios de mezcla cultural como un paso crítico hacia el desarrollo de LVLM capaces de operar de manera confiable en entornos reales culturalmente diversos.
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han exhibido un inmenso potencial en numerosas especialidades médicas; sin embargo, la odontología sigue siendo un área poco explorada, en parte debido a la limitada cantidad de datos específicos del dominio, la escasez de anotaciones realizadas por expertos dentales, el modelado insuficiente para modalidades específicas y los desafíos en cuanto a la fiabilidad. En este artículo, presentamos OralGPT-Omni, el primer MLLM especializado en odontología diseñado para un análisis integral y confiable a través de diversas modalidades de imagen dental y tareas clínicas. Para capturar explícitamente el razonamiento diagnóstico de los odontólogos, construimos TRACE-CoT, un conjunto de datos de cadena de pensamiento basado en la práctica clínica que refleja los procesos de toma de decisiones de los radiólogos dentales. Esta supervisión del razonamiento, combinada con nuestro paradigma de entrenamiento de cuatro etapas propuesto, fortalece sustancialmente la capacidad del modelo para la comprensión y el análisis de imágenes dentales. Paralelamente, presentamos MMOral-Uni, el primer benchmark multimodal unificado para el análisis de imágenes dentales. Este comprende 2.809 pares de preguntas y respuestas de respuesta abierta que abarcan cinco modalidades y cinco tareas, ofreciendo la suite de evaluación más completa hasta la fecha para los MLLMs en odontología digital. OralGPT-Omni alcanza una puntuación general de 51.84 en el benchmark MMOral-Uni y de 45.31 en el benchmark MMOral-OPG, superando drásticamente las puntuaciones de GPT-4V. Nuestro trabajo promueve la odontología inteligente y allana el camino para futuros avances en el análisis de imágenes dentales. Todo el código, los benchmarks y los modelos se pondrán a disposición del público.
La observación de ciertos parches en una imagen reduce la incertidumbre de otros. Su realización disminuye la entropía de la distribución de cada característica de parche restante, de manera análoga al colapso de la función de onda de una partícula en mecánica cuántica. Este fenómeno puede denominarse intuitivamente como colapso de parches. Para identificar qué parches son más determinantes durante el colapso de una región objetivo, entrenamos un autocodificador que selecciona suavemente un subconjunto de parches para reconstruir cada parche objetivo. Al graficar estas dependencias aprendidas para la puntuación PageRank de cada parche, se revela el orden óptimo de realización de una imagen. Demostramos que respetar este orden beneficia a varios métodos de modelado de imágenes enmascaradas. Primero, la generación autoregresiva de imágenes puede potenciarse reentrenando el modelo de vanguardia MAR. A continuación, introducimos una nueva configuración para clasificación de imágenes exponiendo a los Vision Transformers únicamente a parches de alto rango en el orden de colapso. Visualizar solo un 22% de estos parches es suficiente para alcanzar alta precisión. Con estos experimentos, proponemos el colapso de parches como una perspectiva novedosa de modelado de imágenes que promueve la eficiencia en visión por computador. Nuestro proyecto está disponible en https://github.com/wguo-ai/CoP.
Los modelos de lenguaje grandes más recientes logran un sólido rendimiento en razonamiento mediante la generación de trazas detalladas de pensamiento en cadena (chain-of-thought), pero esto a menudo conduce a un uso excesivo de tokens y a una alta latencia en la inferencia. Los enfoques de eficiencia existentes suelen centrarse en intervenciones de tipo modelo, como el aprendizaje por refuerzo o el ajuste fino supervisado, para reducir la verbosidad. En contraste, proponemos un enfoque centrado en la entrada y que no requiere entrenamiento. Inspirados por la psicología cognitiva, presentamos el Pensamiento en Cadena Enfocado (F-CoT), que separa la extracción de información del proceso de razonamiento. F-CoT organiza primero la información esencial de una consulta en un contexto estructurado y conciso, y luego guía al modelo para que razone exclusivamente sobre este contexto. Al evitar la atención a detalles irrelevantes, F-CoT produce naturalmente trayectorias de razonamiento más cortas. En problemas aritméticos de enunciado verbal, F-CoT reduce los tokens generados entre 2 y 3 veces, manteniendo una precisión comparable al CoT estándar de cero disparos. Estos resultados destacan la entrada estructurada como una palanca simple pero efectiva para un razonamiento más eficiente en los LLM.
Los pies de foto sirven como sustitutos eficientes del contenido visual en sistemas multimodales como la recuperación de información, la recomendación y las canalizaciones de inferencia agentiva de múltiples pasos. Sin embargo, las prácticas de evaluación actuales pasan por alto una pregunta fundamental: ¿Pueden los pies de foto sustituir a las imágenes en tareas descendentes reales? Proponemos un benchmark basado en la utilidad, CaptionQA, para evaluar los pies de foto generados por modelos, donde la calidad del pie de foto se mide por cómo de bien respalda las tareas descendentes. CaptionQA es un benchmark extensible y dependiente del dominio que cubre 4 dominios—Natural, Documentos, Comercio Electrónico e IA Encarnada—cada uno con taxonomías de grano fino (25 categorías principales y 69 subcategorías) que identifican información útil para tareas específicas del dominio. CaptionQA construye 33.027 preguntas de opción múltiple anotadas densamente (50,3 por imagen de media) que requieren explícitamente información visual para responderse, proporcionando una sonda exhaustiva de la utilidad del pie de foto. En nuestro protocolo de evaluación, un LLM responde estas preguntas utilizando únicamente pies de foto, midiendo directamente si los pies de foto preservan la utilidad a nivel de imagen y son utilizables por un LLM descendente. La evaluación de MLLMs de vanguardia revela brechas sustanciales entre la utilidad de la imagen y la de su pie de foto. Notablemente, modelos casi idénticos en benchmarks tradicionales de pregunta-respuesta sobre imágenes disminuyen hasta un 32% en utilidad del pie de foto. Publicamos CaptionQA junto con una canalización de código abierto para su extensión a nuevos dominios. El código está disponible en https://github.com/bronyayang/CaptionQA.
Una receta común para mejorar los modelos de difusión en tiempo de prueba, de modo que las muestras obtengan puntuaciones altas según una recompensa especificada por el usuario, es introducir el gradiente de la recompensa en la dinámica de la propia difusión. Este procedimiento suele estar mal planteado, ya que las recompensas especificadas por el usuario generalmente solo están bien definidas en la distribución de datos al final de la generación. Si bien las soluciones habituales a este problema consisten en utilizar un desruidosor para estimar cómo habría sido una muestra al final de la generación, nosotros proponemos una solución simple trabajando directamente con un mapa de flujo. Al explotar una relación entre el mapa de flujo y el campo de velocidad que gobierna el transporte instantáneo, construimos un algoritmo, Inclinación de Trayectoria por Mapa de Flujo (FMTT, por sus siglas en inglés), que demuestrablemente realiza un ascenso mejor sobre la recompensa que los métodos estándar de tiempo de prueba que involucran el gradiente de la recompensa. El enfoque puede utilizarse para realizar un muestreo exacto mediante ponderación por importancia o una búsqueda fundamentada que identifique maximizadores locales de la distribución sesgada por la recompensa. Demostramos la eficacia de nuestro enfoque frente a otras técnicas de anticipación y mostramos cómo el mapa de flujo permite interactuar con funciones de recompensa complejas que posibilitan nuevas formas de edición de imágenes, por ejemplo, mediante la interfaz con modelos de lenguaje visual.
Los modelos de lenguaje grandes multimodales (MLLMs) se despliegan cada vez más en entornos del mundo real con capacidad de agencia, donde las salidas no solo deben ser correctas, sino también ajustarse a esquemas de datos predefinidos. A pesar de los recientes avances en la generación estructurada en el dominio textual, aún no existe un punto de referencia que evalúe sistemáticamente la extracción de información y el razonamiento basados en esquemas sobre entradas visuales. En este trabajo, realizamos un estudio exhaustivo de las capacidades de salida estructural visual para MLLMs con nuestro benchmark SO-Bench, cuidadosamente diseñado. Abarcando cuatro dominios visuales, incluyendo pantallas de interfaz de usuario, imágenes naturales, documentos y gráficos, SO-Bench se construye a partir de más de 6.500 esquemas JSON diversos y 1.800 pares imagen-esquema seleccionados con calidad verificada por humanos. Los experimentos de evaluación comparativa en modelos de código abierto y modelos propietarios de vanguardia revelan brechas persistentes en la predicción de salidas precisas y conformes al esquema, destacando la necesidad de un mejor razonamiento estructurado multimodal. Más allá de la evaluación comparativa, realizamos además experimentos de entrenamiento para mejorar sustancialmente la capacidad de salida estructurada del modelo. Planeamos poner el benchmark a disposición de la comunidad.
Presentamos Split-then-Merge (StM), un marco novedoso diseñado para mejorar el control en la composición generativa de vídeos y abordar su problema de escasez de datos. A diferencia de los métodos convencionales que dependen de conjuntos de datos anotados o reglas hechas a mano, StM divide un gran corpus de vídeos no etiquetados en capas dinámicas de primer plano y fondo, para luego auto-componerlas y aprender cómo los sujetos dinámicos interactúan con escenas diversas. Este proceso permite que el modelo aprenda la dinámica compositiva compleja requerida para la generación realista de vídeos. StM introduce un novedoso pipeline de entrenamiento consciente de la transformación que utiliza una fusión y aumento multicapa para lograr una composición consciente de la affordance, junto con una función de pérdida de preservación de identidad que mantiene la fidelidad del primer plano durante la mezcla. Los experimentos muestran que StM supera a los métodos estado del arte tanto en benchmarks cuantitativos como en evaluaciones cualitativas basadas en humanos y modelos de lenguaje grandes (VLLM). Más detalles están disponibles en nuestra página del proyecto: https://split-then-merge.github.io.
Si bien los Modelos de Lenguaje Grandes Multimodales (MLLMs) son expertos en responder qué hay en una imagen —identificando objetos y describiendo escenas—, a menudo carecen de la capacidad de comprender cómo se siente una imagen para un observador humano. Esta brecha es más evidente al considerar propiedades cognitivas subjetivas, como qué hace que una imagen sea memorable, divertida, estéticamente agradable o emocionalmente evocadora. Para abordar este desafío de manera sistemática, presentamos CogIP-Bench, un benchmark integral para evaluar MLLMs en dichas propiedades cognitivas de las imágenes. Nuestra evaluación revela una brecha significativa: los modelos actuales están pobremente alineados con la percepción humana de estas propiedades matizadas. Luego demostramos que una fase de post-entrenamiento puede cerrar esta brecha de manera efectiva, mejorando significativamente la alineación del modelo con los juicios humanos. Además, mostramos que esta alineación cognitiva aprendida no es meramente predictiva, sino también transferible a tareas creativas posteriores. Al integrar nuestro MLLM cognitivamente alineado en un pipeline de generación de imágenes, podemos guiar el proceso de síntesis para producir imágenes que encarnen mejor los rasgos deseados, como ser más memorables o visualmente atractivas. Nuestro trabajo proporciona un benchmark para medir esta percepción similar a la humana, un pipeline de post-entrenamiento para mejorarla, y una demostración de que esta alineación permite una IA más centrada en las personas.
La generación de imágenes guiada por referencia ha progresado rápidamente; sin embargo, los modelos de difusión actuales aún tienen dificultades para preservar detalles visuales de grano fino al refinar una imagen generada utilizando una referencia. Esta limitación surge porque la compresión latente basada en VAE descarta inherentemente información de textura sutil, haciendo que desaparezcan las claves específicas de identidad y atributos. Además, los enfoques de pos-edición que amplifican los detalles locales basados en métodos existentes a menudo producen resultados inconsistentes con la imagen original en términos de iluminación, textura o forma. Para abordar esto, presentamos , un marco de refinamiento consciente de los detalles que realiza dos etapas consecutivas de corrección impulsada por referencia para mejorar la consistencia a nivel de píxel. Primero adaptamos un editor de difusión de imagen única afinándolo para que ingiera conjuntamente la imagen borrador y la imagen de referencia, permitiendo un refinamiento globalmente coherente mientras mantiene la fidelidad estructural. Luego aplicamos aprendizaje por refuerzo para fortalecer aún más la capacidad de edición localizada, optimizando explícitamente para la precisión de detalles y la consistencia semántica. Experimentos extensivos demuestran que mejora significativamente la alineación con la referencia y la preservación de detalles de grano fino, produciendo ediciones fieles y visualmente coherentes que superan tanto a modelos de código abierto como comerciales en benchmarks desafiantes de restauración guiada por referencia.
Este artículo presenta un novedoso marco de Mezcla de Expertos para la detección de objetos, incorporando un enrutamiento adaptativo entre múltiples expertos YOLOv9-T que permite una especialización dinámica de características y logra una mayor Precisión Media (mAP) y Recall Medio (AR) en comparación con un modelo único YOLOv9-T.
Los modelos de difusión han logrado una calidad generativa impresionante en diversas modalidades como imágenes 2D, vídeos y formas 3D, pero su inferencia sigue siendo computacionalmente costosa debido al proceso iterativo de eliminación de ruido. Si bien los métodos recientes basados en caché reutilizan eficazmente cálculos redundantes para acelerar la generación de contenido 2D y de vídeo, la aplicación directa de estas técnicas a los modelos de difusión 3D puede alterar gravemente la coherencia geométrica. En la síntesis 3D, incluso pequeños errores numéricos en las características latentes almacenadas en caché se acumulan, provocando artefactos estructurales e inconsistencias topológicas. Para superar esta limitación, proponemos Fast3Dcache, un marco de almacenamiento en caché consciente de la geometría que no requiere entrenamiento y acelera la inferencia de difusión 3D preservando la fidelidad geométrica. Nuestro método introduce una Restricción de Planificación de Caché Predictiva (PCSC) para determinar dinámicamente las cuotas de caché según los patrones de estabilización de vóxeles y un Criterio de Estabilidad Espaciotemporal (SSC) para seleccionar características estables para su reutilización basándose en la magnitud de velocidad y un criterio de aceleración. Experimentos exhaustivos demuestran que Fast3Dcache acelera significativamente la inferencia, logrando hasta un 27.12% de aceleración y una reducción del 54.8% en FLOPS, con una degradación mínima de la calidad geométrica medida mediante la Distancia de Chamfer (2.48%) y F-Score (1.95%).
Abordamos el desafío de detectar anomalías raras y diversas en videos de vigilancia utilizando únicamente supervisión a nivel de video. Nuestro marco de doble arquitectura combina representaciones convolucionales y de transformadores mediante agrupación top-k, logrando un 90.7% de área bajo la curva (AUC) en el conjunto de datos UCF-Crime.
La resonancia magnética (RM) de alta resolución (AR) es crucial para muchas aplicaciones clínicas y de investigación. Sin embargo, lograrla sigue siendo costosa y está limitada por compensaciones técnicas y limitaciones experimentales. La superresolución (SR) representa un enfoque computacional prometedor para superar estos desafíos mediante la generación de imágenes AR a partir de exploraciones de baja resolución (BR) más asequibles, lo que podría mejorar la precisión y eficiencia diagnósticas sin requerir hardware adicional. Esta revisión examina los avances recientes en técnicas de SR para RM, con especial atención a los enfoques de aprendizaje profundo (AP). Analiza los métodos de SR para RM basados en AP desde las perspectivas de la visión por computador, la imagen computacional, los problemas inversos y la física de la RM, cubriendo fundamentos teóricos, diseños arquitectónicos, estrategias de aprendizaje, conjuntos de datos de referencia y métricas de rendimiento. Proponemos una taxonomía sistemática para categorizar estos métodos y presentamos un estudio en profundidad de técnicas de SR tanto consolidadas como emergentes aplicables a la RM, considerando los desafíos únicos en contextos clínicos y de investigación. También destacamos desafíos abiertos y direcciones que la comunidad necesita abordar. Adicionalmente, proporcionamos una colección de recursos esenciales de acceso abierto, herramientas y tutoriales, disponibles en nuestro GitHub: https://github.com/mkhateri/Awesome-MRI-Super-Resolution. Palabras clave IEEE: RM, Superresolución, Aprendizaje Profundo, Imagen Computacional, Problema Inverso, Revisión.
Proponemos una estrategia de selección de fotogramas basada en agrupamiento para mitigar la filtración de información en conjuntos de datos derivados de vídeo. Al agrupar fotogramas visualmente similares antes de dividirlos en conjuntos de entrenamiento, validación y prueba, el método genera particiones de datos más representativas, equilibradas y fiables.
El aprendizaje federado (FL) permite el entrenamiento colaborativo entre clientes sin comprometer la privacidad. Si bien la mayoría de los métodos de FL existentes asumen arquitecturas de modelo homogéneas, la heterogeneidad de los clientes en datos y recursos hace que este supuesto sea poco práctico, lo que motiva el FL con modelos heterogéneos. Para abordar este problema, proponemos Federated Representation Entanglement (FedRE), un marco basado en una forma novedosa de conocimiento del cliente denominada representación entrelazada. En FedRE, cada cliente agrega sus representaciones locales en una única representación entrelazada utilizando pesos aleatorios normalizados y aplica los mismos pesos para integrar las codificaciones de etiquetas one-hot correspondientes en la codificación de etiqueta entrelazada. Estos se cargan luego al servidor para entrenar un clasificador global. Durante el entrenamiento, cada representación entrelazada se supervisa entre categorías mediante su codificación de etiqueta entrelazada, mientras que los pesos aleatorios se remuestrean en cada ronda para introducir diversidad, mitigando el exceso de confianza del clasificador global y promoviendo límites de decisión más suaves. Además, cada cliente carga una única representación entrelazada entre categorías junto con su codificación de etiqueta entrelazada, mitigando el riesgo de ataques de inversión de representación y reduciendo la sobrecarga de comunicación. Experimentos exhaustivos demuestran que FedRE logra un equilibrio efectivo entre el rendimiento del modelo, la protección de la privacidad y la sobrecarga de comunicación. Los códigos están disponibles en https://github.com/AIResearch-Group/FedRE.