Artículos de investigación en IA seleccionados diariamente con traducciones
Este artículo presenta la Optimización de Política de Secuencia Grupal (GSPO, por sus siglas en inglés), nuestro algoritmo de aprendizaje por refuerzo estable, eficiente y de alto rendimiento para entrenar modelos de lenguaje a gran escala. A diferencia de algoritmos previos que adoptan ratios de importancia a nivel de token, GSPO define el ratio de importancia basado en la probabilidad de secuencia y realiza recorte, recompensa y optimización a nivel de secuencia. Demostramos que GSPO logra una eficiencia y rendimiento superiores en el entrenamiento en comparación con el algoritmo GRPO, estabiliza notablemente el entrenamiento de refuerzo en Mezcla de Expertos (MoE) y tiene el potencial de simplificar el diseño de la infraestructura de aprendizaje por refuerzo. Estas ventajas de GSPO han contribuido a las mejoras significativas en los últimos modelos Qwen3.
Los recientes avances en arquitecturas basadas en transformadores han demostrado un éxito notable en tareas de generación de videos. Sin embargo, la complejidad cuadrática de los mecanismos de atención completa sigue siendo un cuello de botella crítico, especialmente para secuencias de video de alta resolución y larga duración. En este artículo, proponemos NABLA, un novedoso mecanismo de Atención Adaptativa a Nivel de Bloque basado en Vecindarios que se adapta dinámicamente a los patrones de dispersión en transformadores de difusión de video (DiTs). Al aprovechar la atención por bloques con un umbral adaptativo basado en dispersión, NABLA reduce la sobrecarga computacional mientras preserva la calidad generativa. Nuestro método no requiere un diseño personalizado de operadores de bajo nivel y puede integrarse sin problemas con el operador Flex Attention de PyTorch. Los experimentos demuestran que NABLA logra hasta 2.7 veces más rapidez en el entrenamiento y la inferencia en comparación con la línea base, casi sin comprometer las métricas cuantitativas (puntuación CLIP, puntuación VBench, puntuación de evaluación humana) ni la calidad visual. El código y los pesos del modelo están disponibles aquí: https://github.com/gen-ai-team/Wan2.1-NABLA.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado un rendimiento impresionante en tareas que requieren razonamiento intensivo, aunque optimizar su eficiencia en el razonamiento sigue siendo un desafío abierto. Si bien el Escalado en Tiempo de Prueba (TTS, por sus siglas en inglés) mejora la calidad del razonamiento, a menudo conduce a un sobrepensamiento, desperdiciando tokens en cálculos redundantes. Este trabajo investiga cómo guiar de manera eficiente y adaptativa el escalado en tiempo de prueba de los LLMs sin necesidad de entrenamiento adicional. Inspirados por el concepto de momento en física, proponemos el Razonamiento Guiado por Incertidumbre de Momento (MUR, por sus siglas en inglés), que asigna dinámicamente presupuestos de pensamiento a pasos críticos del razonamiento mediante el seguimiento y la agregación de la incertidumbre paso a paso a lo largo del tiempo. Para permitir un control flexible en tiempo de inferencia, introducimos el control gamma, un mecanismo simple que ajusta el presupuesto de razonamiento mediante un único hiperparámetro. Proporcionamos una prueba teórica detallada para respaldar la superioridad de MUR en términos de estabilidad y sesgos. MUR es evaluado exhaustivamente frente a varios métodos de TTS en cuatro benchmarks desafiantes (MATH-500, AIME24, AIME25 y GPQA-diamond) utilizando diferentes tamaños de los modelos recientes Qwen3 (1.7B, 4B y 8B). Los resultados demuestran que MUR reduce el cómputo en más del 50% en promedio, mientras mejora la precisión entre un 0.62% y un 3.37%.
Presentamos Captain Cinema, un marco de generación para la creación de cortometrajes. Dada una descripción textual detallada de la trama de una película, nuestro enfoque genera primero una secuencia de fotogramas clave que delinean toda la narrativa, lo que garantiza coherencia a largo plazo tanto en la trama como en la apariencia visual (por ejemplo, escenas y personajes). Nos referimos a este paso como planificación de fotogramas clave de arriba hacia abajo. Estos fotogramas clave sirven luego como señales de condicionamiento para un modelo de síntesis de video, que admite el aprendizaje de contexto largo, para producir la dinámica espacio-temporal entre ellos. Este paso se denomina síntesis de video de abajo hacia arriba. Para respaldar la generación estable y eficiente de obras cinematográficas narrativas largas con múltiples escenas, introducimos una estrategia de entrenamiento intercalado para Transformadores de Difusión Multimodal (MM-DiT), específicamente adaptada para datos de video de contexto largo. Nuestro modelo se entrena en un conjunto de datos cinematográficos especialmente curado que consta de pares de datos intercalados. Nuestros experimentos demuestran que Captain Cinema se desempeña favorablemente en la creación automatizada de cortometrajes visualmente coherentes y narrativamente consistentes con alta calidad y eficiencia. Página del proyecto: https://thecinema.ai
Los modelos de razonamiento a gran escala han logrado un rendimiento notable mediante secuencias extensas de pensamiento encadenado, sin embargo, esta libertad computacional conduce a una generación excesiva de tokens incluso para problemas simples. Presentamos la Optimización de Políticas de Longitud Adaptativa (LAPO, por sus siglas en inglés), un marco novedoso que transforma el control de la longitud del razonamiento de una restricción externa en una capacidad intrínseca del modelo. A diferencia de los enfoques existentes que imponen límites rígidos o dependen de intervenciones posteriores, LAPO permite que los modelos internalicen una comprensión de la profundidad adecuada del razonamiento a través de un proceso de aprendizaje por refuerzo en dos etapas. En la primera etapa, los modelos aprenden patrones naturales de razonamiento al descubrir la distribución estadística de las longitudes exitosas de las soluciones. La segunda etapa aprovecha estos patrones como guía metacognitiva, integrándolos directamente en el contexto de razonamiento del modelo para garantizar flexibilidad durante la inferencia. Los experimentos en benchmarks de razonamiento matemático demuestran que LAPO reduce el uso de tokens hasta en un 40,9\% mientras mejora la precisión en un 2,3\%. Nuestro análisis revela que los modelos entrenados con LAPO desarrollan habilidades emergentes para asignar recursos computacionales según la complejidad del problema, logrando un razonamiento eficiente sin sacrificar la calidad.
A pesar de los notables avances logrados por los trabajos recientes en generación 3D, escalar estos métodos a extensiones geográficas, como modelar miles de kilómetros cuadrados de la superficie terrestre, sigue siendo un desafío abierto. Abordamos esto mediante una doble innovación en infraestructura de datos y arquitectura de modelos. En primer lugar, presentamos Aerial-Earth3D, el mayor conjunto de datos aéreos 3D hasta la fecha, que consta de 50k escenas curadas (cada una de 600m x 600m) capturadas en el territorio continental de EE. UU., compuesto por 45M imágenes multi-vista de Google Earth. Cada escena proporciona imágenes multi-vista anotadas con poses, mapas de profundidad, normales, segmentación semántica y poses de cámara, con un control de calidad explícito para garantizar la diversidad del terreno. Sobre esta base, proponemos EarthCrafter, un marco personalizado para la generación 3D a gran escala de la Tierra mediante difusión latente escasa-desacoplada. Nuestra arquitectura separa la generación estructural y textural: 1) Los VAEs 3D escasos duales comprimen vóxeles geométricos de alta resolución y Splats Gaussianos 2D (2DGS) en espacios latentes compactos, aliviando en gran medida el costoso cálculo derivado de las vastas escalas geográficas mientras preservan la información crítica. 2) Proponemos modelos de emparejamiento de flujo conscientes de la condición entrenados con entradas mixtas (semántica, imágenes o ninguna) para modelar de manera flexible las características latentes de geometría y textura de forma independiente. Experimentos extensos demuestran que EarthCrafter funciona sustancialmente mejor en la generación a escala extremadamente grande. El marco además soporta aplicaciones versátiles, desde la generación de diseños urbanos guiados por semántica hasta la síntesis incondicional de terrenos, manteniendo la plausibilidad geográfica a través de nuestros ricos datos previos de Aerial-Earth3D. Nuestra página del proyecto está disponible en https://whiteinblue.github.io/earthcrafter/.
La escalabilidad de los modelos de generación visual es esencial para la creación de contenido en el mundo real, aunque requiere un entrenamiento sustancial y gastos computacionales considerables. Alternativamente, la escalabilidad en tiempo de prueba ha ganado creciente atención debido a su eficiencia en recursos y su rendimiento prometedor. En este trabajo, presentamos TTS-VAR, el primer marco general de escalabilidad en tiempo de prueba para modelos visuales auto-regresivos (VAR), modelando el proceso de generación como un problema de búsqueda de rutas. Para equilibrar dinámicamente la eficiencia computacional con la capacidad de exploración, primero introducimos un esquema adaptativo de tamaño de lote descendente a lo largo del proceso de generación causal. Además, inspirados por la generación jerárquica de múltiples escalas de grueso a fino de los modelos VAR, nuestro marco integra dos componentes clave: (i) En escalas gruesas, observamos que los tokens generados son difíciles de evaluar, lo que podría llevar a la aceptación errónea de muestras inferiores o al rechazo de muestras superiores. Al notar que las escalas gruesas contienen suficiente información estructural, proponemos una búsqueda de diversidad basada en agrupamiento. Esta preserva la variedad estructural mediante el agrupamiento de características semánticas, permitiendo una selección posterior de muestras con mayor potencial. (ii) En escalas finas, la selección de potencial basada en remuestreo prioriza candidatos prometedores utilizando puntuaciones de potencial, definidas como funciones de recompensa que incorporan el historial de generación en múltiples escalas. Los experimentos realizados con el potente modelo VAR Infinity muestran una notable mejora del 8.7% en la puntuación GenEval (de 0.69 a 0.75). Las conclusiones clave revelan que las características estructurales en etapas tempranas influyen efectivamente en la calidad final, y que la eficacia del remuestreo varía según las escalas de generación. El código está disponible en https://github.com/ali-vilab/TTS-VAR.
Los modelos de razonamiento a gran escala logran un rendimiento notable mediante la generación extensa de cadenas de pensamiento, pero exhiben una ineficiencia computacional significativa al aplicar estrategias de razonamiento uniformes independientemente de la complejidad del problema. Presentamos la Optimización de Políticas con Presupuesto Jerárquico (HBPO, por sus siglas en inglés), un marco de aprendizaje por refuerzo que permite a los modelos aprender profundidades de razonamiento específicas para cada problema sin sacrificar su capacidad. HBPO aborda el desafío fundamental del colapso del espacio de exploración en el entrenamiento orientado a la eficiencia, donde las penalizaciones por longitudes de salida largas sesgan sistemáticamente a los modelos alejándolos de las trayectorias de razonamiento largas necesarias. A través de la exploración jerárquica de presupuestos, nuestro enfoque divide las muestras de ejecución en múltiples subgrupos con distintos presupuestos de tokens, con el objetivo de permitir una asignación eficiente de recursos mientras se previene la degradación de la capacidad. Introducimos mecanismos de recompensa diferenciados que crean incentivos conscientes del presupuesto alineados con la complejidad del problema, permitiendo que los modelos descubran correspondencias naturales entre los requisitos de la tarea y el esfuerzo computacional. Experimentos exhaustivos demuestran que HBPO reduce el uso promedio de tokens hasta en un 60,6% mientras mejora la precisión en un 3,14% en cuatro benchmarks de razonamiento. A diferencia de los métodos existentes que imponen restricciones externas o dependen de la selección de modos discretos, HBPO exhibe un comportamiento adaptativo emergente donde los modelos ajustan automáticamente la profundidad de razonamiento según la complejidad del problema. Nuestros resultados sugieren que la eficiencia del razonamiento y la capacidad no son inherentemente conflictivas, y pueden optimizarse simultáneamente mediante un entrenamiento jerárquico adecuadamente estructurado que preserve la diversidad de exploración.
La extracción de información (IE) es fundamental para numerosas aplicaciones de PLN, sin embargo, las soluciones existentes a menudo requieren modelos especializados para diferentes tareas o dependen de modelos de lenguaje grandes computacionalmente costosos. Presentamos GLiNER2, un marco unificado que mejora la arquitectura original de GLiNER para admitir el reconocimiento de entidades nombradas, la clasificación de texto y la extracción de datos estructurados jerárquicos dentro de un único modelo eficiente. Construido sobre una arquitectura de codificador de transformadores preentrenados, GLiNER2 mantiene la eficiencia en CPU y un tamaño compacto, al tiempo que introduce la composición multitarea a través de una interfaz intuitiva basada en esquemas. Nuestros experimentos demuestran un rendimiento competitivo en tareas de extracción y clasificación, con mejoras sustanciales en la accesibilidad de implementación en comparación con alternativas basadas en LLM. Publicamos GLiNER2 como una biblioteca de código abierto instalable mediante pip, con modelos preentrenados y documentación en https://github.com/fastino-ai/GLiNER2.
Aprender de flujos de datos no estacionarios sujetos a deriva conceptual requiere modelos que puedan adaptarse sobre la marcha mientras mantienen la eficiencia de recursos. Los métodos de ensamble adaptativos existentes a menudo dependen de mecanismos de adaptación de grano grueso o esquemas de votación simples que no aprovechan óptimamente el conocimiento especializado. Este artículo presenta DriftMoE, una arquitectura en línea de Mezcla de Expertos (MoE, por sus siglas en inglés) que aborda estas limitaciones mediante un novedoso marco de co-entrenamiento. DriftMoE incluye un enrutador neuronal compacto que se co-entrena junto con un conjunto de expertos basados en árboles de Hoeffding incrementales. La innovación clave radica en un ciclo de aprendizaje simbiótico que permite la especialización de los expertos: el enrutador selecciona al experto más adecuado para la predicción, los expertos relevantes se actualizan incrementalmente con la etiqueta verdadera, y el enrutador refina sus parámetros utilizando una máscara de corrección multi-hot que refuerza a cada experto preciso. Este ciclo de retroalimentación proporciona al enrutador una señal de entrenamiento clara mientras acelera la especialización de los expertos. Evaluamos el rendimiento de DriftMoE en nueve benchmarks de aprendizaje de flujos de datos de última generación que abarcan derivas abruptas, graduales y del mundo real, probando dos configuraciones distintas: una donde los expertos se especializan en regímenes de datos (variante multi-clase), y otra donde se enfocan en la especialización de una sola clase (variante basada en tareas). Nuestros resultados demuestran que DriftMoE logra resultados competitivos con los ensambles adaptativos de aprendizaje de flujos más avanzados, ofreciendo un enfoque fundamentado y eficiente para la adaptación a la deriva conceptual. Todo el código, tuberías de datos y scripts de reproducibilidad están disponibles en nuestro repositorio público de GitHub: https://github.com/miguel-ceadar/drift-moe.
Presentamos la última serie de modelos TeleChat: TeleChat2, TeleChat2.5 y T1, que ofrecen una mejora significativa respecto a su predecesor, TeleChat. A pesar de los cambios mínimos en la arquitectura del modelo, la nueva serie logra avances sustanciales en el rendimiento mediante estrategias de entrenamiento mejoradas en las etapas de preentrenamiento y postentrenamiento. La serie comienza con TeleChat2, que se somete a un preentrenamiento con 10 billones de tokens de alta calidad y diversidad. Esto es seguido por un Ajuste Fino Supervisado (SFT) y una Optimización Directa de Preferencias (DPO) para mejorar aún más sus capacidades. TeleChat2.5 y T1 amplían el proceso al incorporar una fase de preentrenamiento continuo con conjuntos de datos específicos de dominio, combinado con aprendizaje por refuerzo (RL) para mejorar el rendimiento en tareas de generación de código y razonamiento matemático. La variante T1 está diseñada para razonamiento complejo, soportando cadenas largas de razonamiento (Chain-of-Thought, CoT) y demostrando mejoras sustanciales en matemáticas y codificación. En contraste, TeleChat2.5 prioriza la velocidad, ofreciendo inferencia rápida. Ambos modelos principales, T1 y TeleChat2.5, están basados en arquitecturas densas de Transformers con 115B parámetros, mostrando avances significativos en razonamiento y rendimiento general de tareas en comparación con el TeleChat original. Es notable que T1-115B supera a modelos propietarios como el o1-mini de OpenAI y GPT-4o. Publicamos TeleChat2, TeleChat2.5 y T1, incluyendo versiones postentrenadas con 35B y 115B parámetros, para empoderar a desarrolladores e investigadores con modelos de lenguaje de vanguardia adaptados para diversas aplicaciones.
Los avances recientes en la síntesis de texto a imagen se benefician en gran medida de estrategias de muestreo sofisticadas y de la guía sin clasificador (CFG, por sus siglas en inglés) para garantizar una generación de alta calidad. Sin embargo, la dependencia de CFG en dos pasadas hacia adelante, especialmente cuando se combina con algoritmos de muestreo complejos, resulta en costos de inferencia prohibitivamente altos. Para abordar este problema, presentamos TeEFusion (Fusión de Incrustaciones de Texto), un método novedoso y eficiente de destilación que incorpora directamente la magnitud de guía en las incrustaciones de texto y destila la estrategia de muestreo compleja del modelo maestro. Al fusionar simplemente las incrustaciones de texto condicionales e incondicionales mediante operaciones lineales, TeEFusion reconstruye la guía deseada sin añadir parámetros adicionales, permitiendo simultáneamente que el modelo estudiante aprenda de la salida del maestro producida a través de su enfoque de muestreo sofisticado. Experimentos exhaustivos en modelos de vanguardia como SD3 demuestran que nuestro método permite que el estudiante imite de cerca el rendimiento del maestro con una estrategia de muestreo mucho más simple y eficiente. En consecuencia, el modelo estudiante logra velocidades de inferencia hasta 6 veces más rápidas que el modelo maestro, manteniendo una calidad de imagen comparable a la obtenida mediante el enfoque de muestreo complejo del maestro. El código está disponible públicamente en https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.
Este informe documenta, describe y evalúa los nuevos modelos GloVe (Global Vectors for Word Representation) en inglés de 2024. Si bien los modelos GloVe originales construidos en 2014 han sido ampliamente utilizados y considerados útiles, los idiomas y el mundo continúan evolucionando, y consideramos que el uso actual podría beneficiarse de modelos actualizados. Además, los modelos de 2014 no estaban cuidadosamente documentados en cuanto a las versiones exactas de los datos y el preprocesamiento utilizados, y rectificamos esto documentando estos nuevos modelos. Entrenamos dos conjuntos de embeddings de palabras utilizando Wikipedia, Gigaword y un subconjunto de Dolma. La evaluación mediante comparación de vocabulario, pruebas directas y tareas de reconocimiento de entidades nombradas (NER) muestra que los vectores de 2024 incorporan palabras nuevas cultural y lingüísticamente relevantes, tienen un rendimiento comparable en tareas estructurales como analogías y similitudes, y demuestran un mejor rendimiento en conjuntos de datos NER recientes y temporalmente dependientes, como datos de noticias no occidentales.
En visión por computadora, los segmentos suelen definirse por consideraciones semánticas y dependen en gran medida de convenciones específicas de categorías. En contraste, la psicología del desarrollo sugiere que los humanos perciben el mundo en términos de objetos de Spelke: agrupaciones de elementos físicos que se mueven de manera conjunta y predecible cuando son afectados por fuerzas físicas. Los objetos de Spelke, por lo tanto, operan en relaciones causales de movimiento independientes de categorías, lo que potencialmente brinda un mejor soporte para tareas como la manipulación y la planificación. En este artículo, primero evaluamos el concepto de objeto de Spelke, presentando el conjunto de datos SpelkeBench, que contiene una amplia variedad de segmentos de Spelke bien definidos en imágenes naturales. Luego, para extraer segmentos de Spelke de imágenes de manera algorítmica, construimos SpelkeNet, una clase de modelos de mundo visual entrenados para predecir distribuciones de movimientos futuros. SpelkeNet permite estimar dos conceptos clave para el descubrimiento de objetos de Spelke: (1) el mapa de posibilidades de movimiento, que identifica regiones con probabilidad de moverse ante un "empujón", y (2) el mapa de desplazamiento esperado, que captura cómo se moverá el resto de la escena. Estos conceptos se utilizan en la "exploración contrafáctica estadística", donde se aplican diversos "empujones virtuales" en regiones con alta posibilidad de movimiento, y los mapas de desplazamiento esperado resultantes se usan para definir segmentos de Spelke como agregados estadísticos de correlaciones en el movimiento. Encontramos que SpelkeNet supera a líneas base supervisadas como SegmentAnything (SAM) en SpelkeBench. Finalmente, demostramos que el concepto de Spelke es práctico para aplicaciones posteriores, obteniendo un rendimiento superior en el benchmark 3DEditBench para la manipulación de objetos físicos cuando se utiliza en una variedad de modelos de manipulación de objetos listos para usar.
Los sistemas de conversión de texto a voz (TTS) basados en difusión han logrado avances notables en la síntesis de voz en modo zero-shot, aunque optimizar todos los componentes para métricas perceptuales sigue siendo un desafío. Trabajos previos con DMOSpeech demostraron la optimización directa de métricas para los componentes de generación de voz, pero la predicción de duración permaneció sin optimizar. Este artículo presenta DMOSpeech 2, que extiende la optimización de métricas al predictor de duración mediante un enfoque de aprendizaje por refuerzo. El sistema propuesto implementa un marco novedoso de política de duración utilizando optimización de preferencias relativas por grupos (GRPO) con similitud del hablante y tasa de error de palabras como señales de recompensa. Al optimizar este componente previamente no optimizado, DMOSpeech 2 crea una canalización de síntesis más completa con optimización de métricas. Además, este artículo introduce el muestreo guiado por un modelo maestro, un enfoque híbrido que aprovecha un modelo maestro para los pasos iniciales de eliminación de ruido antes de transicionar al modelo estudiante, mejorando significativamente la diversidad de la salida mientras mantiene la eficiencia. Evaluaciones exhaustivas demuestran un rendimiento superior en todas las métricas en comparación con sistemas anteriores, reduciendo los pasos de muestreo a la mitad sin degradación de calidad. Estos avances representan un paso significativo hacia sistemas de síntesis de voz con optimización de métricas en múltiples componentes. Las muestras de audio, el código y los modelos preentrenados están disponibles en https://dmospeech2.github.io/.
Los Modelos de Lenguaje de Gran Escala (LLMs) muestran un considerable potencial en aplicaciones financieras; sin embargo, los modelos predominantes frecuentemente presentan limitaciones al enfrentarse a escenarios que requieren capacidades de razonamiento sofisticadas, criterios estrictos de confiabilidad y una adaptación eficiente a requisitos específicos del dominio. Presentamos la serie Agentar-Fin-R1 de modelos de lenguaje de gran escala financieros (8B y 32B parámetros), específicamente diseñados a partir del modelo base Qwen3 para mejorar las capacidades de razonamiento, confiabilidad y especialización en el dominio financiero. Nuestro enfoque de optimización integra un sistema de etiquetado de tareas financieras de alta calidad y sistemático con un marco integral de garantía de confiabilidad de múltiples capas. Este marco abarca ingeniería de conocimiento confiable de alta calidad, síntesis de datos confiable multiagente y una gobernanza rigurosa de validación de datos. A través de la optimización automática guiada por etiquetas con conciencia de dificultad, una canalización de entrenamiento en dos etapas y sistemas de atribución dinámica, logramos mejoras sustanciales en la eficiencia del entrenamiento. Nuestros modelos son evaluados exhaustivamente en puntos de referencia financieros principales como Fineva, FinEval y FinanceIQ, así como en conjuntos de datos de razonamiento general como MATH-500 y GPQA-diamond. Para evaluar minuciosamente las capacidades de implementación en el mundo real, proponemos de manera innovadora el punto de referencia de evaluación Finova, que se centra en el razonamiento financiero a nivel de agente y la verificación de cumplimiento. Los resultados experimentales demuestran que Agentar-Fin-R1 no solo alcanza un rendimiento de vanguardia en tareas financieras, sino que también exhibe capacidades de razonamiento general excepcionales, validando su eficacia como una solución confiable para aplicaciones financieras de alto riesgo. El punto de referencia Finova está disponible en https://github.com/antgroup/Finova.
Presentamos Iwin Transformer, un novedoso transformador jerárquico para visión que no requiere incrustaciones de posición y puede ajustarse directamente desde baja hasta alta resolución, gracias a la colaboración de una innovadora atención por ventanas intercaladas y convoluciones separables en profundidad. Este enfoque utiliza atención para conectar tokens distantes y aplica convolución para vincular tokens vecinos, permitiendo el intercambio global de información dentro de un solo módulo y superando la limitación de Swin Transformer, que requiere dos bloques consecutivos para aproximar la atención global. Experimentos exhaustivos en benchmarks visuales demuestran que Iwin Transformer exhibe una fuerte competitividad en tareas como clasificación de imágenes (87.4 de precisión top-1 en ImageNet-1K), segmentación semántica y reconocimiento de acciones en video. También validamos la efectividad del componente central de Iwin como un módulo independiente que puede reemplazar sin problemas el módulo de auto-atención en la generación de imágenes condicionadas por clase. Los conceptos y métodos introducidos por Iwin Transformer tienen el potencial de inspirar investigaciones futuras, como la Atención 3D de Iwin en la generación de video. El código y los modelos están disponibles en https://github.com/cominder/Iwin-Transformer.
La Recuperación de Videos Parcialmente Relevantes (PRVR, por sus siglas en inglés) aborda el desafío crítico de emparejar videos sin recortar con consultas de texto que describen solo contenido parcial. Los métodos existentes sufren de distorsión geométrica en el espacio euclidiano, lo que a veces representa incorrectamente la estructura jerárquica intrínseca de los videos y pasa por alto ciertas semánticas jerárquicas, lo que finalmente conduce a un modelado temporal subóptimo. Para abordar este problema, proponemos el primer marco de modelado hiperbólico para PRVR, denominado HLFormer, que aprovecha el aprendizaje en el espacio hiperbólico para compensar las capacidades subóptimas de modelado jerárquico del espacio euclidiano. Específicamente, HLFormer integra el Bloque de Atención de Lorentz y el Bloque de Atención Euclidiano para codificar incrustaciones de videos en espacios híbridos, utilizando el Módulo de Interacción Adaptativa Guiada por la Media para fusionar dinámicamente las características. Además, introducimos una Pérdida de Preservación de Orden Parcial para imponer la jerarquía "texto < video" a través de restricciones de cono lorentziano. Este enfoque mejora aún más el emparejamiento multimodal al reforzar la relevancia parcial entre el contenido del video y las consultas de texto. Experimentos extensos muestran que HLFormer supera a los métodos más avanzados. El código está disponible en https://github.com/lijun2005/ICCV25-HLFormer.
La segmentación de imágenes médicas es crucial para muchas tareas en el ámbito de la salud, incluyendo el diagnóstico de enfermedades y la planificación de tratamientos. Un área clave es la segmentación de lesiones cutáneas, la cual es vital para diagnosticar el cáncer de piel y monitorear a los pacientes. En este contexto, este artículo presenta SegDT, un nuevo modelo de segmentación basado en el transformador de difusión (DiT). SegDT está diseñado para funcionar en hardware de bajo costo e incorpora Rectified Flow, lo que mejora la calidad de generación con un número reducido de pasos de inferencia y mantiene la flexibilidad de los modelos de difusión estándar. Nuestro método es evaluado en tres conjuntos de datos de referencia y comparado con varios trabajos existentes, logrando resultados de vanguardia mientras mantiene velocidades de inferencia rápidas. Esto hace que el modelo propuesto sea atractivo para aplicaciones médicas en el mundo real. Este trabajo avanza el rendimiento y las capacidades de los modelos de aprendizaje profundo en el análisis de imágenes médicas, permitiendo herramientas de diagnóstico más rápidas y precisas para los profesionales de la salud. El código está disponible públicamente en https://github.com/Bekhouche/SegDT{GitHub}.
Este artículo presenta un novedoso enfoque basado en aprendizaje profundo para la clasificación simultánea de edad y género a partir de imágenes faciales, diseñado para mejorar la efectividad de las campañas publicitarias dirigidas. Proponemos una arquitectura personalizada de Red Neuronal Convolucional (CNN), optimizada para ambas tareas, que aprovecha la correlación inherente entre la información de edad y género presente en las características faciales. A diferencia de los métodos existentes que suelen tratar estas tareas de manera independiente, nuestro modelo aprende representaciones compartidas, lo que conduce a un mejor rendimiento. La red se entrena con un conjunto de datos grande y diverso de imágenes faciales, cuidadosamente preprocesadas para garantizar robustez frente a variaciones en iluminación, pose y calidad de imagen. Nuestros resultados experimentales demuestran una mejora significativa en la precisión de clasificación de género, alcanzando un 95%, y un error absoluto medio competitivo de 5.77 años para la estimación de edad. De manera crítica, analizamos el rendimiento en diferentes grupos de edad, identificando desafíos específicos en la estimación precisa de la edad de individuos más jóvenes. Este análisis revela la necesidad de una ampliación de datos dirigida y un refinamiento del modelo para abordar estos sesgos. Además, exploramos el impacto de diferentes arquitecturas CNN y configuraciones de hiperparámetros en el rendimiento general, proporcionando insights valiosos para futuras investigaciones.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés), construidos sobre potentes arquitecturas de lenguaje, han permitido el Aprendizaje en Contexto Multimodal (MICL, por sus siglas en inglés), adaptándose a nuevas tareas a partir de unas pocas demostraciones multimodales que incluyen imágenes, preguntas y respuestas. A pesar de mostrar mejoras notables en conjuntos de datos estándar de visión y lenguaje, los MLLMs actuales tienen dificultades para aprovechar la información visual en las demostraciones. Específicamente, tienden a descuidar las señales visuales y a depender en exceso de patrones textuales, lo que lleva a una mera imitación de texto en lugar de una adaptación multimodal genuina. Este comportamiento hace que el MICL siga siendo unimodal y restringe en gran medida su utilidad práctica. Más importante aún, esta limitación a menudo se oculta por el mejor rendimiento en tareas que no requieren comprender el contexto visual. Como resultado, cómo mejorar efectivamente la capacidad del MICL y evaluar de manera confiable su desempeño sigue siendo un área poco explorada. Para abordar estos problemas, primero introducimos la Reasignación Dinámica de Atención (DARA, por sus siglas en inglés), una estrategia de ajuste fino eficiente que fomenta que los modelos presten atención al contexto visual reequilibrando la atención entre los tokens visuales y textuales. Además, presentamos TrueMICL, un conjunto de datos dedicado al MICL con conjuntos de soporte y prueba que requieren explícitamente la integración de información multimodal, particularmente contenido visual, para la correcta realización de la tarea. Experimentos extensos demuestran la efectividad de nuestra solución holística, mostrando mejoras sustanciales en las verdaderas capacidades de aprendizaje en contexto multimodal. El código y los conjuntos de datos están disponibles en https://chenxshuo.github.io/true-micl-colm.