Artículos de investigación en IA seleccionados diariamente con traducciones
El razonamiento visual es un componente fundamental de la inteligencia humana y una capacidad crítica para los modelos multimodales avanzados. Sin embargo, las evaluaciones actuales del razonamiento en los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) suelen basarse en descripciones textuales y permiten atajos de razonamiento basados en el lenguaje, lo que no logra medir un razonamiento genuinamente centrado en la visión. Para abordar esto, presentamos VisuLogic: un benchmark de 1,000 problemas verificados por humanos en seis categorías (por ejemplo, cambios cuantitativos, relaciones espaciales, comparaciones de atributos). Estos diversos tipos de preguntas permiten evaluar las capacidades de razonamiento visual de los MLLMs desde múltiples perspectivas. Evaluamos los principales MLLMs en este benchmark y analizamos sus resultados para identificar modos de fallo comunes. La mayoría de los modelos obtienen una precisión inferior al 30%, apenas por encima del 25% de referencia aleatoria y muy por debajo del 51,4% alcanzado por los humanos, lo que revela brechas significativas en el razonamiento visual. Además, proporcionamos un conjunto de datos de entrenamiento complementario y una línea base de aprendizaje por refuerzo para apoyar avances futuros.
¿Cómo se pueden lograr capacidades de razonamiento sólidas en modelos de lenguaje de manera rentable? Motivados por esta pregunta fundamental, presentamos Tina, una familia de modelos de razonamiento pequeños logrados con alta eficiencia de costos. Notablemente, Tina demuestra que se puede desarrollar un rendimiento sustancial de razonamiento utilizando solo recursos mínimos, aplicando actualizaciones eficientes en parámetros durante el aprendizaje por refuerzo (RL), utilizando adaptación de bajo rango (LoRA), a un modelo base ya pequeño de 1.5B parámetros. Este enfoque minimalista produce modelos que logran un rendimiento de razonamiento competitivo y, en ocasiones, superior a los modelos SOTA de razonamiento basados en RL construidos sobre el mismo modelo base. Crucialmente, esto se logra con una fracción mínima del costo computacional de posentrenamiento empleado por los modelos SOTA existentes. De hecho, el mejor modelo de Tina logra un aumento de más del 20% en el rendimiento de razonamiento y una precisión del 43.33% en Pass@1 en AIME24, con un costo de posentrenamiento y evaluación de solo \$9 USD (es decir, una reducción estimada de 260x en costos). Nuestro trabajo revela la sorprendente efectividad del razonamiento eficiente mediante RL a través de LoRA. Validamos esto en múltiples conjuntos de datos de razonamiento de código abierto y varios ajustes de ablación comenzando con un único conjunto fijo de hiperparámetros. Además, planteamos la hipótesis de que esta efectividad y eficiencia provienen de la capacidad de LoRA para adaptar rápidamente el modelo al formato estructural de razonamiento recompensado por RL, mientras se preserva en gran medida el conocimiento subyacente del modelo base. En servicio de la accesibilidad y la investigación abierta, liberamos completamente todo el código, registros de entrenamiento y pesos y puntos de control del modelo.
En este artículo presentamos DreamID, un modelo de intercambio facial basado en difusión que logra altos niveles de similitud de identidad, preservación de atributos, fidelidad de imagen y velocidad de inferencia rápida. A diferencia del proceso típico de entrenamiento para intercambio facial, que a menudo depende de supervisión implícita y lucha por alcanzar resultados satisfactorios, DreamID establece una supervisión explícita para el intercambio facial mediante la construcción de datos de Grupos de Identidad Triplet, mejorando significativamente la similitud de identidad y la preservación de atributos. La naturaleza iterativa de los modelos de difusión plantea desafíos para utilizar funciones de pérdida eficientes en el espacio de imagen, ya que realizar un muestreo de múltiples pasos que consume tiempo para obtener la imagen generada durante el entrenamiento es poco práctico. Para abordar este problema, aprovechamos el modelo de difusión acelerada SD Turbo, reduciendo los pasos de inferencia a una sola iteración, lo que permite un entrenamiento eficiente de extremo a extremo a nivel de píxeles con supervisión explícita de Grupos de Identidad Triplet. Además, proponemos una arquitectura mejorada basada en difusión que comprende SwapNet, FaceNet y ID Adapter. Esta arquitectura robusta desbloquea completamente el poder de la supervisión explícita de Grupos de Identidad Triplet. Finalmente, para extender aún más nuestro método, modificamos explícitamente los datos de Grupos de Identidad Triplet durante el entrenamiento para ajustar y preservar atributos específicos, como gafas y forma del rostro. Experimentos extensos demuestran que DreamID supera a los métodos más avanzados en términos de similitud de identidad, preservación de pose y expresión, y fidelidad de imagen. En general, DreamID logra resultados de intercambio facial de alta calidad a una resolución de 512*512 en solo 0.6 segundos y se desempeña excepcionalmente bien en escenarios desafiantes como iluminación compleja, ángulos grandes y oclusiones.
Presentamos PHYBench, un nuevo y de alta calidad punto de referencia diseñado para evaluar las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs) en contextos físicos. PHYBench consta de 500 problemas de física meticulosamente seleccionados basados en escenarios físicos del mundo real, diseñados para evaluar la capacidad de los modelos para comprender y razonar sobre procesos físicos realistas. Cubriendo mecánica, electromagnetismo, termodinámica, óptica, física moderna y física avanzada, el punto de referencia abarca niveles de dificultad desde ejercicios de secundaria hasta problemas de pregrado y desafíos de las Olimpiadas de Física. Además, proponemos la Puntuación de Distancia de Edición de Expresiones (EED, por sus siglas en inglés), una nueva métrica de evaluación basada en la distancia de edición entre expresiones matemáticas, que captura efectivamente las diferencias en los procesos de razonamiento y los resultados de los modelos más allá de los métodos tradicionales de puntuación binaria. Evaluamos varios LLMs en PHYBench y comparamos su rendimiento con el de expertos humanos. Nuestros resultados revelan que incluso los modelos de razonamiento más avanzados están significativamente por detrás de los expertos humanos, destacando sus limitaciones y la necesidad de mejora en escenarios de razonamiento físico complejo. Nuestros resultados del punto de referencia y el conjunto de datos están disponibles públicamente en https://phybench-official.github.io/phybench-demo/.
Presentamos Trillion-7B, el modelo de lenguaje multilingüe (LLM) centrado en coreano más eficiente en términos de tokens disponible. Nuestro novedoso mecanismo de Atención de Documentos Translingüe (XLDA, por sus siglas en inglés) permite una transferencia de conocimiento altamente eficiente y efectiva del inglés a idiomas objetivo como el coreano y el japonés. Combinado con mezclas de datos optimizadas, filtrado específico por idioma y la construcción de tokenizadores personalizados, Trillion-7B logra un rendimiento competitivo mientras dedica solo el 10\% de sus 2 billones de tokens de entrenamiento a datos multilingües y requiere únicamente 59.4K horas de GPU H100 (\$148K) para su entrenamiento completo. Evaluaciones exhaustivas en 27 benchmarks en cuatro idiomas demuestran el sólido rendimiento multilingüe de Trillion-7B y su excepcional consistencia translingüe.
A medida que el campo del aprendizaje de representaciones crece, ha habido una proliferación de diferentes funciones de pérdida para resolver distintas clases de problemas. Introducimos una única ecuación basada en teoría de la información que generaliza una amplia colección de funciones de pérdida modernas en el aprendizaje automático. En particular, presentamos un marco que muestra que varias clases amplias de métodos de aprendizaje automático están minimizando precisamente una divergencia KL integrada entre dos distribuciones condicionales: las representaciones supervisadas y las aprendidas. Esta perspectiva revela una geometría de la información subyacente en tareas como clustering, métodos espectrales, reducción de dimensionalidad, aprendizaje contrastivo y aprendizaje supervisado. Este marco permite el desarrollo de nuevas funciones de pérdida al combinar técnicas exitosas de la literatura. No solo presentamos una amplia variedad de demostraciones, conectando más de 23 enfoques diferentes, sino que también aprovechamos estos resultados teóricos para crear clasificadores de imágenes no supervisados de última generación que logran una mejora del +8% sobre el estado del arte previo en la clasificación no supervisada en ImageNet-1K. También demostramos que I-Con puede utilizarse para derivar métodos de eliminación de sesgos fundamentados que mejoran los aprendices de representaciones contrastivas.
Recientemente, una amplia investigación sobre personalización de imágenes (por ejemplo, identidad, sujeto, estilo, fondo, etc.) ha demostrado capacidades sólidas de personalización en modelos generativos a gran escala. Sin embargo, la mayoría de los enfoques están diseñados para tareas específicas, lo que limita su generalización para combinar diferentes tipos de condiciones. Desarrollar un marco unificado para la personalización de imágenes sigue siendo un desafío abierto. En este artículo, presentamos DreamO, un marco de personalización de imágenes diseñado para admitir una amplia gama de tareas mientras facilita la integración fluida de múltiples condiciones. Específicamente, DreamO utiliza un marco de transformador de difusión (DiT) para procesar de manera uniforme entradas de diferentes tipos. Durante el entrenamiento, construimos un conjunto de datos de entrenamiento a gran escala que incluye diversas tareas de personalización e introducimos una restricción de enrutamiento de características para facilitar la consulta precisa de información relevante a partir de imágenes de referencia. Además, diseñamos una estrategia de marcadores de posición que asocia marcadores específicos con condiciones en posiciones particulares, permitiendo controlar la ubicación de las condiciones en los resultados generados. Asimismo, empleamos una estrategia de entrenamiento progresivo que consta de tres etapas: una etapa inicial centrada en tareas simples con datos limitados para establecer una consistencia básica, una etapa de entrenamiento a gran escala para mejorar de manera integral las capacidades de personalización, y una etapa final de alineación de calidad para corregir sesgos de calidad introducidos por datos de baja calidad. Experimentos exhaustivos demuestran que el DreamO propuesto puede realizar eficazmente diversas tareas de personalización de imágenes con alta calidad e integrar de manera flexible diferentes tipos de condiciones de control.
Este artículo presenta nuestra propuesta ganadora de la Olimpiada Matemática de IA - Premio de Progreso 2 (AIMO-2). Nuestra receta para construir modelos de razonamiento matemático de vanguardia se basa en tres pilares clave. En primer lugar, creamos un conjunto de datos a gran escala que comprende 540K problemas matemáticos únicos de alta calidad, incluyendo problemas de nivel olímpico, y sus 3.2M soluciones de razonamiento extenso. En segundo lugar, desarrollamos un método novedoso para integrar la ejecución de código con modelos de razonamiento extenso mediante entrenamiento iterativo, generación y filtrado de calidad, lo que resulta en 1.7M soluciones de Razonamiento Integrado con Herramientas de alta calidad. En tercer lugar, creamos una canalización para entrenar modelos que seleccionen la solución más prometedora entre muchos candidatos. Demostramos que esta selección generativa de soluciones (GenSelect) puede mejorar significativamente el enfoque de votación mayoritaria. Combinando estas ideas, entrenamos una serie de modelos que logran resultados de vanguardia en benchmarks de razonamiento matemático. Para facilitar futuras investigaciones, publicamos nuestro código, modelos y el conjunto de datos completo OpenMathReasoning bajo una licencia comercialmente permisiva.
La Optimización Directa de Preferencias (DPO, por sus siglas en inglés) simplifica el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) para modelos de lenguaje de gran escala (LLMs) al optimizar directamente las preferencias humanas sin necesidad de un modelo de recompensa explícito. Descubrimos que, durante el entrenamiento con DPO, el modelo de referencia actúa como un ajustador de pesos de los datos. Sin embargo, la práctica común de inicializar los modelos de política y referencia de manera idéntica en DPO puede llevar a una utilización ineficiente de los datos e imponer un límite en el rendimiento. Mientras tanto, la ausencia de un modelo de referencia en la Optimización Simple de Preferencias (SimPO) reduce la robustez del entrenamiento y exige condiciones más estrictas para evitar el olvido catastrófico. En este trabajo, proponemos Pre-DPO, un paradigma de entrenamiento basado en DPO simple pero efectivo que mejora el rendimiento de la optimización de preferencias al aprovechar un modelo de referencia guía. Este modelo de referencia proporciona una visión anticipada del estado óptimo de la política alcanzable a través de los datos de preferencias de entrenamiento, actuando como un mecanismo guía que asigna pesos más altos a las muestras más adecuadas para el modelo y pesos más bajos a aquellas menos adecuadas. Experimentos exhaustivos en los benchmarks AlpacaEval 2.0 y Arena-Hard v0.1 demuestran que Pre-DPO mejora consistentemente el rendimiento tanto de DPO como de SimPO, sin depender de modelos externos o datos adicionales.
El preentrenamiento de contraste lenguaje-imagen (CLIP, por sus siglas en inglés) ha logrado éxito en múltiples tareas posteriores al alinear las modalidades de imagen y texto. Sin embargo, la naturaleza del aprendizaje contrastivo global limita la capacidad de CLIP para comprender conceptos composicionales, como relaciones y atributos. Aunque estudios recientes emplean muestras negativas globales difíciles para mejorar la comprensión composicional, estos métodos comprometen significativamente las capacidades generales inherentes del modelo al distanciar forzosamente las muestras negativas textuales de las imágenes en el espacio de incrustación. Para superar esta limitación, introducimos un marco de Alineación Global-Local Desacoplada (DeGLA, por sus siglas en inglés) que mejora la comprensión composicional mientras mitiga sustancialmente las pérdidas en las capacidades generales. Para optimizar la retención de las capacidades inherentes del modelo, incorporamos un mecanismo de auto-distilación dentro del proceso de alineación global, alineando el codificador de imagen-texto aprendible con un modelo maestro congelado derivado de un promedio móvil exponencial. Bajo la restricción de la auto-distilación, se mitiga eficazmente el olvido catastrófico del conocimiento preentrenado durante el ajuste fino. Para mejorar la comprensión composicional, primero aprovechamos la capacidad de aprendizaje en contexto de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para construir aproximadamente 2 millones de subtítulos negativos de alta calidad en cinco tipos. Posteriormente, proponemos la pérdida de Contraste Basado en Imagen (IGC, por sus siglas en inglés) y la pérdida de Contraste Basado en Texto (TGC, por sus siglas en inglés) para mejorar la composicionalidad visión-lenguaje. Los resultados experimentales extensos demuestran la efectividad del marco DeGLA. En comparación con los métodos anteriores más avanzados, DeGLA logra una mejora promedio del 3.5% en los puntos de referencia VALSE, SugarCrepe y ARO. Simultáneamente, obtiene una mejora promedio del 13.0% en tareas de clasificación de cero disparos en once conjuntos de datos. Nuestro código será publicado en https://github.com/xiaoxing2001/DeGLA.
El notable éxito de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ha iluminado un camino prometedor hacia la consecución de la Inteligencia Artificial General tanto para las comunidades académicas como industriales, gracias a su desempeño sin precedentes en diversas aplicaciones. A medida que los LLMs continúan ganando prominencia en los ámbitos de investigación y comerciales, sus implicaciones en seguridad y protección se han convertido en una preocupación creciente, no solo para investigadores y corporaciones, sino también para cada nación. Actualmente, las revisiones existentes sobre la seguridad de los LLMs se centran principalmente en etapas específicas del ciclo de vida de estos modelos, como la fase de despliegue o la de ajuste fino, careciendo de una comprensión integral de toda la "cadena de vida" de los LLMs. Para abordar esta brecha, este artículo introduce, por primera vez, el concepto de seguridad de "pila completa" para considerar sistemáticamente los problemas de seguridad a lo largo de todo el proceso de entrenamiento, despliegue y eventual comercialización de los LLMs. En comparación con las revisiones de seguridad de LLMs disponibles, nuestro trabajo demuestra varias ventajas distintivas: (I) Perspectiva Integral. Definimos el ciclo de vida completo de los LLMs como aquel que abarca la preparación de datos, el preentrenamiento, el postentrenamiento, el despliegue y la comercialización final. Hasta donde sabemos, esta es la primera revisión de seguridad que abarca todo el ciclo de vida de los LLMs. (II) Amplio Soporte Bibliográfico. Nuestra investigación se basa en una revisión exhaustiva de más de 800 artículos, asegurando una cobertura completa y una organización sistemática de los problemas de seguridad dentro de una comprensión más holística. (III) Perspectivas Únicas. A través del análisis sistemático de la literatura, hemos desarrollado mapas de ruta confiables y perspectivas para cada capítulo. Nuestro trabajo identifica direcciones de investigación prometedoras, incluyendo la seguridad en la generación de datos, las técnicas de alineación, la edición de modelos y los sistemas basados en agentes de LLMs. Estas perspectivas proporcionan una guía valiosa para los investigadores que buscan futuros trabajos en este campo.
Recientemente, DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) ha demostrado su excelente capacidad de razonamiento en tareas complejas y ha compartido públicamente su metodología. Esto proporciona datos de cadena de pensamiento (CoT) de potencialmente alta calidad para estimular las habilidades de razonamiento de modelos de lenguaje grandes (LLMs) de tamaño reducido. Para generar datos CoT de alta calidad para diferentes LLMs, buscamos un método eficiente para generar datos CoT de alta calidad con niveles de dificultad de preguntas adaptados al LLM. Primero, clasificamos la dificultad de las preguntas según la capacidad de razonamiento de los propios LLMs y construimos una base de datos de preguntas adaptadas al LLM. Segundo, muestreamos la base de problemas basándonos en una distribución de niveles de dificultad de las preguntas y luego utilizamos DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) para generar los correspondientes datos CoT de alta calidad con respuestas correctas. Gracias a la construcción de datos CoT con niveles de dificultad adaptados al LLM, hemos reducido significativamente el costo de generación de datos y mejorado la eficiencia del ajuste fino supervisado (SFT) del modelo. Finalmente, hemos validado la efectividad y generalización del método propuesto en los campos de competiciones matemáticas complejas y tareas de generación de código. Cabe destacar que, con solo 2k datos CoT matemáticos de alta calidad, nuestro ZMath-32B supera a DeepSeek-Distill-32B en tareas de razonamiento matemático. De manera similar, con solo 2k datos CoT de código de alta calidad, nuestro ZCode-32B supera a DeepSeek-Distill-32B en tareas de razonamiento de código.
Dado que la anotación de datos es costosa, los conjuntos de datos de referencia a menudo incorporan etiquetas de conjuntos de imágenes establecidos. En este trabajo, evaluamos el impacto de los errores de etiquetado en MSCOCO sobre el punto de referencia de alucinación de objetos POPE, utilizado con frecuencia. Re-anotamos las imágenes del punto de referencia e identificamos un desequilibrio en los errores de anotación entre diferentes subconjuntos. Al evaluar múltiples modelos con las etiquetas revisadas, que denominamos RePOPE, observamos cambios notables en las clasificaciones de los modelos, destacando el impacto de la calidad del etiquetado. El código y los datos están disponibles en https://github.com/YanNeu/RePOPE.
El análisis causal desempeña un papel fundamental en el descubrimiento científico y la toma de decisiones confiables, pero sigue siendo en gran medida inaccesible para los expertos de dominio debido a su complejidad conceptual y algorítmica. Esta desconexión entre la metodología causal y la usabilidad práctica presenta un doble desafío: los expertos de dominio no pueden aprovechar los avances recientes en el aprendizaje causal, mientras que los investigadores en causalidad carecen de implementaciones amplias en el mundo real para probar y refinar sus métodos. Para abordar esto, presentamos Causal-Copilot, un agente autónomo que opera análisis causal de nivel experto dentro de un marco de modelo de lenguaje grande. Causal-Copilot automatiza la tubería completa de análisis causal tanto para datos tabulares como de series temporales, incluyendo descubrimiento causal, inferencia causal, selección de algoritmos, optimización de hiperparámetros, interpretación de resultados y generación de insights accionables. Además, permite un refinamiento interactivo a través del lenguaje natural, reduciendo la barrera para no especialistas mientras mantiene el rigor metodológico. Al integrar más de 20 técnicas de análisis causal de vanguardia, nuestro sistema fomenta un ciclo virtuoso: amplía el acceso a métodos causales avanzados para expertos de dominio y genera aplicaciones ricas en el mundo real que informan y avanzan la teoría causal. Las evaluaciones empíricas demuestran que Causal-Copilot logra un rendimiento superior en comparación con los baselines existentes, ofreciendo una solución confiable, escalable y extensible que cierra la brecha entre la sofisticación teórica y la aplicabilidad en el mundo real del análisis causal. Una demostración interactiva en vivo de Causal-Copilot está disponible en https://causalcopilot.com/.
La transpilación de C a Rust es esencial para modernizar código heredado en C mientras se mejora la seguridad y la interoperabilidad con los ecosistemas modernos de Rust. Sin embargo, actualmente no existe un conjunto de datos para evaluar si un sistema puede transpilar C a Rust seguro que pase un conjunto de casos de prueba. Presentamos CRUST-Bench, un conjunto de datos de 100 repositorios en C, cada uno emparejado con interfaces escritas manualmente en Rust seguro, así como casos de prueba que pueden usarse para validar la corrección de la transpilación. Al considerar repositorios completos en lugar de funciones aisladas, CRUST-Bench captura los desafíos de traducir proyectos complejos con dependencias en múltiples archivos. Las interfaces en Rust proporcionadas ofrecen especificaciones explícitas que garantizan la adherencia a patrones idiomáticos y seguros en cuanto a la memoria, mientras que los casos de prueba adjuntos aseguran la corrección funcional. Evaluamos modelos de lenguaje de última generación (LLMs) en esta tarea y encontramos que la generación de Rust seguro e idiomático sigue siendo un problema desafiante para varios métodos y técnicas de vanguardia. También ofrecemos insights sobre los errores que los LLMs suelen cometer al transpilar código de C a Rust seguro. El modelo con mejor rendimiento, OpenAI o1, solo es capaz de resolver 15 tareas en un entorno de un solo intento. Las mejoras en CRUST-Bench conducirían a sistemas de transpilación mejorados que puedan razonar sobre escenarios complejos y ayudar en la migración de bases de código heredadas de C a lenguajes como Rust que garantizan la seguridad de la memoria. Puedes encontrar el conjunto de datos y el código en https://github.com/anirudhkhatry/CRUST-bench.
Las casillas de verificación son fundamentales en el procesamiento de documentos del mundo real, donde la presencia o ausencia de marcas influye directamente en la extracción de datos y los procesos de toma de decisiones. Sin embargo, a pesar del sólido rendimiento de los Modelos de Visión y Lenguaje a Gran Escala en una amplia gama de tareas, estos tienen dificultades para interpretar contenido verificable. Este desafío se vuelve especialmente apremiante en industrias donde una sola casilla de verificación pasada por alto puede generar costosos errores regulatorios o contractuales. Para abordar esta brecha, presentamos el conjunto de datos CheckboxQA, un recurso específico diseñado para evaluar y mejorar el rendimiento de los modelos en tareas relacionadas con casillas de verificación. Este conjunto de datos revela las limitaciones de los modelos actuales y sirve como una herramienta valiosa para avanzar en los sistemas de comprensión de documentos, con implicaciones significativas para aplicaciones en sectores como tecnología legal y finanzas. El conjunto de datos está disponible públicamente en: https://github.com/Snowflake-Labs/CheckboxQA
La localización visual multitarea (MTVG, por sus siglas en inglés) incluye dos subtareas: la Comprensión de Expresiones Referenciales (REC) y la Segmentación de Expresiones Referenciales (RES). Los enfoques representativos existentes generalmente siguen una línea de investigación que consta principalmente de tres procedimientos centrales: la extracción independiente de características para las modalidades visual y lingüística, respectivamente, un módulo de interacción multimodal y cabezales de predicción independientes para los diferentes subtareas. Aunque han logrado un rendimiento notable, esta línea de investigación presenta dos limitaciones: 1) El contenido lingüístico no se ha inyectado completamente en la red visual para potenciar una extracción de características visuales más efectiva, y requiere un módulo adicional de interacción multimodal; 2) La relación entre las tareas REC y RES no se explota de manera efectiva para ayudar en la predicción colaborativa y obtener resultados más precisos. Para abordar estos problemas, en este artículo proponemos un marco de Aprendizaje Visual Guiado por Lenguaje Progresivo para la localización visual multitarea, denominado PLVL, que no solo explota finamente la expresión inherente de características de la modalidad visual en sí, sino que también inyecta progresivamente la información lingüística para ayudar a aprender características visuales relacionadas con el lenguaje. De esta manera, nuestro PLVL no necesita un módulo adicional de fusión multimodal, al tiempo que introduce completamente la guía del lenguaje. Además, analizamos que el centro de localización para REC ayudaría, en cierta medida, a identificar la región del objeto a segmentar para RES. Inspirados por esta investigación, diseñamos un cabezal multitarea para realizar predicciones colaborativas para estas dos subtareas. Experimentos exhaustivos realizados en varios conjuntos de datos de referencia demuestran de manera integral que nuestro PLVL supera claramente a los métodos representativos en ambas tareas, REC y RES. https://github.com/jcwang0602/PLVL