Artículos de investigación en IA seleccionados diariamente con traducciones
Si bien los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) destacan en tareas de generación, su arquitectura basada únicamente en decodificadores a menudo limita su potencial como modelos de incrustación si no se aplica un ajuste fino adicional de representación. ¿Contradice esto su afirmación de ser generalistas? Para responder a esta pregunta, examinamos de cerca los LLMs de Mezcla de Expertos (MoE, por sus siglas en inglés). Nuestro estudio muestra que los enrutadores de expertos en los LLMs de MoE pueden funcionar como un modelo de incrustación listo para usar con un rendimiento prometedor en una diversa clase de tareas centradas en la incrustación, sin necesidad de ningún ajuste fino. Además, nuestro análisis exhaustivo muestra que los pesos de enrutamiento de MoE (RW) son complementarios al estado oculto (HS) de los LLMs, una incrustación ampliamente utilizada. En comparación con HS, encontramos que RW es más robusto a la elección de indicaciones y se centra en la semántica de alto nivel. Motivados por el análisis, proponemos MoEE combinando RW y HS, lo cual logra un mejor rendimiento que al utilizarlos por separado. Nuestra exploración de su combinación y estrategia de indicación arroja varias ideas novedosas, por ejemplo, una suma ponderada de similitudes de RW y HS supera a la similitud en su concatenación. Nuestros experimentos se realizaron en 6 tareas de incrustación con 20 conjuntos de datos del Banco de Pruebas de Incrustación de Texto Masivo (MTEB, por sus siglas en inglés). Los resultados demuestran la mejora significativa que MoEE aporta a la incrustación basada en LLM sin necesidad de un ajuste fino adicional.
Adaptar Modelos de Lenguaje Grandes médicos a idiomas locales puede reducir barreras para acceder a servicios de atención médica, pero la escasez de datos sigue siendo un desafío significativo, especialmente para idiomas con pocos recursos. Para abordar esto, primero construimos un conjunto de datos médicos de alta calidad y realizamos un análisis para garantizar su calidad. Con el fin de aprovechar la capacidad de generalización de los Modelos de Lenguaje Grandes multilingües para escalar eficientemente a idiomas con recursos limitados, exploramos el flujo de información interno de los Modelos de Lenguaje Grandes desde una perspectiva multilingüe utilizando la modularidad de Mezcla de Expertos (MoE). Técnicamente, proponemos un nuevo método de enrutamiento de MoE que emplea expertos específicos de cada idioma y enrutamiento entre idiomas. Inspirado en la teoría de circuitos, nuestro análisis de enrutamiento reveló un mecanismo de flujo de información Spread Out in the End: mientras que las capas iniciales concentran el flujo de información entre idiomas, las capas posteriores muestran una divergencia específica de cada idioma. Esta percepción condujo directamente al desarrollo de la arquitectura Post-MoE, que aplica un enrutamiento disperso solo en las capas posteriores mientras mantiene densas las demás. Los resultados experimentales demuestran que este enfoque mejora la generalización de los modelos multilingües a otros idiomas al tiempo que conserva la interpretabilidad. Finalmente, para escalar eficientemente el modelo a 50 idiomas, introducimos el concepto de expertos en familias de idiomas, basándonos en supuestos lingüísticos, lo que permite aumentar el número de idiomas sin agregar parámetros adicionales.
Ampliar la ventana de contexto de los grandes modelos de lenguaje (LLMs) se ha convertido en un área de investigación crucial, especialmente para aplicaciones que implican textos extremadamente largos. En este trabajo, proponemos un novedoso marco de trabajo sin entrenamiento para procesar textos largos, utilizando una estrategia de dividir y conquistar para lograr una comprensión documental integral. El marco propuesto LLMtimesMapReduce divide el documento completo en varios fragmentos para que los LLMs los lean y luego agrega las respuestas intermedias para producir la salida final. El principal desafío para los marcos de trabajo de procesamiento de textos largos de dividir y conquistar radica en el riesgo de perder información esencial de largo alcance al dividir el documento, lo que puede llevar al modelo a producir respuestas incompletas o incorrectas basadas en los textos segmentados. La información de largo alcance interrumpida se puede clasificar en dos categorías: dependencia entre fragmentos y conflicto entre fragmentos. Diseñamos un protocolo de información estructurada para lidiar mejor con la dependencia entre fragmentos y un mecanismo de calibración de confianza contextual para resolver conflictos entre fragmentos. Los resultados experimentales demuestran que LLMtimesMapReduce puede superar a los LLMs de contexto largo de código abierto y comerciales representativos, y es aplicable a varios modelos diferentes.
Si bien escalar modelos de lenguaje grandes (LLMs) basados en Transformadores ha demostrado un rendimiento prometedor en diversas tareas, también introduce arquitecturas redundantes, lo que plantea desafíos de eficiencia para su implementación en el mundo real. A pesar de que se reconoce cierta redundancia en los LLMs, la variabilidad de la redundancia en diferentes arquitecturas de transformadores, como las capas MLP y de Atención, es poco explorada. En este trabajo, investigamos la redundancia en diferentes módulos dentro de los Transformadores, incluyendo Bloques, MLP y capas de Atención, utilizando una métrica basada en similitud. Sorprendentemente, a pesar del papel crítico de las capas de atención para distinguir a los transformadores de otras arquitecturas, encontramos que una gran parte de estas capas exhiben una similitud excesivamente alta y pueden ser podadas sin degradar el rendimiento. Por ejemplo, Llama-2-70B logró una aceleración del 48.4\% al podar la mitad de las capas de atención con solo una caída del rendimiento del 2.4\%. Además, al rastrear los puntos de control del modelo a lo largo del proceso de entrenamiento, observamos que la redundancia en las capas de atención es inherente y consistente en todas las etapas de entrenamiento. Asimismo, proponemos un método que elimina conjuntamente las capas de Atención y MLP, lo que nos permite eliminar capas adicionales de manera más agresiva. Por ejemplo, al eliminar 31 capas (Atención + MLP), Llama-2-13B aún conserva el 90\% del rendimiento en la tarea MMLU. Nuestro trabajo proporciona información valiosa para el diseño futuro de arquitecturas de redes. El código se encuentra disponible en: https://github.com/Shwai-He/LLM-Drop.
Los Modelos de Lenguaje Multimodales de Gran Tamaño (MLLMs) frecuentemente presentan fenómenos de alucinación, pero las razones subyacentes siguen siendo poco comprendidas. En este artículo, presentamos un análisis empírico y encontramos que, aunque los MLLMs generan incorrectamente los objetos en la salida final, en realidad son capaces de reconocer objetos visuales en las capas previas. Especulamos que esto puede deberse a los fuertes conocimientos previos del modelo de lenguaje que suprimen la información visual, lo que conduce a alucinaciones. Motivados por esto, proponemos un novedoso método de decodificación de corrección dinámica para MLLMs (DeCo), que selecciona de forma adaptativa las capas previas apropiadas e integra proporcionalmente conocimiento en la capa final para ajustar los logits de salida. Cabe destacar que DeCo es independiente del modelo y puede incorporarse fácilmente con diversas estrategias clásicas de decodificación y aplicarse a diferentes MLLMs. Evaluamos DeCo en benchmarks ampliamente utilizados, demostrando que puede reducir significativamente las tasas de alucinación en comparación con los baselines, resaltando su potencial para mitigar las alucinaciones. El código está disponible en https://github.com/zjunlp/DeCo.
Las técnicas de evaluación contemporáneas resultan inadecuadas para los sistemas agentes. Estos enfoques se centran exclusivamente en los resultados finales, ignorando la naturaleza paso a paso de los sistemas agentes, o requieren un excesivo trabajo manual. Para abordar esto, presentamos el marco de Agente-como-Juez, en el cual los sistemas agentes se utilizan para evaluar otros sistemas agentes. Esta es una extensión orgánica del marco de LLM-como-Juez, incorporando características agentes que permiten retroalimentación intermedia para todo el proceso de resolución de tareas. Aplicamos el enfoque Agente-como-Juez a la tarea de generación de código. Para superar problemas con los benchmarks existentes y proporcionar un banco de pruebas de concepto para Agente-como-Juez, presentamos DevAI, un nuevo benchmark de 55 tareas realistas de desarrollo automatizado de IA. Incluye anotaciones manuales detalladas, como un total de 365 requisitos de usuario jerárquicos. Evaluamos tres de los sistemas agentes populares utilizando Agente-como-Juez y encontramos que supera drásticamente a LLM-como-Juez y es tan confiable como nuestra evaluación humana de referencia. En conjunto, creemos que Agente-como-Juez representa un avance concreto para los sistemas agentes modernos, al proporcionar señales de recompensa ricas y confiables necesarias para la mejora dinámica y escalable.
La eficacia de los modelos de generación de video depende en gran medida de la calidad de sus conjuntos de datos de entrenamiento. La mayoría de los modelos previos de generación de video se entrenan con clips de video cortos, mientras que recientemente ha habido un creciente interés en entrenar modelos de generación de video largo directamente con videos más extensos. Sin embargo, la falta de videos largos de alta calidad obstaculiza el avance de la generación de video largo. Para fomentar la investigación en la generación de video largo, deseamos un nuevo conjunto de datos con cuatro características clave esenciales para entrenar modelos de generación de video largo: (1) videos largos que cubran al menos 10 segundos, (2) videos de toma larga sin cortes, (3) gran movimiento y contenidos diversos, y (4) subtítulos temporalmente densos. Para lograr esto, presentamos un nuevo proceso para seleccionar videos de toma larga de alta calidad y generar subtítulos temporalmente densos. Específicamente, definimos un conjunto de métricas para evaluar cuantitativamente la calidad del video, incluyendo cortes de escena, grados dinámicos y calidad a nivel semántico, lo que nos permite filtrar videos de toma larga de alta calidad de una gran cantidad de videos fuente. Posteriormente, desarrollamos un proceso jerárquico de subtitulado de video para anotar videos largos con subtítulos temporalmente densos. Con este proceso, creamos el primer conjunto de datos de videos de toma larga, LVD-2M, que consta de 2 millones de videos de toma larga, cada uno con más de 10 segundos y anotado con subtítulos temporalmente densos. Además, validamos la efectividad de LVD-2M ajustando finamente los modelos de generación de video para generar videos largos con movimientos dinámicos. Creemos que nuestro trabajo contribuirá significativamente a la investigación futura en la generación de video largo.
Los Modelos de Lenguaje Grandes (LLMs) han mostrado mejoras masivas en habilidades de razonamiento y toma de decisiones, y pueden sostener conversaciones naturales con los usuarios. Recientemente, se han propuesto muchos conjuntos de datos de referencia para el uso de herramientas. Sin embargo, los conjuntos de datos existentes presentan las siguientes limitaciones: (1). Escenarios de evaluación insuficientes (por ejemplo, solo cubren escenas de uso de herramientas limitadas). (2). Costos extensos de evaluación (por ejemplo, costos de API de GPT). Para abordar estas limitaciones, en este trabajo proponemos un conjunto de datos de referencia para el uso de herramientas de granularidad múltiple para grandes modelos de lenguaje llamado MTU-Bench. Para la propiedad de "granularidad múltiple", nuestro MTU-Bench cubre cinco escenas de uso de herramientas (es decir, turno único y herramienta única, turno único y múltiples herramientas, múltiples turnos y herramienta única, múltiples turnos y múltiples herramientas, y tareas fuera de distribución). Además, todas las métricas de evaluación de nuestro MTU-Bench se basan en los resultados de predicción y la verdad fundamental sin utilizar ninguna métrica de evaluación de GPT o humana. Además, nuestro MTU-Bench se recopila transformando conjuntos de datos existentes de alta calidad para simular escenarios de uso de herramientas del mundo real, y también proponemos un conjunto de datos de instrucciones llamado datos de instrucción MTU-Instruct para mejorar las habilidades de uso de herramientas de los LLMs existentes. Los resultados experimentales exhaustivos demuestran la efectividad de nuestro MTU-Bench. El código y los datos se publicarán en https://github.com/MTU-Bench-Team/MTU-Bench.git.
Como uno de los modelos generativos más populares y buscados en los últimos años, los modelos de difusión han despertado el interés de muchos investigadores y han demostrado de manera constante una excelente ventaja en diversas tareas generativas como la síntesis de imágenes, generación de videos, diseño de moléculas, renderizado de escenas 3D y generación multimodal, basándose en sus densos principios teóricos y prácticas de aplicación confiables. El notable éxito de estos esfuerzos recientes en los modelos de difusión proviene en gran medida de los principios de diseño progresivo y de una arquitectura eficiente, así como de metodologías de entrenamiento, inferencia y despliegue. Sin embargo, no ha habido una revisión exhaustiva y profunda que resuma estos principios y prácticas para ayudar a la comprensión y aplicación rápidas de los modelos de difusión. En esta encuesta, proporcionamos una nueva perspectiva orientada a la eficiencia sobre estos esfuerzos existentes, que se centra principalmente en los principios profundos y prácticas eficientes en los diseños de arquitectura, entrenamiento de modelos, inferencia rápida y despliegue confiable, para guiar futuras investigaciones teóricas, migración de algoritmos y aplicación de modelos para nuevos escenarios de una manera amigable para el lector.
Los modelos de lenguaje grandes (LLMs) combinados con el aprendizaje de herramientas han logrado resultados impresionantes en aplicaciones del mundo real. Durante el aprendizaje de herramientas, los LLMs pueden llamar a múltiples herramientas en órdenes anidados, donde la llamada de la herramienta posterior puede tomar la respuesta anterior como sus parámetros de entrada. Sin embargo, la investigación actual sobre las capacidades de aprendizaje de herramientas anidadas aún está poco explorada, ya que los benchmarks existentes carecen de instancias de datos relevantes. Para abordar este problema, presentamos NesTools para cerrar la brecha actual en evaluaciones exhaustivas de aprendizaje de herramientas anidadas. NesTools comprende un novedoso método automático de generación de datos para construir llamadas de herramientas anidadas a gran escala con diferentes estructuras de anidación. Con revisión y refinamiento manuales, el conjunto de datos es de alta calidad y está estrechamente alineado con escenarios del mundo real. Por lo tanto, NesTools puede servir como un nuevo benchmark para evaluar las capacidades de aprendizaje de herramientas anidadas de los LLMs. Realizamos experimentos extensos con 22 LLMs y proporcionamos análisis detallados con NesTools, que muestran que los LLMs actuales aún sufren con la tarea compleja de aprendizaje de herramientas anidadas.
Trabajos existentes han establecido múltiples puntos de referencia para resaltar los riesgos de seguridad asociados con Code GenAI. Estos riesgos se reflejan principalmente en dos áreas: el potencial de un modelo para generar código inseguro (codificación insegura) y su utilidad en ciberataques (utilidad en ciberataques). Aunque estos puntos de referencia han avanzado significativamente, aún existen oportunidades para mejoras adicionales. Por ejemplo, muchos puntos de referencia actuales tienden a centrarse más en la capacidad de un modelo para proporcionar sugerencias de ataque en lugar de en su capacidad para generar ataques ejecutables. Además, la mayoría de los puntos de referencia dependen en gran medida de métricas de evaluación estáticas, que pueden no ser tan precisas como las métricas dinámicas como los casos de prueba aprobados. Por el contrario, los puntos de referencia verificados por expertos, aunque ofrecen datos de alta calidad, a menudo operan a una escala más pequeña. Para abordar estas brechas, desarrollamos SecCodePLT, una plataforma unificada y completa de evaluación de riesgos de Code GenAIs. Para el código inseguro, introducimos una nueva metodología para la creación de datos que combina expertos con generación automática. Nuestra metodología garantiza la calidad de los datos al tiempo que permite una generación a gran escala. También asociamos muestras con casos de prueba para llevar a cabo una evaluación dinámica relacionada con el código. Para la utilidad en ciberataques, configuramos un entorno real y construimos muestras para incitar a un modelo a generar ataques reales, junto con métricas dinámicas en nuestro entorno. Realizamos experimentos extensos y demostramos que SecCodePLT supera al punto de referencia de última generación (SOTA) CyberSecEval en relevancia de seguridad. Además, identifica mejor los riesgos de seguridad de los modelos SOTA en codificación insegura y utilidad en ciberataques. Finalmente, aplicamos SecCodePLT al agente de código SOTA, Cursor, e identificamos, por primera vez, riesgos de seguridad no triviales en este avanzado agente de codificación.
La ecocardiografía es la modalidad de imagen cardíaca más ampliamente utilizada, capturando datos de video de ultrasonido para evaluar la estructura y función cardíaca. La inteligencia artificial (IA) en ecocardiografía tiene el potencial de agilizar tareas manuales y mejorar la reproducibilidad y precisión. Sin embargo, la mayoría de los modelos de IA en ecocardiografía son sistemas de una sola vista y una sola tarea que no sintetizan información complementaria de múltiples vistas capturadas durante un examen completo, lo que resulta en un rendimiento limitado y un alcance de aplicaciones restringido. Para abordar este problema, presentamos EchoPrime, un modelo de base visión-lenguaje basado en video, multi-vista e informado por vista, entrenado con más de 12 millones de pares de video-informe. EchoPrime utiliza el aprendizaje por contraste para entrenar un modelo de incrustación unificado para todas las vistas estándar en un estudio ecocardiográfico completo con representación de enfermedades y diagnósticos tanto raros como comunes. Luego, EchoPrime utiliza la clasificación de vistas y un modelo de atención anatómica informado por vista para ponderar interpretaciones específicas de video que mapean con precisión la relación entre las vistas ecocardiográficas y las estructuras anatómicas. Con la interpretación aumentada por recuperación, EchoPrime integra información de todos los videos ecocardiográficos en un estudio completo y realiza una interpretación clínica ecocardiográfica integral y holística. En conjuntos de datos de dos sistemas de atención médica independientes, EchoPrime logra un rendimiento de vanguardia en 23 diversos puntos de referencia de forma y función cardíaca, superando el rendimiento tanto de enfoques específicos de tarea como de modelos de base anteriores. Tras una rigurosa evaluación clínica, EchoPrime puede ayudar a los médicos en la evaluación preliminar automatizada de ecocardiografía integral.
Presentamos una representación basada en Gaussiana espacial y angular y un proceso de triple proyección, para la síntesis en tiempo real y de alta calidad de iluminación y vista novedosas a partir de imágenes de entrada iluminadas desde múltiples puntos de vista. Para describir apariencias complejas, empleamos una función de reflectancia efectiva para cada Gaussiana espacial, compuesta por Lambertiano y una mezcla de Gaussiana angular. Para generar auto-sombras, proyectamos todas las Gaussiana espaciales hacia la fuente de luz para obtener valores de sombra, los cuales son refinados por un pequeño perceptrón multicapa. Para compensar otros efectos como la iluminación global, se entrena otra red para calcular y añadir una tupla RGB por Gaussiana espacial. La efectividad de nuestra representación se demuestra en 30 muestras con una amplia variación en geometría (desde sólida hasta esponjosa) y apariencia (desde translúcida hasta anisotrópica), utilizando diferentes formas de datos de entrada, incluyendo imágenes renderizadas de objetos sintéticos/reconstruidos, fotografías capturadas con una cámara de mano y flash, o desde un lightstage profesional. Logramos un tiempo de entrenamiento de 40-70 minutos y una velocidad de renderizado de 90 fps en una única GPU de consumo. Nuestros resultados se comparan favorablemente con técnicas de vanguardia en términos de calidad/rendimiento. Nuestro código y datos están disponibles públicamente en https://GSrelight.github.io/.
Los avances recientes en CV y NLP han sido impulsados en gran medida por el aumento en el número de parámetros de red, a pesar de que las teorías tradicionales sugieren que las redes más grandes son propensas al sobreajuste. Estas redes grandes evitan el sobreajuste al integrar componentes que inducen un sesgo hacia la simplicidad, guiando a los modelos hacia soluciones simples y generalizables. Sin embargo, en el aprendizaje profundo por refuerzo, el diseño y la ampliación de redes han sido menos explorados. Motivados por esta oportunidad, presentamos SimBa, una arquitectura diseñada para ampliar los parámetros en el aprendizaje profundo por refuerzo al inyectar un sesgo hacia la simplicidad. SimBa consta de tres componentes: (i) una capa de normalización de observaciones que estandariza las entradas con estadísticas en ejecución, (ii) un bloque residual feedforward para proporcionar una vía lineal desde la entrada hasta la salida, y (iii) una normalización de capa para controlar las magnitudes de las características. Al ampliar los parámetros con SimBa, la eficiencia de muestra de varios algoritmos de aprendizaje profundo por refuerzo, incluidos los métodos fuera de política, en política y no supervisados, se mejora de manera consistente. Además, solo integrando la arquitectura de SimBa en SAC, coincide o supera a los métodos de aprendizaje profundo por refuerzo de vanguardia con alta eficiencia computacional en DMC, MyoSuite y HumanoidBench. Estos resultados demuestran la amplia aplicabilidad y efectividad de SimBa en diversos algoritmos y entornos de aprendizaje por refuerzo.
La creciente demanda de sistemas robóticos versátiles para operar en entornos diversos y dinámicos ha enfatizado la importancia de una política generalista, que aprovecha un gran corpus de datos transversales de encarnaciones para facilitar una adaptabilidad amplia y un razonamiento de alto nivel. Sin embargo, el generalista tendría dificultades con inferencias ineficientes y un entrenamiento costoso. La política especialista, en cambio, está diseñada para datos de dominio específico y destaca en precisión a nivel de tarea con eficiencia. Aun así, carece de la capacidad de generalización para una amplia gama de aplicaciones. Inspirados por estas observaciones, presentamos RoboDual, un sistema dual sinérgico que complementa los méritos tanto de la política generalista como de la especialista. Se ha diseñado un especialista basado en transformadores de difusión para secuencias de acciones de múltiples pasos, exquisitamente condicionado por la comprensión de tareas de alto nivel y la salida de acciones discretizadas de un generalista basado en visión-lenguaje-acción (VLA). En comparación con OpenVLA, RoboDual logra una mejora del 26.7% en un entorno del mundo real y un aumento del 12% en CALVIN al introducir una política especialista con tan solo 20 millones de parámetros entrenables. Mantiene un rendimiento sólido con solo el 5% de los datos de demostración y permite una frecuencia de control 3.8 veces mayor en implementaciones del mundo real. El código estará disponible públicamente. Nuestra página de proyecto se encuentra en: https://opendrivelab.com/RoboDual/
El Efecto de Refuerzo Mutuo (ERM) investiga la relación sinérgica entre las clasificaciones a nivel de palabra y a nivel de texto en tareas de clasificación de texto. Postula que el rendimiento de ambos niveles de clasificación puede ser mutuamente mejorado. Sin embargo, este mecanismo no ha sido adecuadamente demostrado o explicado en investigaciones previas. Para abordar esta brecha, empleamos experimentos empíricos para observar y respaldar la teoría del ERM. Nuestros experimentos en 21 conjuntos de datos mixtos de ERM revelaron la presencia del ERM en el modelo y su impacto. Específicamente, realizamos experimentos de comparación utilizando fine-tune. Los resultados de los hallazgos de los experimentos de comparación corroboran la existencia del ERM. Además, extendimos la aplicación del ERM al aprendizaje de estímulos, utilizando información a nivel de palabra como verbalizador para reforzar la predicción del modelo de las etiquetas de clasificación a nivel de texto. En nuestro experimento final, el puntaje F1 superó significativamente la línea base en 18 de los 21 conjuntos de datos mixtos de ERM, validando aún más la noción de que la información a nivel de palabra mejora la comprensión del modelo de lenguaje del texto en su totalidad.
Enfoques recientes intentan adaptar modelos potentes de segmentación interactiva, como SAM, al enmascaramiento interactivo y ajustar los modelos basados en conjuntos de datos sintéticos de enmascaramiento. Sin embargo, los modelos entrenados con datos sintéticos no logran generalizar a escenas complejas y con oclusión. Abordamos este desafío proponiendo un nuevo conjunto de datos de enmascaramiento basado en el conjunto de datos COCO, llamado COCO-Matting. Específicamente, la construcción de nuestro COCO-Matting incluye fusión de accesorios y de máscara a mate, que selecciona imágenes complejas del mundo real de COCO y convierte máscaras de segmentación semántica en etiquetas de enmascaramiento. El COCO-Matting creado comprende una extensa colección de 38,251 mates alfa a nivel de instancia humana en escenarios naturales complejos. Además, los métodos de enmascaramiento basados en SAM existentes extraen características intermedias y máscaras de un SAM congelado y solo entrenan un decodificador de enmascaramiento liviano mediante pérdidas de enmascaramiento de extremo a extremo, que no explotan completamente el potencial del SAM preentrenado. Por lo tanto, proponemos SEMat, que renueva la arquitectura de red y los objetivos de entrenamiento. Para la arquitectura de red, el transformador de características propuesto alineado aprende a extraer características de bordes y transparencia detalladas. El decodificador de mate propuesto alineado con mate tiene como objetivo segmentar objetos específicos de enmascaramiento y convertir máscaras gruesas en mates de alta precisión. Para los objetivos de entrenamiento, la regularización propuesta y la pérdida de trimap buscan mantener el conocimiento previo del modelo preentrenado y empujar los logitos de enmascaramiento extraídos del decodificador de máscara para contener información semántica basada en trimap. Experimentos extensos en siete conjuntos de datos diversos demuestran el rendimiento superior de nuestro método, demostrando su eficacia en el enmascaramiento interactivo de imágenes naturales. Ponemos a disposición nuestro código, modelos y conjunto de datos en https://github.com/XiaRho/SEMat.
Recuperar y sintetizar información de manera eficiente en colecciones multimodales a gran escala se ha convertido en un desafío crítico. Sin embargo, los conjuntos de datos existentes para recuperación de videos sufren de limitaciones de alcance, centrándose principalmente en emparejar consultas descriptivas pero vagas con pequeñas colecciones de videos editados profesionalmente y centrados en el inglés. Para abordar esta brecha, presentamos MultiVENT 2.0, un banco de pruebas de recuperación de videos centrado en eventos a gran escala y multilingüe que cuenta con una colección de más de 218,000 videos de noticias y 3,906 consultas dirigidas a eventos mundiales específicos. Estas consultas apuntan específicamente a la información encontrada en el contenido visual, audio, texto incrustado y metadatos de los videos, requiriendo que los sistemas aprovechen todas estas fuentes para tener éxito en la tarea. Los resultados preliminares muestran que los modelos de visión-lenguaje de vanguardia tienen dificultades significativas con esta tarea, y aunque enfoques alternativos muestran promesa, aún son insuficientes para abordar adecuadamente este problema. Estos hallazgos subrayan la necesidad de sistemas de recuperación multimodales más robustos, ya que la recuperación efectiva de videos es un paso crucial hacia tareas de comprensión y generación de contenido multimodal.