Artículos de investigación en IA seleccionados diariamente con traducciones
En este trabajo, presentamos Qwen3, la última versión de la familia de modelos Qwen. Qwen3 comprende una serie de modelos de lenguaje de gran escala (LLMs) diseñados para mejorar el rendimiento, la eficiencia y las capacidades multilingües. La serie Qwen3 incluye modelos tanto de arquitectura densa como de Mixture-of-Expert (MoE), con escalas de parámetros que van desde 0.6 hasta 235 mil millones. Una innovación clave en Qwen3 es la integración del modo de pensamiento (para razonamiento complejo y de múltiples pasos) y el modo no pensante (para respuestas rápidas y basadas en contexto) en un marco unificado. Esto elimina la necesidad de cambiar entre diferentes modelos—como modelos optimizados para chat (por ejemplo, GPT-4o) y modelos dedicados al razonamiento (por ejemplo, QwQ-32B)—y permite el cambio dinámico de modo según las consultas del usuario o las plantillas de chat. Además, Qwen3 introduce un mecanismo de presupuesto de pensamiento, que permite a los usuarios asignar recursos computacionales de manera adaptativa durante la inferencia, equilibrando así la latencia y el rendimiento según la complejidad de la tarea. Asimismo, al aprovechar el conocimiento de los modelos principales, reducimos significativamente los recursos computacionales necesarios para construir modelos a menor escala, asegurando un rendimiento altamente competitivo. Las evaluaciones empíricas demuestran que Qwen3 logra resultados de vanguardia en diversos benchmarks, incluyendo tareas de generación de código, razonamiento matemático, tareas de agentes, etc., compitiendo con modelos MoE más grandes y modelos propietarios. En comparación con su predecesor Qwen2.5, Qwen3 amplía el soporte multilingüe de 29 a 119 idiomas y dialectos, mejorando la accesibilidad global mediante capacidades mejoradas de comprensión y generación translingüística. Para facilitar la reproducibilidad y la investigación y desarrollo impulsados por la comunidad, todos los modelos Qwen3 están disponibles públicamente bajo la licencia Apache 2.0.
Para mejorar la seguridad de los VLMs, este artículo introduce un nuevo modelo de protección basado en razonamiento denominado GuardReasoner-VL. La idea central es incentivar al modelo de protección a razonar deliberadamente antes de tomar decisiones de moderación mediante RL en línea. Primero, construimos GuardReasoner-VLTrain, un corpus de razonamiento con 123K muestras y 631K pasos de razonamiento, que abarca entradas de texto, imágenes y texto-imagen. Luego, basándonos en él, iniciamos la capacidad de razonamiento de nuestro modelo mediante SFT. Además, mejoramos aún más el razonamiento en cuanto a la moderación a través de RL en línea. Concretamente, para aumentar la diversidad y dificultad de las muestras, realizamos muestreo por rechazo seguido de aumento de datos mediante la propuesta de concatenación de datos consciente de la seguridad. Además, utilizamos un parámetro de recorte dinámico para fomentar la exploración en las etapas iniciales y la explotación en las etapas posteriores. Para equilibrar el rendimiento y la eficiencia de tokens, diseñamos una recompensa de seguridad consciente de la longitud que integra precisión, formato y costo de tokens. Experimentos extensos demuestran la superioridad de nuestro modelo. Notablemente, supera al segundo lugar por un 19.27% en puntuación F1 en promedio. Publicamos los datos, código y modelos (3B/7B) de GuardReasoner-VL en https://github.com/yueliu1999/GuardReasoner-VL/.
Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y sus extensiones multimodales (MLLMs) han mejorado sustancialmente el razonamiento automático en diversas tareas. Sin embargo, estos modelos dependen principalmente del texto puro como medio para expresar y estructurar el razonamiento, incluso cuando hay información visual presente. En este trabajo, argumentamos que el lenguaje puede no ser siempre la modalidad más natural o efectiva para el razonamiento, particularmente en tareas que involucran información espacial y geométrica. Motivados por esto, proponemos un nuevo paradigma, Planificación Visual, que permite planificar a través de representaciones puramente visuales, independientes del texto. En este paradigma, la planificación se ejecuta mediante secuencias de imágenes que codifican inferencias paso a paso en el dominio visual, de manera similar a cómo los humanos bosquejan o visualizan acciones futuras. Introducimos un novedoso marco de aprendizaje por refuerzo, Planificación Visual mediante Aprendizaje por Refuerzo (VPRL, por sus siglas en inglés), potenciado por GRPO para el ajuste posterior de grandes modelos de visión, lo que conduce a mejoras sustanciales en la planificación en una selección de tareas representativas de navegación visual: FrozenLake, Maze y MiniBehavior. Nuestro paradigma de planificación visual supera a todas las demás variantes de planificación que realizan el razonamiento únicamente en el espacio textual. Nuestros resultados establecen la Planificación Visual como una alternativa viable y prometedora al razonamiento basado en lenguaje, abriendo nuevas vías para tareas que se benefician de inferencias intuitivas basadas en imágenes.
La rápida extensión de ventanas de contexto en los grandes modelos de visión y lenguaje ha dado lugar a los modelos de visión y lenguaje de contexto largo (LCVLMs, por sus siglas en inglés), los cuales son capaces de manejar cientos de imágenes con tokens de texto intercalados en una sola pasada hacia adelante. En este trabajo, presentamos MMLongBench, el primer punto de referencia que cubre un conjunto diverso de tareas de visión y lenguaje de contexto largo, para evaluar los LCVLMs de manera efectiva y exhaustiva. MMLongBench está compuesto por 13,331 ejemplos que abarcan cinco categorías diferentes de tareas posteriores, como Visual RAG y Many-Shot ICL. También ofrece una amplia cobertura de tipos de imágenes, incluyendo diversas imágenes naturales y sintéticas. Para evaluar la robustez de los modelos frente a diferentes longitudes de entrada, todos los ejemplos se presentan en cinco longitudes de entrada estandarizadas (8K-128K tokens) mediante un esquema de tokenización multimodal que combina parches de visión y tokens de texto. A través de una evaluación exhaustiva de 46 LCVLMs, tanto de código cerrado como abierto, proporcionamos un análisis completo de la capacidad actual de los modelos en tareas de visión y lenguaje de contexto largo. Nuestros resultados muestran que: i) el rendimiento en una sola tarea es un indicador débil de la capacidad general de contexto largo; ii) tanto los modelos de código cerrado como los de código abierto enfrentan desafíos en tareas de visión y lenguaje de contexto largo, lo que indica un margen sustancial para futuras mejoras; iii) los modelos con mayor capacidad de razonamiento tienden a exhibir un mejor rendimiento en contexto largo. Al ofrecer una amplia cobertura de tareas, diversos tipos de imágenes y un control riguroso de la longitud, MMLongBench proporciona la base faltante para diagnosticar y avanzar la próxima generación de LCVLMs.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado el poder del razonamiento a través de cadenas de pensamiento autogeneradas. Múltiples agentes de razonamiento pueden colaborar para elevar la calidad del razonamiento conjunto por encima de los resultados individuales. Sin embargo, estos agentes suelen interactuar de manera secuencial, intercambiando mayor latencia por una mejora en la calidad. En este artículo, proponemos Group Think: un único LLM que actúa como múltiples agentes de razonamiento concurrentes, o pensadores. Con visibilidad compartida del progreso parcial de generación de cada uno, Group Think introduce un nuevo paradigma de razonamiento concurrente en el que múltiples trayectorias de razonamiento se adaptan dinámicamente entre sí a nivel de tokens. Por ejemplo, un hilo de razonamiento puede cambiar su generación a mitad de frase al detectar que otro hilo está mejor posicionado para continuar. Esta colaboración detallada a nivel de token permite a Group Think reducir el razonamiento redundante y mejorar la calidad, al mismo tiempo que logra una latencia significativamente menor. Además, su naturaleza concurrente permite un uso eficiente de los recursos computacionales inactivos, lo que lo hace especialmente adecuado para la inferencia en el edge, donde tamaños de lote muy pequeños suelen subutilizar las GPUs locales. Proporcionamos una modificación simple y generalizable que permite a cualquier LLM existente realizar Group Think en una GPU local. También presentamos una estrategia de evaluación para comparar la latencia de razonamiento y demostramos empíricamente mejoras en la latencia utilizando LLMs de código abierto que no fueron entrenados explícitamente para Group Think. Esperamos que este trabajo allane el camino para que futuros LLMs exhiban un comportamiento colaborativo más sofisticado y eficiente, permitiendo una generación de mayor calidad.
Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) han logrado un éxito notable en diversas tareas al aprovechar información textual rica con un mínimo de datos etiquetados. Sin embargo, desplegar estos modelos grandes sigue siendo un desafío, especialmente en entornos con recursos limitados. La destilación de conocimiento (KD, por sus siglas en inglés) ofrece una solución bien establecida a este problema; no obstante, los enfoques recientes de KD basados en VLMs a menudo implican entrenamiento en múltiples etapas o ajustes adicionales, lo que aumenta la sobrecarga computacional y la complejidad de la optimización. En este artículo, proponemos texttt{D}ual-texttt{H}ead texttt{O}ptimization (texttt{DHO}) — un marco de KD simple pero efectivo que transfiere conocimiento de VLMs a modelos compactos y específicos de tareas en entornos semi-supervisados. Específicamente, introducimos cabezales de predicción duales que aprenden de manera independiente a partir de datos etiquetados y predicciones del modelo maestro, y proponemos combinar linealmente sus salidas durante la inferencia. Observamos que DHO mitiga los conflictos de gradiente entre las señales supervisadas y de destilación, permitiendo un aprendizaje de características más efectivo que los enfoques de KD de cabezal único. Como resultado, experimentos extensos muestran que DHO supera consistentemente a los enfoques de referencia en múltiples dominios y conjuntos de datos de gran detalle. Notablemente, en ImageNet, logra un rendimiento de vanguardia, mejorando la precisión en un 3% y un 0.1% con un 1% y un 10% de datos etiquetados, respectivamente, mientras utiliza menos parámetros.
La fusión de modelos permite combinar las capacidades de modelos existentes en uno nuevo, de manera posterior y sin necesidad de entrenamiento adicional. Esto ha ganado popularidad debido a su bajo costo y a la disponibilidad de bibliotecas que soportan la fusión en GPUs de consumo. Trabajos recientes muestran que combinar la fusión con algoritmos evolutivos puede mejorar el rendimiento, pero actualmente no existe un marco que permita experimentar de manera flexible con estas estrategias en modelos de lenguaje. Presentamos Mergenetic, una biblioteca de código abierto para la fusión evolutiva de modelos. Mergenetic facilita la composición de métodos de fusión y algoritmos evolutivos, incorporando estimadores de aptitud ligeros para reducir los costos de evaluación. Describimos su diseño y demostramos que Mergenetic produce resultados competitivos en diversas tareas y lenguajes utilizando hardware modesto.
La predicción de múltiples tokens ha surgido como un objetivo prometedor para mejorar el preentrenamiento de modelos de lenguaje, pero sus beneficios no se han generalizado de manera consistente a otros escenarios, como el ajuste fino. En este artículo, proponemos MuToR, un enfoque simple y efectivo para la predicción de múltiples tokens que intercala tokens de registro aprendibles en la secuencia de entrada, cada uno encargado de predecir objetivos futuros. En comparación con los métodos existentes, MuToR ofrece varias ventajas clave: introduce solo un número insignificante de parámetros adicionales, no requiere cambios arquitectónicos—asegurando compatibilidad con modelos de lenguaje preentrenados disponibles—y se mantiene alineado con el objetivo de preentrenamiento de siguiente token, lo que lo hace especialmente adecuado para el ajuste fino supervisado. Además, admite de manera natural horizontes de predicción escalables. Demostramos la efectividad y versatilidad de MuToR en una variedad de casos de uso, incluyendo ajuste fino supervisado, ajuste fino eficiente en parámetros (PEFT) y preentrenamiento, en tareas generativas desafiantes tanto en dominios de lenguaje como de visión. Nuestro código estará disponible en: https://github.com/nasosger/MuToR.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento sólido en una amplia gama de tareas de programación, aunque su potencial para la optimización de código sigue siendo poco explorado. Este trabajo investiga si los LLMs pueden optimizar el rendimiento del código ensamblador, donde el control detallado sobre la ejecución permite mejoras que son difíciles de expresar en lenguajes de alto nivel. Presentamos un marco de aprendizaje por refuerzo que entrena LLMs utilizando Optimización de Política Proximal (PPO), guiado por una función de recompensa que considera tanto la corrección funcional, validada mediante casos de prueba, como el rendimiento de ejecución en comparación con el compilador estándar de la industria gcc -O3. Para respaldar este estudio, introducimos un conjunto de referencia de 8,072 programas del mundo real. Nuestro modelo, Qwen2.5-Coder-7B-PPO, alcanza una tasa de aprobación de pruebas del 96.0% y una aceleración promedio de 1.47x sobre la línea base de gcc -O3, superando a los otros 20 modelos evaluados, incluido Claude-3.7-sonnet. Estos resultados indican que el aprendizaje por refuerzo puede desbloquear el potencial de los LLMs para servir como optimizadores efectivos del rendimiento del código ensamblador.
La Demostración Automática de Teoremas (ATP) en lenguajes formales sigue siendo un desafío formidable en la IA, que exige deducción lógica rigurosa y la navegación por vastos espacios de búsqueda. Si bien los modelos de lenguaje de gran escala (LLMs) han mostrado un rendimiento prometedor, los demostradores paso a paso existentes a menudo sufren de una guía de búsqueda sesgada, lo que conduce a ineficiencias y estrategias de demostración subóptimas. Este artículo presenta el Multi-Perspective Search Prover (MPS-Prover), un novedoso sistema de ATP paso a paso diseñado para superar estas limitaciones. MPS-Prover incorpora dos innovaciones clave: una estrategia altamente efectiva de curación de datos post-entrenamiento que elimina aproximadamente el 40% de los datos de entrenamiento redundantes sin sacrificar el rendimiento, y un mecanismo de búsqueda en árbol multi-perspectiva. Esta búsqueda integra un modelo crítico aprendido con reglas heurísticas estratégicamente diseñadas para diversificar la selección de tácticas, evitar quedar atrapado en estados improductivos y mejorar la robustez de la búsqueda. Evaluaciones exhaustivas demuestran que MPS-Prover alcanza un rendimiento de vanguardia en múltiples benchmarks desafiantes, incluyendo miniF2F y ProofNet, superando a modelos previos de 7B parámetros. Además, nuestros análisis revelan que MPS-Prover genera demostraciones significativamente más cortas y diversas en comparación con los métodos paso a paso y de demostración completa existentes, destacando su eficiencia y eficacia. Nuestro trabajo avanza las capacidades del razonamiento formal basado en LLMs y ofrece un marco robusto y un análisis exhaustivo para desarrollar demostradores de teoremas más potentes.
A pesar de los rápidos avances en las capacidades de los modelos generativos, los modelos preentrenados de texto a imagen aún tienen dificultades para capturar la semántica transmitida por indicaciones complejas que combinan múltiples objetos y atributos a nivel de instancia. En consecuencia, estamos observando un creciente interés en integrar restricciones estructurales adicionales, típicamente en forma de cuadros delimitadores aproximados, para guiar mejor el proceso de generación en estos casos desafiantes. En este trabajo, llevamos la idea de guía estructural un paso más allá al observar que los modelos contemporáneos de generación de imágenes pueden proporcionar directamente una inicialización estructural detallada y plausible. Proponemos una técnica que combina esta guía estructural basada en imágenes con instrucciones a nivel de instancia basadas en modelos de lenguaje grandes (LLM), produciendo imágenes de salida que se adhieren a todas las partes de la indicación de texto, incluyendo el número de objetos, los atributos a nivel de instancia y las relaciones espaciales entre instancias.
Estudios recientes sobre las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han demostrado mejoras prometedoras en el rendimiento de los modelos al aprovechar un proceso de pensamiento prolongado y recursos computacionales adicionales durante la inferencia, principalmente en tareas que involucran razonamiento matemático (Muennighoff et al., 2025). Sin embargo, sigue siendo incierto si las cadenas de razonamiento más largas mejoran inherentemente la precisión factual, particularmente más allá de los contextos matemáticos. En este trabajo, examinamos exhaustivamente el razonamiento de los LLM en escenarios complejos de respuesta a preguntas en dominios abiertos (QA, por sus siglas en inglés). Inicialmente, destilamos trazas de razonamiento de modelos avanzados de razonamiento a gran escala (QwQ-32B y DeepSeek-R1-671B), luego ajustamos finamente una variedad de modelos que van desde variantes más pequeñas ajustadas por instrucciones hasta arquitecturas más grandes basadas en Qwen2.5. Para enriquecer las trazas de razonamiento, introducimos información factual de grafos de conocimiento en forma de rutas en nuestras trazas de razonamiento. Nuestra configuración experimental incluye cuatro enfoques de referencia y seis modelos diferentes ajustados por instrucciones evaluados en un conjunto de seis conjuntos de datos, que abarcan más de 22.6K preguntas. En general, llevamos a cabo 168 ejecuciones experimentales y analizamos aproximadamente 1.7 millones de trazas de razonamiento. Nuestros hallazgos indican que, en una sola ejecución, los modelos de razonamiento más pequeños logran mejoras notables en la precisión factual en comparación con sus contrapartes originales ajustadas por instrucciones. Además, nuestro análisis demuestra que agregar recursos computacionales y presupuestos de tokens en tiempo de prueba mejora consistentemente la precisión factual en un 2-8%, confirmando aún más la efectividad del escalado en tiempo de prueba para mejorar el rendimiento y, en consecuencia, la precisión del razonamiento en tareas de QA en dominios abiertos. Publicamos todos los artefactos experimentales para futuras investigaciones.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se están aplicando cada vez más a cuestiones de ciencia de materiales, incluyendo la comprensión de literatura, predicción de propiedades, descubrimiento de materiales y diseño de aleaciones. Al mismo tiempo, se han desarrollado una amplia gama de enfoques computacionales basados en física que permiten calcular las propiedades de los materiales. Aquí, proponemos una aplicación de referencia para evaluar la competencia de los LLMs para responder preguntas de ciencia de materiales mediante la generación y ejecución segura de códigos basados en paquetes computacionales de ciencia de materiales fundamentados en física. MatTools se construye sobre dos componentes complementarios: un benchmark de preguntas y respuestas (QA) para herramientas de simulación de materiales y un benchmark de uso de herramientas en el mundo real. Diseñamos una metodología automatizada para recopilar de manera eficiente ejemplos de uso de herramientas de ciencia de materiales en contextos reales. El benchmark de QA, derivado del código base y la documentación de pymatgen (Python Materials Genomics), comprende 69,225 pares de preguntas y respuestas que evalúan la capacidad de un LLM para comprender herramientas de ciencia de materiales. El benchmark del mundo real contiene 49 tareas (138 subtareas) que requieren la generación de código Python funcional para cálculos de propiedades de materiales. Nuestra evaluación de diversos LLMs arroja tres conclusiones clave: (1) Los generalistas superan a los especialistas; (2) La IA conoce a la IA; y (3) Lo más simple es mejor. MatTools proporciona un marco estandarizado para evaluar y mejorar las capacidades de los LLMs en aplicaciones de herramientas de ciencia de materiales, facilitando el desarrollo de sistemas de IA más efectivos para la ciencia de materiales y la investigación científica en general.
A medida que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se integran en nuestras interacciones sociales y económicas, es necesario profundizar en nuestra comprensión de cómo los humanos responden a los LLMs en entornos estratégicos. Presentamos los resultados del primer experimento de laboratorio controlado y monetariamente incentivado que examina las diferencias en el comportamiento humano en un concurso de belleza p con múltiples jugadores, enfrentándose tanto a otros humanos como a LLMs. Utilizamos un diseño intra-sujeto para comparar el comportamiento a nivel individual. Demostramos que, en este entorno, los sujetos humanos eligen números significativamente más bajos cuando juegan contra LLMs que contra humanos, lo cual está principalmente impulsado por una mayor prevalencia de elecciones de equilibrio de Nash en 'cero'. Este cambio es principalmente impulsado por sujetos con alta capacidad de razonamiento estratégico. Los sujetos que eligen la estrategia de equilibrio de Nash en cero justifican su decisión apelando a la percepción de la capacidad de razonamiento de los LLMs y, de manera inesperada, a su propensión hacia la cooperación. Nuestros hallazgos proporcionan conocimientos fundamentales sobre la interacción humano-LLM en juegos de elección simultánea con múltiples jugadores, revelan heterogeneidades tanto en el comportamiento de los sujetos como en sus creencias sobre el juego de los LLMs cuando compiten contra ellos, y sugieren implicaciones importantes para el diseño de mecanismos en sistemas mixtos humano-LLM.
La edición de imágenes mediante instrucciones en lenguaje natural se ha convertido en una forma natural y expresiva de modificar contenido visual; sin embargo, evaluar el rendimiento de tales modelos sigue siendo un desafío. Los enfoques de evaluación existentes a menudo dependen de métricas de similitud entre imagen y texto, como CLIP, que carecen de precisión. En este trabajo, presentamos un nuevo punto de referencia diseñado para evaluar modelos de edición de imágenes guiados por texto de una manera más fundamentada, en dos dimensiones críticas: (i) corrección funcional, evaluada mediante preguntas de opción múltiple generadas automáticamente que verifican si el cambio deseado se aplicó correctamente; y (ii) preservación del contenido de la imagen, que asegura que las regiones no objetivo de la imagen permanezcan visualmente consistentes mediante una técnica de enmascaramiento consciente de objetos y una puntuación de preservación. El punto de referencia incluye más de 1000 ejemplos de edición de alta calidad en 20 categorías de contenido diversas, cada uno anotado con instrucciones detalladas de edición, preguntas de evaluación y máscaras espaciales de objetos. Realizamos un estudio a gran escala comparando GPT-Image-1, el último modelo destacado en el ámbito de la edición de imágenes guiadas por texto, con varios modelos de edición de vanguardia, y validamos nuestras métricas automáticas frente a calificaciones humanas. Los resultados muestran que GPT-Image-1 lidera en precisión de seguimiento de instrucciones, pero a menudo modifica en exceso regiones irrelevantes de la imagen, destacando un equilibrio clave en el comportamiento actual del modelo. GIE-Bench proporciona un marco escalable y reproducible para avanzar hacia una evaluación más precisa de la edición de imágenes guiadas por texto.
Las manos son esenciales para la interacción humana, y comprender el contacto entre las manos y el mundo puede promover una comprensión integral de su función. Recientemente, ha habido un creciente número de conjuntos de datos sobre interacciones manuales que cubren la interacción con objetos, otras manos, escenas y el cuerpo. A pesar de la importancia de la tarea y del aumento de datos de alta calidad, cómo aprender efectivamente la estimación densa del contacto manual sigue siendo un área poco explorada. Existen dos desafíos principales para aprender la estimación densa del contacto manual. Primero, existe un problema de desequilibrio de clases en los conjuntos de datos de contacto manual, donde la mayoría de las muestras no están en contacto. Segundo, los conjuntos de datos de contacto manual contienen un problema de desequilibrio espacial, ya que la mayor parte del contacto manual se exhibe en las puntas de los dedos, lo que resulta en desafíos para generalizar hacia contactos en otras regiones de la mano. Para abordar estos problemas, presentamos un marco que aprende la estimación densa de contacto manual (HACO) a partir de datos desequilibrados. Para resolver el problema de desequilibrio de clases, introducimos el muestreo equilibrado de contacto, que construye y muestrea a partir de múltiples grupos de muestreo que representan de manera justa diversas estadísticas de contacto tanto para muestras en contacto como no en contacto. Además, para abordar el problema de desequilibrio espacial, proponemos una pérdida equilibrada a nivel de vértice (VCB), que incorpora una distribución de contacto espacialmente variable al reajustar por separado la contribución de la pérdida de cada vértice según su frecuencia de contacto en el conjunto de datos. Como resultado, aprendemos efectivamente a predecir la estimación densa del contacto manual con datos de contacto manual a gran escala sin sufrir los problemas de desequilibrio de clases y espacial. Los códigos serán liberados.
La segmentación precisa de regiones de interés en imágenes biomédicas tiene un valor sustancial en el análisis de imágenes. Aunque varios modelos base para segmentación biomédica han logrado actualmente un rendimiento excelente en ciertos conjuntos de datos, suelen demostrar un rendimiento subóptimo en datos de dominios no vistos. Atribuimos esta deficiencia a la falta de conocimiento visión-lenguaje antes de la segmentación. Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) aportan capacidades sobresalientes de comprensión y razonamiento a tareas multimodales, lo que nos inspira a aprovechar los MLLMs para inyectar Conocimiento Visión-Lenguaje (VLK), permitiendo así que los modelos de visión demuestren capacidades de generalización superiores en conjuntos de datos de dominios cruzados. En este artículo, proponemos utilizar MLLMs para guiar a SAM en el aprendizaje de datos de microscopía de dominios cruzados, unificando Segment Anything en Microscopía, denominado uLLSAM. Específicamente, proponemos el módulo de Alineación Semántica Visión-Lenguaje (VLSA), que inyecta VLK en el Modelo de Segmentación Anything (SAM). Descubrimos que, después de que SAM recibe indicaciones globales de VLK, su rendimiento mejora significativamente, pero existen deficiencias en la percepción de los contornos de los límites. Por lo tanto, proponemos adicionalmente la Regularización de Límites Semánticos (SBR) para guiar a SAM. Nuestro método logra mejoras de rendimiento del 7.71% en Dice y del 12.10% en SA en 9 conjuntos de datos de microscopía dentro del dominio, alcanzando un rendimiento de vanguardia. Nuestro método también demuestra mejoras del 6.79% en Dice y del 10.08% en SA en 10 conjuntos de datos fuera del dominio, exhibiendo fuertes capacidades de generalización. El código está disponible en https://github.com/ieellee/uLLSAM.
Presentamos CheXGenBench, un marco de evaluación riguroso y multifacético para la generación sintética de radiografías torácicas que evalúa simultáneamente la fidelidad, los riesgos de privacidad y la utilidad clínica en los modelos generativos de texto a imagen más avanzados. A pesar de los rápidos avances en la IA generativa para imágenes del mundo real, las evaluaciones en el dominio médico se han visto obstaculizadas por inconsistencias metodológicas, comparaciones arquitectónicas obsoletas y criterios de evaluación desconectados que rara vez abordan el valor clínico práctico de las muestras sintéticas. CheXGenBench supera estas limitaciones mediante una partición de datos estandarizada y un protocolo de evaluación unificado que comprende más de 20 métricas cuantitativas que analizan sistemáticamente la calidad de la generación, las posibles vulnerabilidades de privacidad y la aplicabilidad clínica en 11 arquitecturas líderes de texto a imagen. Nuestros resultados revelan ineficiencias críticas en los protocolos de evaluación existentes, particularmente en la evaluación de la fidelidad generativa, lo que lleva a comparaciones inconsistentes y poco informativas. Nuestro marco establece un punto de referencia estandarizado para la comunidad de IA médica, permitiendo comparaciones objetivas y reproducibles mientras facilita la integración sin problemas de modelos generativos tanto existentes como futuros. Además, publicamos un conjunto de datos sintéticos de alta calidad, SynthCheX-75K, que comprende 75,000 radiografías generadas por el modelo de mejor rendimiento (Sana 0.6B) en nuestro punto de referencia, para apoyar investigaciones adicionales en este dominio crítico. A través de CheXGenBench, establecemos un nuevo estado del arte y publicamos nuestro marco, modelos y el conjunto de datos SynthCheX-75K en https://raman1121.github.io/CheXGenBench/.
El auge de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) ha incrementado las preocupaciones sobre el mal uso de textos generados por IA, haciendo que la marca de agua (watermarking) se presente como una solución prometedora. Los esquemas principales de marca de agua para LLMs se dividen en dos categorías: basados en logits y basados en muestreo. Sin embargo, los esquemas actuales implican compromisos entre robustez, calidad del texto y seguridad. Para mitigar esto, integramos esquemas basados en logits y en muestreo, aprovechando sus respectivas fortalezas para lograr sinergia. En este artículo, proponemos un marco versátil de marca de agua simbiótica con tres estrategias: serial, paralela e híbrida. El marco híbrido incrusta marcas de agua de manera adaptativa utilizando la entropía de tokens y la entropía semántica, optimizando el equilibrio entre detectabilidad, robustez, calidad del texto y seguridad. Además, validamos nuestro enfoque mediante experimentos exhaustivos en diversos conjuntos de datos y modelos. Los resultados experimentales indican que nuestro método supera a los baselines existentes y alcanza un rendimiento de vanguardia (SOTA, por sus siglas en inglés). Creemos que este marco proporciona nuevas perspectivas sobre diversos paradigmas de marca de agua. Nuestro código está disponible en https://github.com/redwyd/SymMark{https://github.com/redwyd/SymMark}.
La Transferencia de Estilo con Optimización en Tiempo de Inferencia (ST-ITO) es un enfoque reciente para transferir los efectos aplicados de un audio de referencia a una pista de audio sin procesar. Este método optimiza los parámetros de los efectos para minimizar la distancia entre los embeddings de estilo del audio procesado y el de referencia. Sin embargo, este enfoque trata todas las configuraciones posibles por igual y se basa únicamente en el espacio de embeddings, lo que puede dar lugar a resultados poco realistas o sesgados. Abordamos este problema introduciendo un previo gaussiano derivado de un conjunto de datos de presets vocales, DiffVox, sobre el espacio de parámetros. La optimización resultante es equivalente a una estimación de máxima a posteriori. Las evaluaciones sobre la transferencia de efectos vocales en el conjunto de datos MedleyDB muestran mejoras significativas en varias métricas en comparación con los métodos de referencia, incluyendo un estimador ciego de efectos de audio, enfoques de vecino más cercano y ST-ITO sin calibrar. La calibración propuesta reduce el error cuadrático medio de los parámetros hasta en un 33% y coincide mejor con el estilo de referencia. Las evaluaciones subjetivas con 16 participantes confirman la superioridad de nuestro método, especialmente en regímenes de datos limitados. Este trabajo demuestra cómo la incorporación de conocimiento previo en el tiempo de inferencia mejora la transferencia de efectos de audio, allanando el camino para sistemas de procesamiento de audio más efectivos y realistas.