Artículos de investigación en IA seleccionados diariamente con traducciones
En este documento, presentamos Medical SAM 2 (MedSAM-2), un modelo avanzado de segmentación que utiliza el marco SAM 2 para abordar tareas de segmentación de imágenes médicas en 2D y 3D. Al adoptar la filosofía de considerar las imágenes médicas como videos, MedSAM-2 no solo se aplica a imágenes médicas en 3D, sino que también desbloquea una nueva capacidad de Segmentación de Una Sola Pista. Esto permite a los usuarios proporcionar una pista para solo una imagen específica, apuntando a un objeto, después de lo cual el modelo puede segmentar de manera autónoma el mismo tipo de objeto en todas las imágenes subsiguientes, independientemente de las relaciones temporales entre las imágenes. Evaluamos MedSAM-2 en una variedad de modalidades de imágenes médicas, incluidos órganos abdominales, discos ópticos, tumores cerebrales, nódulos tiroideos y lesiones cutáneas, comparándolo con modelos de vanguardia tanto en configuraciones de segmentación tradicionales como interactivas. Nuestros hallazgos muestran que MedSAM-2 no solo supera a los modelos existentes en rendimiento, sino que también exhibe una generalización superior en una variedad de tareas de segmentación de imágenes médicas. Nuestro código se publicará en: https://github.com/MedicineToken/Medical-SAM2
El pre-entrenamiento auto-supervisado a gran escala ha allanado el camino para que un modelo base maneje muchas tareas de visión diferentes. La mayoría de las metodologías de pre-entrenamiento entrenan un único modelo de cierto tamaño a la vez. Sin embargo, diversas limitaciones de cómputo o almacenamiento en escenarios del mundo real requieren esfuerzos sustanciales para desarrollar una serie de modelos con diferentes tamaños para implementar. Por lo tanto, en este estudio, proponemos un nuevo marco de entrenamiento auto-supervisado de tres ramas, denominado POA (Pre-entrenamiento Una Vez para Todos), para abordar este problema mencionado anteriormente. Nuestro enfoque introduce una innovadora rama estudiante elástica en un paradigma moderno de auto-difusión. En cada paso de pre-entrenamiento, muestreamos aleatoriamente una subred del estudiante original para formar el estudiante elástico y entrenamos todas las ramas de manera auto-difundida. Una vez pre-entrenado, POA permite la extracción de modelos pre-entrenados de diversos tamaños para tareas posteriores. Notablemente, el estudiante elástico facilita el pre-entrenamiento simultáneo de múltiples modelos con diferentes tamaños, que también actúa como un conjunto adicional de modelos de varios tamaños para mejorar el aprendizaje de representaciones. Experimentos extensos, incluyendo vecinos más cercanos, evaluación de sondas lineales y evaluaciones en múltiples tareas posteriores, demuestran la efectividad y ventajas de nuestro POA. Logra un rendimiento de vanguardia utilizando las arquitecturas ViT, Swin Transformer y ResNet, generando alrededor de cien modelos con diferentes tamaños a través de una sola sesión de pre-entrenamiento. El código está disponible en: https://github.com/Qichuzyy/POA.
El Enlazado de Entidades (EL) y la Extracción de Relaciones (RE) son tareas fundamentales en el Procesamiento del Lenguaje Natural, sirviendo como componentes críticos en una amplia gama de aplicaciones. En este documento, proponemos ReLiK, una arquitectura de Recuperador-Lector para EL y RE, donde, dado un texto de entrada, el módulo de Recuperador se encarga de la identificación de entidades o relaciones candidatas que podrían aparecer potencialmente dentro del texto. Posteriormente, el módulo Lector tiene la tarea de discernir las entidades o relaciones pertinentes recuperadas y establecer su alineación con los fragmentos textuales correspondientes. Destacamos una representación de entrada innovadora que incorpora las entidades o relaciones candidatas junto con el texto, lo que permite enlazar entidades o extraer relaciones en un solo pase hacia adelante y aprovechar plenamente las capacidades de contextualización de modelos de lenguaje pre-entrenados, en contraste con los métodos basados en Recuperador-Lector previos, que requieren un pase hacia adelante para cada candidato. Nuestra formulación de EL y RE logra un rendimiento de vanguardia tanto en conjuntos de datos dentro del dominio como fuera de él, utilizando un presupuesto académico de entrenamiento y con una velocidad de inferencia de hasta 40 veces mayor en comparación con competidores. Finalmente, mostramos cómo nuestra arquitectura puede ser utilizada de manera transparente para la Extracción de Información (cIE), es decir, EL + RE, y establecer un nuevo estado del arte mediante el empleo de un Lector compartido que extrae simultáneamente entidades y relaciones.
Dado un mallado 3D, nuestro objetivo es sintetizar texturas 3D que correspondan a descripciones textuales arbitrarias. Los métodos actuales para generar y ensamblar texturas a partir de vistas muestreadas a menudo resultan en costuras prominentes o suavizado excesivo. Para abordar estos problemas, presentamos TexGen, un novedoso marco de muestreo y remuestreo multi-vista para la generación de texturas que aprovecha un modelo de difusión de texto a imagen pre-entrenado. Para un muestreo consistente de vistas, en primer lugar mantenemos un mapa de textura en el espacio RGB que está parametrizado por el paso de eliminación de ruido y se actualiza después de cada paso de muestreo del modelo de difusión para reducir progresivamente la discrepancia de vistas. Se emplea una estrategia de muestreo multi-vista guiada por atención para difundir la información de apariencia entre vistas. Para preservar los detalles de la textura, desarrollamos una técnica de remuestreo de ruido que ayuda en la estimación del ruido, generando entradas para los pasos de eliminación de ruido subsiguientes, según lo indicado por la instrucción de texto y el mapa de textura actual. A través de una cantidad extensa de evaluaciones cualitativas y cuantitativas, demostramos que nuestro método propuesto produce una calidad de textura significativamente mejor para diversos objetos 3D con un alto grado de consistencia de vistas y ricos detalles de apariencia, superando a los métodos actuales de vanguardia. Además, nuestra técnica propuesta de generación de texturas también se puede aplicar a la edición de texturas preservando la identidad original. Más resultados experimentales están disponibles en https://dong-huo.github.io/TexGen/
Los modelos multimodales que procesan conjuntamente audio y lenguaje prometen mucho en la comprensión del audio y están siendo cada vez más adoptados en el ámbito musical. Al permitir a los usuarios hacer consultas a través de texto y obtener información sobre un audio dado, estos modelos tienen el potencial de habilitar una variedad de tareas de comprensión musical a través de interfaces basadas en lenguaje. Sin embargo, su evaluación plantea desafíos considerables y aún no está claro cómo evaluar efectivamente su capacidad para interpretar correctamente entradas relacionadas con la música con los métodos actuales. Motivados por esto, presentamos MuChoMusic, un banco de pruebas para evaluar la comprensión musical en modelos de lenguaje multimodales centrados en audio. MuChoMusic consta de 1,187 preguntas de opción múltiple, todas validadas por anotadores humanos, sobre 644 pistas musicales obtenidas de dos conjuntos de datos musicales públicamente disponibles, y abarca una amplia variedad de géneros. Las preguntas en el banco de pruebas están diseñadas para evaluar conocimientos y habilidades de razonamiento en varias dimensiones que cubren conceptos musicales fundamentales y su relación con contextos culturales y funcionales. A través del análisis holístico proporcionado por el banco de pruebas, evaluamos cinco modelos de código abierto e identificamos varios problemas, incluida una excesiva dependencia de la modalidad del lenguaje, lo que señala la necesidad de una mejor integración multimodal. Los datos y el código son de código abierto.
La capacidad de los grandes modelos de lenguaje generativos (LLMs, por sus siglas en inglés) para realizar aprendizaje en contexto ha dado lugar a una gran cantidad de investigaciones sobre la mejor manera de guiar a los modelos para diversas tareas de procesamiento de lenguaje natural. En este artículo, nos enfocamos en la traducción automática (MT, por sus siglas en inglés), una tarea que se ha demostrado que se beneficia de ejemplos de traducción en contexto. Sin embargo, no se han publicado estudios sistemáticos sobre la mejor manera de seleccionar ejemplos, y se han reportado resultados mixtos sobre la utilidad de la selección basada en similitud en comparación con la selección aleatoria. Presentamos un estudio que abarca múltiples LLMs y múltiples estrategias de recuperación de ejemplos en contexto, comparando incrustaciones de oraciones multilingües. Cubrimos varias direcciones de idioma, representando diferentes niveles de recursos lingüísticos (inglés a francés, alemán, suajili y wolof). Contrariamente a los resultados previamente publicados, encontramos que la similitud de incrustación de oraciones puede mejorar la traducción automática, especialmente para direcciones de idioma con pocos recursos, y discutimos el equilibrio entre la diversidad y la calidad del conjunto de selección. También destacamos posibles problemas con la evaluación de la traducción automática basada en LLMs y sugerimos un protocolo de evaluación más apropiado, adaptando la métrica COMET a la evaluación de LLMs. El código y los resultados están disponibles de forma gratuita en https://github.com/ArmelRandy/ICL-MT.
Presentamos RelBench, un banco de pruebas público para resolver tareas predictivas en bases de datos relacionales con redes neuronales gráficas. RelBench ofrece bases de datos y tareas que abarcan diversos dominios y escalas, y está destinado a ser una infraestructura fundamental para investigaciones futuras. Utilizamos RelBench para llevar a cabo el primer estudio exhaustivo de Aprendizaje Profundo Relacional (RDL) (Fey et al., 2024), que combina modelos predictivos de redes neuronales gráficas con modelos tabulares (profundos) que extraen representaciones iniciales a nivel de entidad a partir de tablas sin procesar. Los modelos RDL aprendidos de extremo a extremo explotan completamente la señal predictiva codificada en los enlaces clave primaria-externa, marcando un cambio significativo lejos del paradigma dominante de ingeniería manual de características combinado con modelos tabulares. Para evaluar a fondo RDL frente a este estándar de oro previo, realizamos un estudio de usuario detallado donde un científico de datos experimentado diseña manualmente características para cada tarea. En este estudio, RDL aprende modelos mejores mientras reduce el trabajo humano necesario en más de un orden de magnitud. Esto demuestra el poder del aprendizaje profundo para resolver tareas predictivas en bases de datos relacionales, abriendo muchas nuevas oportunidades de investigación habilitadas por RelBench.
¿Qué características latentes están codificadas en las representaciones del modelo de lenguaje (LM)? Trabajos recientes sobre el entrenamiento de autoencoders dispersos (SAEs) para desentrañar características interpretables en las representaciones de LM han mostrado un gran potencial. Sin embargo, evaluar la calidad de estos SAEs es difícil porque carecemos de una colección de características interpretables de referencia que esperamos que los buenos SAEs recuperen. Por lo tanto, proponemos medir el progreso en el aprendizaje de diccionarios interpretables trabajando en el entorno de LMs entrenados en transcripciones de ajedrez y Othello. Estos entornos contienen colecciones naturales de características interpretables, por ejemplo, "hay un caballo en F3", las cuales aprovechamos para crear métricas supervisadas de calidad de SAE. Para guiar el progreso en el aprendizaje de diccionarios interpretables, presentamos una nueva técnica de entrenamiento de SAE, el p-annealing, que mejora el rendimiento en métricas no supervisadas anteriores, así como en nuestras nuevas métricas.