Artículos de investigación en IA seleccionados diariamente con traducciones
La comprensión de la literatura científica es crucial para extraer información específica y obtener ideas, lo que avanza significativamente el descubrimiento científico. A pesar del notable éxito de los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés), enfrentan desafíos en la comprensión de la literatura científica, principalmente debido a (1) la falta de conocimiento científico y (2) la falta de familiaridad con tareas científicas especializadas. Para desarrollar un LLM especializado en la comprensión de la literatura científica, proponemos una estrategia híbrida que integra el preentrenamiento continuo (CPT, por sus siglas en inglés) y el ajuste fino supervisado (SFT, por sus siglas en inglés), para infundir simultáneamente conocimiento del dominio científico y mejorar las capacidades de seguimiento de instrucciones para tareas específicas del dominio. En este proceso, identificamos dos desafíos clave: (1) la construcción de corpus de CPT de alta calidad y (2) la generación de instrucciones SFT diversas. Abordamos estos desafíos a través de un meticuloso proceso, que incluye la extracción de texto de PDF, la corrección de errores de contenido, el filtrado de calidad y la creación de instrucciones sintéticas. Aplicando esta estrategia, presentamos una serie de LLMs: SciLitLLM, especializado en la comprensión de la literatura científica. Estos modelos muestran un rendimiento prometedor en los benchmarks de comprensión de la literatura científica. Nuestras contribuciones son triples: (1) Presentamos un marco efectivo que integra CPT y SFT para adaptar LLMs a la comprensión de la literatura científica, que también puede adaptarse fácilmente a otros dominios. (2) Proponemos un método de síntesis basado en LLM para generar instrucciones científicas diversas y de alta calidad, lo que resulta en un nuevo conjunto de instrucciones - SciLitIns - para el ajuste fino supervisado en dominios científicos menos representados. (3) SciLitLLM logra mejoras prometedoras en el rendimiento en los benchmarks de comprensión de la literatura científica.
Los avances recientes en personalización de texto a imagen han permitido una síntesis de imágenes de alta calidad y controlable para conceptos proporcionados por el usuario. Sin embargo, los métodos existentes aún tienen dificultades para equilibrar la preservación de la identidad con la alineación del texto. Nuestro enfoque se basa en el hecho de que generar imágenes alineadas con la indicación requiere una comprensión semántica precisa de la indicación, lo que implica procesar con precisión las interacciones entre el nuevo concepto y sus tokens de contexto circundantes dentro del codificador de texto CLIP. Para abordar esto, nuestro objetivo es incrustar adecuadamente el nuevo concepto en el espacio de incrustación de entrada del codificador de texto, lo que permite una integración fluida con los tokens existentes. Introducimos Regularización de Contexto (CoRe), que mejora el aprendizaje de la incrustación de texto del nuevo concepto al regularizar sus tokens de contexto en la indicación. Esto se basa en la idea de que solo se pueden lograr vectores de salida apropiados del codificador de texto para los tokens de contexto si la incrustación de texto del nuevo concepto se aprende correctamente. CoRe se puede aplicar a indicaciones arbitrarias sin requerir la generación de imágenes correspondientes, mejorando así la generalización de la incrustación de texto aprendida. Además, CoRe puede servir como una técnica de optimización en tiempo de prueba para mejorar aún más las generaciones para indicaciones específicas. Experimentos exhaustivos demuestran que nuestro método supera a varios métodos de referencia tanto en la preservación de la identidad como en la alineación del texto. El código estará disponible públicamente.
Las evaluaciones recientes de los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) han explorado sus capacidades en varios dominios, con solo unos pocos benchmarks enfocados específicamente en entornos urbanos. Además, los benchmarks urbanos existentes se han limitado a evaluar LMMs con tareas urbanas a nivel de región básicas bajo vistas singulares, lo que conduce a evaluaciones incompletas de las habilidades de los LMMs en entornos urbanos. Para abordar estos problemas, presentamos UrBench, un benchmark integral diseñado para evaluar LMMs en escenarios urbanos complejos de múltiples vistas. UrBench contiene 11.6K preguntas meticulosamente seleccionadas tanto a nivel de región como a nivel de rol que cubren 4 dimensiones de tarea: Geo-Localización, Razonamiento de Escena, Comprensión de Escena y Comprensión de Objetos, totalizando 14 tipos de tarea. Al construir UrBench, utilizamos datos de conjuntos de datos existentes y adicionalmente recopilamos datos de 11 ciudades, creando nuevas anotaciones utilizando un método de detección y emparejamiento entre vistas. Con estas imágenes y anotaciones, luego integramos métodos basados en LMM, reglas y humanos para construir preguntas de alta calidad a gran escala. Nuestras evaluaciones en 21 LMMs muestran que los LMMs actuales tienen dificultades en entornos urbanos en varios aspectos. Incluso el mejor rendimiento de GPT-4o se rezaga detrás de los humanos en la mayoría de las tareas, desde tareas simples como contar hasta tareas complejas como orientación, localización y reconocimiento de atributos de objetos, con una brecha de rendimiento promedio del 17.4%. Nuestro benchmark también revela que los LMMs muestran comportamientos inconsistentes con diferentes vistas urbanas, especialmente en lo que respecta a comprender relaciones entre vistas. Los conjuntos de datos y los resultados del benchmark de UrBench estarán disponibles públicamente en https://opendatalab.github.io/UrBench/.
La síntesis de vista de satélite a vista de calle tiene como objetivo generar una imagen realista de vista de calle a partir de su imagen correspondiente de vista de satélite. Aunque los modelos de difusión estables han demostrado un rendimiento notable en una variedad de aplicaciones de generación de imágenes, su dependencia de entradas de vista similar para controlar la estructura o textura generada restringe su aplicación a la desafiante tarea de síntesis entre vistas. En este trabajo, proponemos CrossViewDiff, un modelo de difusión entre vistas para la síntesis de vista de satélite a vista de calle. Para abordar los desafíos planteados por la gran discrepancia entre vistas, diseñamos los módulos de estimación de la estructura de la escena satelital y mapeo de textura entre vistas para construir los controles estructurales y texturales para la síntesis de imágenes de vista de calle. Además, diseñamos un proceso de desenfoque guiado por control entre vistas que incorpora los controles mencionados anteriormente a través de un módulo de atención entre vistas mejorado. Para lograr una evaluación más completa de los resultados de la síntesis, diseñamos adicionalmente un método de puntuación basado en GPT como complemento a las métricas de evaluación estándar. También exploramos el efecto de diferentes fuentes de datos (por ejemplo, texto, mapas, alturas de edificios e imágenes satelitales multitemporales) en esta tarea. Los resultados en tres conjuntos de datos públicos de síntesis entre vistas muestran que CrossViewDiff supera al estado del arte actual tanto en métricas de evaluación estándar como basadas en GPT, generando panoramas de vista de calle de alta calidad con estructuras y texturas más realistas en escenas rurales, suburbanas y urbanas. El código y los modelos de este trabajo se publicarán en https://opendatalab.github.io/CrossViewDiff/.
Los modelos de lenguaje de alto recurso a menudo no cumplen con las expectativas en el contexto africano, donde existe una necesidad crítica de modelos eficientes, accesibles y localmente relevantes, incluso en medio de importantes limitaciones computacionales y de datos. Este artículo presenta InkubaLM, un modelo de lenguaje pequeño con 0.4 mil millones de parámetros, que logra un rendimiento comparable a modelos con recuentos de parámetros significativamente mayores y datos de entrenamiento más extensos en tareas como la traducción automática, preguntas y respuestas, AfriMMLU y la tarea AfriXnli. Es importante destacar que InkubaLM supera a muchos modelos más grandes en análisis de sentimientos y demuestra una notable consistencia en múltiples idiomas. Este trabajo representa un avance fundamental al desafiar el paradigma convencional de que los modelos de lenguaje efectivos deben depender de recursos sustanciales. Nuestro modelo y conjuntos de datos están disponibles públicamente en \url{https://huggingface.co/lelapa} para fomentar la investigación y el desarrollo en lenguajes de bajo recurso.
Los Modelos de Transformadores de Difusión (DiTs) han transitado la arquitectura de red desde los UNets tradicionales a los transformadores, demostrando capacidades excepcionales en la generación de imágenes. Aunque los DiTs se han aplicado ampliamente a tareas de generación de videos de alta definición, su gran tamaño de parámetros dificulta la inferencia en dispositivos periféricos. La cuantización vectorial (VQ) puede descomponer el peso del modelo en un libro de códigos y asignaciones, permitiendo una cuantización extrema del peso y reduciendo significativamente el uso de memoria. En este documento, proponemos VQ4DiT, un método de cuantización vectorial rápido post-entrenamiento para DiTs. Descubrimos que los métodos tradicionales de VQ solo calibran el libro de códigos sin calibrar las asignaciones. Esto lleva a que los subvectores de peso se asignen incorrectamente a la misma asignación, proporcionando gradientes inconsistentes al libro de códigos y dando como resultado un resultado subóptimo. Para abordar este desafío, VQ4DiT calcula el conjunto de asignaciones candidatas para cada subvector de peso basado en la distancia euclidiana y reconstruye el subvector basado en el promedio ponderado. Luego, utilizando el método de calibración de datos cero y por bloques, se selecciona eficientemente la asignación óptima del conjunto mientras se calibra el libro de códigos. VQ4DiT cuantiza un modelo DiT XL/2 en una sola GPU NVIDIA A100 en 20 minutos a 5 horas dependiendo de los diferentes ajustes de cuantización. Los experimentos muestran que VQ4DiT establece un nuevo estado del arte en el equilibrio entre el tamaño del modelo y el rendimiento, cuantizando pesos a una precisión de 2 bits mientras se mantiene una calidad aceptable en la generación de imágenes.
Los Desafíos de Reconocimiento de Oradores VoxCeleb (VoxSRC) fueron una serie de desafíos y talleres que se llevaron a cabo anualmente desde 2019 hasta 2023. Los desafíos evaluaron principalmente las tareas de reconocimiento de oradores y diarización en diversos entornos, incluyendo: datos de entrenamiento cerrados y abiertos; así como entrenamiento supervisado, auto-supervisado y semi-supervisado para adaptación de dominio. Los desafíos también proporcionaron conjuntos de datos de entrenamiento y evaluación públicamente disponibles para cada tarea y configuración, con nuevos conjuntos de pruebas lanzados cada año. En este documento, ofrecemos una revisión de estos desafíos que abarca: lo que exploraron; los métodos desarrollados por los participantes del desafío y cómo evolucionaron; y también el estado actual del campo para la verificación de oradores y diarización. Registramos el progreso en el rendimiento a lo largo de las cinco ediciones del desafío en un conjunto de datos de evaluación común y proporcionamos un análisis detallado de cómo el enfoque especial de cada año afectó el rendimiento de los participantes. Este documento está dirigido tanto a investigadores que deseen tener una visión general del campo de reconocimiento de oradores y diarización, como a organizadores de desafíos que deseen beneficiarse de los éxitos y evitar los errores de los desafíos VoxSRC. Concluimos con una discusión sobre las fortalezas actuales del campo y los desafíos abiertos. Página del proyecto: https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html
Los modelos densos multi-vectoriales, como ColBERT, han demostrado ser altamente efectivos en la recuperación de información. El sistema de puntuación de interacción tardía de ColBERT aproxima la atención conjunta entre consultas y documentos vista en los codificadores cruzados, al tiempo que mantiene una eficiencia de inferencia más cercana a los modelos tradicionales de recuperación densa, gracias a su arquitectura de bi-codificador y a las optimizaciones recientes en indexación y búsqueda. En este artículo, presentamos varias mejoras a la arquitectura del modelo ColBERT y al proceso de entrenamiento, aprovechando técnicas exitosas en el paradigma de modelos de incrustación de un solo vector más establecidos, especialmente aquellas adecuadas para datos multilingües heterogéneos. Nuestro nuevo modelo, Jina-ColBERT-v2, demuestra un rendimiento sólido en una variedad de tareas de recuperación en inglés y multilingües, al tiempo que reduce los requisitos de almacenamiento hasta en un 50% en comparación con modelos anteriores.
La sumarización de documentos es una tarea para acortar textos en resúmenes concisos e informativos. Este documento presenta un conjunto de datos novedoso diseñado para resumir múltiples artículos científicos en una sección de una encuesta. Nuestras contribuciones son: (1) SurveySum, un nuevo conjunto de datos que aborda la brecha en herramientas de sumarización específicas del dominio; (2) dos pipelines específicos para resumir artículos científicos en una sección de una encuesta; y (3) la evaluación de estos pipelines utilizando múltiples métricas para comparar su rendimiento. Nuestros resultados resaltan la importancia de etapas de recuperación de alta calidad y el impacto de diferentes configuraciones en la calidad de los resúmenes generados.
Las imágenes se están convirtiendo cada vez más en la moneda para documentar la biodiversidad en el planeta, brindando nuevas oportunidades para acelerar descubrimientos científicos en el campo de la biología de organismos, especialmente con la llegada de grandes modelos de visión-lenguaje (VLMs). Nos preguntamos si los VLMs pre-entrenados pueden ayudar a los científicos a responder una variedad de preguntas biológicamente relevantes sin necesidad de ajustes adicionales. En este documento, evaluamos la efectividad de 12 modelos de vanguardia (SOTA) VLMs en el campo de la biología de organismos utilizando un conjunto de datos novedoso, VLM4Bio, que consta de 469K pares de preguntas y respuestas que involucran 30K imágenes de tres grupos de organismos: peces, aves y mariposas, cubriendo cinco tareas biológicamente relevantes. También exploramos los efectos de aplicar técnicas de interrogación y pruebas para la alucinación de razonamiento en el rendimiento de los VLMs, arrojando nueva luz sobre las capacidades de los actuales VLMs SOTA para responder preguntas biológicamente relevantes utilizando imágenes. El código y los conjuntos de datos para ejecutar todos los análisis informados en este documento se pueden encontrar en https://github.com/sammarfy/VLM4Bio.
Detectar y atribuir aumentos de temperatura debido al cambio climático es crucial para comprender el calentamiento global y guiar estrategias de adaptación. La complejidad de distinguir señales climáticas inducidas por humanos de la variabilidad natural ha desafiado enfoques tradicionales de detección y atribución (D&A), que buscan identificar "huellas dactilares" específicas en variables de respuesta climática. El aprendizaje profundo ofrece potencial para discernir estos patrones complejos en extensos conjuntos de datos espaciales. Sin embargo, la falta de protocolos estándar ha obstaculizado comparaciones consistentes entre estudios. Presentamos ClimDetect, un conjunto de datos estandarizado de más de 816k instantáneas climáticas diarias, diseñado para mejorar la precisión del modelo en la identificación de señales de cambio climático. ClimDetect integra diversas variables de entrada y objetivo utilizadas en investigaciones pasadas, garantizando comparabilidad y consistencia. También exploramos la aplicación de transformadores de visión (ViT) a datos climáticos, un enfoque novedoso y modernizador en este contexto. Nuestros datos y código de acceso abierto sirven como referencia para avanzar en la ciencia climática a través de evaluaciones de modelos mejoradas. ClimDetect es accesible públicamente a través del repositorio de datos de Huggingface en: https://huggingface.co/datasets/ClimDetect/ClimDetect.
Este documento presenta CURLoRA, un enfoque novedoso para ajustar modelos de lenguaje grandes (LLMs) que aprovecha la descomposición de matrices CUR en el contexto de Adaptación de Bajo Rango (LoRA). Nuestro método aborda dos desafíos críticos en el ajuste fino de LLMs: mitigar el olvido catastrófico durante el aprendizaje continuo y reducir el número de parámetros entrenables. Proponemos una modificación única al proceso de descomposición CUR, utilizando probabilidades invertidas para la selección de columnas y filas que actúan como una regularización implícita, e inicializando la matriz U como una matriz cero, y solo ajustándola finamente. Demostramos a través de experimentos en múltiples conjuntos de datos que CURLoRA supera a LoRA estándar en la mitigación del olvido catastrófico. Mantiene la estabilidad y el rendimiento del modelo en diversas tareas, al tiempo que reduce significativamente el número de parámetros entrenables. Nuestros resultados muestran que CURLoRA logra una precisión de tarea muy buena y estable al mantener fijos los puntajes de perplejidad del modelo base en comparación con LoRA durante el ajuste fino continuo, especialmente en escenarios con datos limitados.
A medida que avanza el campo de la inteligencia artificial, las tecnologías de asistencia están siendo cada vez más utilizadas en todas las industrias. La industria de la salud no es una excepción, con numerosos estudios realizados para desarrollar herramientas de asistencia para profesionales de la salud. Los sistemas de diagnóstico automático son una herramienta beneficiosa que puede ayudar en una variedad de tareas, incluyendo la recopilación de información del paciente, el análisis de resultados de pruebas y el diagnóstico de pacientes. Sin embargo, la idea de desarrollar sistemas que puedan proporcionar un diagnóstico diferencial ha sido ampliamente pasada por alto en la mayoría de estos estudios de investigación. En este estudio, proponemos un enfoque basado en transformadores para proporcionar diagnósticos diferenciales basados en la edad, sexo, historial médico y síntomas de un paciente. Utilizamos el conjunto de datos DDXPlus, que proporciona información de diagnóstico diferencial para pacientes basada en 49 tipos de enfermedades. En primer lugar, proponemos un método para procesar los datos del paciente en forma tabular del conjunto de datos y transformarlos en informes de pacientes para hacerlos adecuados para nuestra investigación. Además, introducimos dos módulos de modificación de datos para diversificar los datos de entrenamiento y, en consecuencia, mejorar la robustez de los modelos. Abordamos la tarea como un problema de clasificación multietiqueta y realizamos experimentos extensos utilizando cuatro modelos de transformadores. Todos los modelos mostraron resultados prometedores al lograr más del 97% de puntuación F1 en el conjunto de prueba retenido. Además, diseñamos pruebas de comportamiento adicionales para obtener una comprensión más amplia de los modelos. En particular, para uno de nuestros casos de prueba, preparamos un conjunto de pruebas personalizado de 100 muestras con la asistencia de un médico. Los resultados en el conjunto personalizado mostraron que nuestros módulos de modificación de datos propuestos mejoraron las capacidades de generalización del modelo. Esperamos que nuestros hallazgos proporcionen a los futuros investigadores ideas valiosas e inspirarlos a desarrollar sistemas confiables para el diagnóstico diferencial automático.
La arquitectura del transformador ha revolucionado la bioinformática y ha impulsado el progreso en la comprensión y predicción de las propiedades de las biomoléculas. Casi toda la investigación sobre transformadores de biosecuencias a gran escala se ha centrado en un dominio a la vez (único-ómico), generalmente nucleótidos o péptidos. Estos modelos han tenido un éxito increíble en tareas posteriores en cada dominio y han logrado avances particularmente notables en secuencias de péptidos y modelado estructural. Sin embargo, estos modelos únicos-ómicos son naturalmente incapaces de modelar tareas multiómicas, una de las más críticas biológicamente siendo las interacciones nucleótido-péptido. Presentamos nuestro trabajo entrenando los primeros modelos fundacionales multiómicos nucleótido-péptido. Mostramos que estos modelos multiómicos (MOMs) pueden aprender representaciones conjuntas entre varias distribuciones únicas-ómicas que emergen consistentemente con el Dogma Central de la biología molecular, a pesar de ser entrenados solo en biosecuencias no etiquetadas. Además, demostramos que los MOMs pueden ser ajustados finamente para lograr resultados de vanguardia en tareas de interacción péptido-nucleótido, específicamente prediciendo el cambio en la energía libre de Gibbs ({\Delta}G) de la interacción de un oligonucleótido dado y un péptido, así como el efecto en esta interacción de unión debido a mutaciones en la secuencia del oligonucleótido ({\Delta}{\Delta}G). Notablemente, mostramos que los transformadores de biosecuencias multiómicos aprenden emergentemente información estructural útil sin ningún entrenamiento estructural previo, lo que nos permite predecir qué residuos de péptidos están más involucrados en la interacción de unión péptido-nucleótido. Por último, proporcionamos evidencia de que los modelos de biosecuencias multiómicos no son inferiores a los modelos fundacionales entrenados en distribuciones únicas-ómicas, lo que sugiere un enfoque más generalizado o fundamental para construir estos modelos.
Los métodos de Ajuste Fino Eficiente de Parámetros (PEFT, por sus siglas en inglés) han ganado popularidad y democratizado el uso de Modelos de Lenguaje Grandes (LLMs). Estudios recientes han demostrado que un pequeño subconjunto de pesos impacta significativamente en el rendimiento. Basándonos en esta observación, presentamos un nuevo método PEFT, llamado Ajuste Fino con Inyección de Ruido Gaussiano de Pesos Relevantes (GIFT-SW). Nuestro método actualiza solo columnas relevantes, mientras inyecta ruido gaussiano en las no relevantes. Para identificar estas columnas, desarrollamos una métrica de sensibilidad generalizada que extiende y unifica métricas de estudios previos. Experimentos con modelos LLaMA demuestran que GIFT-SW supera al ajuste fino completo y a métodos modernos de PEFT bajo el mismo presupuesto computacional. Además, GIFT-SW ofrece ventajas prácticas para recuperar el rendimiento de modelos sometidos a cuantización de precisión mixta manteniendo los pesos relevantes en precisión completa.
Al comprimir diversas narrativas, los LLM van más allá de la memorización, logrando inteligencia al capturar relaciones causales generalizables. Sin embargo, sufren de 'brechas de representación' locales debido a la falta de diversidad en los datos de entrenamiento, lo que limita su utilidad en el mundo real, especialmente en tareas que requieren un estricto alineamiento a reglas. Los métodos tradicionales de alineamiento que dependen en gran medida de anotaciones humanas son ineficientes y no escalables. Las técnicas recientes de autoalineamiento también quedan cortas, ya que a menudo dependen de la auto-selección basada en estímulos y el aprendizaje basado en memorización. Para abordar estos problemas, presentamos el Alineamiento Gráfico Iterativo (IGA), un algoritmo de alineamiento basado en reglas sin necesidad de anotaciones. Un modelo maestro (VLM) emplea el Estímulo Gráfico Iterativo (IGP) para crear grafos lógicos y respuestas de referencia. El modelo estudiante (LLM) identifica brechas de conocimiento locales al intentar alinear sus respuestas con estas referencias, colaborando con modelos auxiliares para generar respuestas diversas. Estas respuestas alineadas se utilizan luego para un ajuste fino supervisado iterativo (SFT). Nuestras evaluaciones en cinco escenarios basados en reglas demuestran la efectividad de IGP, con una mejora del 73.12\% en el alineamiento en Claude Sonnet 3.5, y Llama3-8B-Instruct logrando una mejora del 86.20%, superando a Claude Sonnet 3.5 en el alineamiento basado en reglas.