Artículos de investigación en IA seleccionados diariamente con traducciones
Proponemos una metodología novedosa de síntesis de datos basada en personajes que aprovecha diversas perspectivas dentro de un modelo de lenguaje de gran escala (LLM) para crear datos sintéticos diversos. Para explotar plenamente esta metodología a gran escala, presentamos Persona Hub: una colección de mil millones de personajes diversos curados automáticamente a partir de datos web. Estos mil millones de personajes (~13% de la población mundial), actuando como portadores distribuidos de conocimiento global, pueden acceder a casi todas las perspectivas encapsuladas dentro del LLM, facilitando así la creación de datos sintéticos diversos a gran escala para diversos escenarios. Al mostrar los casos de uso de Persona Hub en la síntesis de problemas de razonamiento matemático y lógico de alta calidad, instrucciones (es decir, indicaciones de usuario), textos ricos en conocimiento, NPCs de juegos y herramientas (funciones) a gran escala, demostramos que la síntesis de datos basada en personajes es versátil, escalable, flexible y fácil de usar, lo que podría impulsar un cambio de paradigma en la creación y aplicaciones de datos sintéticos en la práctica, con un impacto profundo en la investigación y desarrollo de LLM.
El rápido desarrollo de los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés), como GPT-4V, ha impulsado avances significativos. Sin embargo, estos modelos aún enfrentan desafíos en capacidades multimodales médicas debido a limitaciones en la cantidad y calidad de los datos de visión-texto médicos, derivadas de preocupaciones sobre la privacidad de los datos y los altos costos de anotación. Si bien enfoques pioneros utilizan pares de imagen-texto médico a gran escala y desidentificados de PubMed para abordar estas limitaciones, aún se quedan cortos debido al ruido inherente en los datos. Para resolver esto, refinamos pares de imagen-texto médico de PubMed y empleamos MLLMs (GPT-4V) en una capacidad "no cegada" para eliminar el ruido y reformatear los datos, lo que resultó en la creación del conjunto de datos PubMedVision con 1.3 millones de muestras de preguntas y respuestas visuales médicas (VQA). Nuestra validación demuestra que: (1) PubMedVision puede mejorar significativamente las capacidades multimodales médicas de los MLLMs actuales, mostrando una mejora notable en puntos de referencia, incluida la pista de Salud y Medicina de MMMU; (2) revisiones manuales por expertos médicos y resultados empíricos validan la calidad superior de nuestros datos en comparación con otros métodos de construcción de datos. Utilizando PubMedVision, entrenamos un MLLM médico de 34B llamado HuatuoGPT-Vision, que muestra un rendimiento superior en escenarios multimodales médicos entre los MLLMs de código abierto.
En el campo de los modelos de lenguaje a gran escala (LLMs, por sus siglas en inglés), la Distilación de Conocimiento (KD, por sus siglas en inglés) es una técnica fundamental para transferir capacidades desde modelos maestros a modelos estudiantes. Sin embargo, los métodos de KD existentes enfrentan limitaciones y desafíos en la distilación de LLMs, incluyendo la eficiencia y las capacidades insuficientes de medición de la divergencia KL tradicional. Se demuestra que los LLMs pueden servir como una función de recompensa implícita, que definimos como un complemento a la divergencia KL. En este trabajo, proponemos la Distilación de Conocimiento de Preferencia Directa (DPKD, por sus siglas en inglés) para LLMs. DPKD utiliza la divergencia de distribución para representar la pérdida de preferencia y la función de recompensa implícita. Reformulamos la KD de LLMs en dos etapas: primero optimizando un objetivo que consiste en la recompensa implícita y la divergencia KL inversa, y luego mejorando la probabilidad de preferencia de las salidas del maestro sobre las salidas del estudiante. Realizamos experimentos y análisis en varios conjuntos de datos con parámetros de LLM que van desde 120M hasta 13B, y demostramos la amplia aplicabilidad y efectividad de nuestro enfoque DPKD. Además, probamos el valor y la efectividad de la recompensa implícita y la preferencia de salida introducidas en la KD a través de experimentos y análisis teóricos. El método DPKD supera al método de referencia tanto en la precisión de la respuesta de salida como en el porcentaje de coincidencia exacta. El código y los datos están disponibles en https://aka.ms/dpkd.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) equipados con un amplio conocimiento del mundo y habilidades sólidas de razonamiento pueden abordar diversas tareas en múltiples dominios, a menudo planteándolas como pares de instrucción-respuesta en formato conversacional. En este artículo, proponemos LLaRA: Asistente de Lenguaje y Robótica de Gran Escala, un marco que formula la política de acción del robot como conversaciones y proporciona respuestas mejoradas cuando se entrena con datos auxiliares que complementan el aprendizaje de políticas. Los LLMs con entradas visuales, es decir, los Modelos de Lenguaje Visual (VLMs, por sus siglas en inglés), tienen la capacidad de procesar información de estado como indicaciones visuales-textuales y generar decisiones de política óptimas en texto. Para entrenar tales VLMs de política de acción, primero introducimos una canalización automatizada para generar datos de instrucción robótica diversos y de alta calidad a partir de datos existentes de clonación de comportamiento. Un VLM ajustado con la colección resultante de conjuntos de datos, basado en una formulación en estilo conversacional adaptada para tareas de robótica, puede generar decisiones de política de acción del robot significativas. Nuestros experimentos en múltiples entornos simulados y del mundo real demuestran el rendimiento de vanguardia del marco LLaRA propuesto. El código, conjuntos de datos y modelos preentrenados están disponibles en https://github.com/LostXine/LLaRA.
Recientemente, el splatting de Gaussianas 3D (3D-GS) ha logrado un gran éxito en la reconstrucción y renderizado de escenas del mundo real. Para transferir la alta calidad de renderizado a tareas de generación, una serie de trabajos de investigación han intentado generar activos de Gaussianas 3D a partir de texto. Sin embargo, los activos generados no han alcanzado la misma calidad que aquellos en tareas de reconstrucción. Observamos que las Gaussianas tienden a crecer sin control, ya que el proceso de generación puede causar indeterminación. Con el objetivo de mejorar significativamente la calidad de generación, proponemos un nuevo marco denominado GaussianDreamerPro. La idea principal es vincular las Gaussianas a una geometría razonable, que evoluciona a lo largo de todo el proceso de generación. En las diferentes etapas de nuestro marco, tanto la geometría como la apariencia pueden enriquecerse progresivamente. El activo final se construye con Gaussianas 3D vinculadas a una malla, lo que muestra detalles y calidad significativamente mejorados en comparación con métodos anteriores. Cabe destacar que el activo generado también puede integrarse sin problemas en flujos de trabajo de manipulación posteriores, como animación, composición y simulación, entre otros, lo que promueve enormemente su potencial en una amplia gama de aplicaciones. Las demostraciones están disponibles en https://taoranyi.com/gaussiandreamerpro/.
El Segment Anything Model (SAM) ha atraído una atención generalizada por sus capacidades superiores de segmentación interactiva con indicaciones visuales, aunque carece de una exploración más profunda de las indicaciones textuales. En este artículo, investigamos empíricamente qué codificadores de indicaciones textuales (por ejemplo, CLIP o LLM) son adecuados para adaptar SAM a la segmentación de expresiones referenciales e introducimos el SAM basado en Fusión Temprana Visión-Lenguaje (EVF-SAM). EVF-SAM es un método de segmentación referencial simple pero efectivo que aprovecha indicaciones multimodales (es decir, imagen y texto) y comprende un modelo preentrenado de visión-lenguaje para generar indicaciones referenciales y un modelo SAM para la segmentación. Sorprendentemente, observamos que: (1) las indicaciones multimodales y (2) los modelos de visión-lenguaje con fusión temprana (por ejemplo, BEIT-3) son beneficiosos para indicar a SAM una segmentación referencial precisa. Nuestros experimentos muestran que el EVF-SAM propuesto, basado en BEIT-3, puede obtener un rendimiento de vanguardia en RefCOCO/+/g para la segmentación de expresiones referenciales y demuestra la superioridad de indicar a SAM con fusión temprana visión-lenguaje. Además, el EVF-SAM propuesto, con 1.32 mil millones de parámetros, logra un rendimiento notablemente superior mientras reduce casi un 82% de los parámetros en comparación con los métodos SAM anteriores basados en modelos multimodales grandes.
Los recientes avances en los Modelos de Lenguaje de Gran Escala han transformado el desarrollo de ML/IA, lo que ha llevado a una reevaluación de los principios de AutoML para los sistemas de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés). Para abordar los desafíos de la optimización de hiperparámetros y la adaptación en línea en RAG, proponemos el marco AutoRAG-HP, que formula el ajuste de hiperparámetros como un problema de bandido multi-brazo (MAB) en línea e introduce un novedoso método de MAB Jerárquico de dos niveles (Hier-MAB) para una exploración eficiente de grandes espacios de búsqueda. Realizamos experimentos exhaustivos en el ajuste de hiperparámetros, como el número de documentos recuperados (top-k), la relación de compresión de prompts y los métodos de incrustación, utilizando los conjuntos de datos ALCE-ASQA y Natural Questions. Nuestra evaluación, basada en la optimización conjunta de los tres hiperparámetros, demuestra que los métodos de aprendizaje en línea basados en MAB pueden alcanzar un Recall@5 de aproximadamente 0.8 en escenarios con gradientes prominentes en el espacio de búsqueda, utilizando solo alrededor del 20% de las llamadas a la API de LLM requeridas por el enfoque de Búsqueda en Cuadrícula. Además, el enfoque Hier-MAB propuesto supera a otras líneas base en escenarios de optimización más desafiantes. El código estará disponible en https://aka.ms/autorag.
El escalamiento de los métodos de Aprendizaje por Refuerzo Profundo (RL, por sus siglas en inglés) representa un desafío significativo. Siguiendo los avances en modelado generativo, el RL basado en modelos se posiciona como un fuerte contendiente. Los recientes progresos en modelado de secuencias han llevado a modelos del mundo efectivos basados en transformadores, aunque a costa de cálculos intensivos debido a las largas secuencias de tokens necesarias para simular con precisión los entornos. En este trabajo, proponemos Delta-IRIS, un nuevo agente con una arquitectura de modelo del mundo compuesta por un autoencoder discreto que codifica deltas estocásticos entre pasos de tiempo y un transformador autorregresivo que predice deltas futuros resumiendo el estado actual del mundo con tokens continuos. En el benchmark Crafter, Delta-IRIS establece un nuevo estado del arte en múltiples presupuestos de frames, mientras que es un orden de magnitud más rápido de entrenar que los enfoques anteriores basados en atención. Publicamos nuestro código y modelos en https://github.com/vmicheli/delta-iris.
Presentamos Arboretum, el conjunto de datos de acceso público más grande diseñado para avanzar en la IA para aplicaciones de biodiversidad. Este conjunto de datos, curado a partir de la plataforma de ciencia comunitaria iNaturalist y revisado por expertos en el dominio para garantizar su precisión, incluye 134.6 millones de imágenes, superando en escala a los conjuntos de datos existentes por un orden de magnitud. El conjunto de datos abarca datos emparejados de imagen y lenguaje para un conjunto diverso de especies, incluyendo aves (Aves), arañas/garrapatas/ácaros (Arachnida), insectos (Insecta), plantas (Plantae), hongos/setas (Fungi), caracoles (Mollusca) y serpientes/lagartos (Reptilia), lo que lo convierte en un recurso valioso para modelos de IA multimodal de visión y lenguaje en la evaluación de la biodiversidad y la investigación agrícola. Cada imagen está anotada con nombres científicos, detalles taxonómicos y nombres comunes, lo que mejora la solidez del entrenamiento de los modelos de IA. Demostramos el valor de Arboretum al publicar una serie de modelos CLIP entrenados utilizando un subconjunto de 40 millones de imágenes con leyendas. Introducimos varios nuevos puntos de referencia para una evaluación rigurosa, informamos la precisión en el aprendizaje de cero disparos (zero-shot) y realizamos evaluaciones en diferentes etapas de vida, especies raras, especies confusas y varios niveles de la jerarquía taxonómica. Anticipamos que Arboretum impulsará el desarrollo de modelos de IA que puedan habilitar una variedad de herramientas digitales, desde estrategias de control de plagas, monitoreo de cultivos, hasta la evaluación mundial de la biodiversidad y la conservación ambiental. Estos avances son críticos para garantizar la seguridad alimentaria, preservar los ecosistemas y mitigar los impactos del cambio climático. Arboretum está disponible públicamente, es de fácil acceso y listo para su uso inmediato. Por favor, visite el {sitio web del proyecto} https://baskargroup.github.io/Arboretum/ para acceder a enlaces a nuestros datos, modelos y código.
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) ha logrado un gran éxito en la alineación de modelos de lenguaje grandes (LLMs) con las preferencias humanas. Los enfoques predominantes de RLHF se basan en recompensas, siguiendo el supuesto del modelo de Bradley-Terry (BT), que puede no capturar completamente la complejidad de las preferencias humanas. En este artículo, exploramos RLHF bajo un marco general de preferencias y lo abordamos desde una perspectiva de teoría de juegos. Específicamente, formulamos el problema como un juego de dos jugadores y proponemos un nuevo algoritmo, la optimización iterativa de políticas de Nash (INPO, por sus siglas en inglés). La idea clave es hacer que la política juegue contra sí misma mediante aprendizaje sin arrepentimiento, aproximando así la política de Nash. A diferencia de métodos anteriores, INPO evita la necesidad de estimar la tasa de victoria esperada para respuestas individuales, lo que generalmente incurre en altos costos computacionales o de anotación. En su lugar, introducimos un nuevo objetivo de pérdida que se minimiza directamente sobre un conjunto de datos de preferencias. Proporcionamos un análisis teórico para nuestro enfoque y demostramos su efectividad mediante experimentos en varios puntos de referencia representativos. Con un modelo SFT basado en LLaMA-3-8B, INPO logra una tasa de victoria controlada por longitud del 41.5% en AlpacaEval 2.0 y una tasa de victoria del 38.3% en Arena-Hard, mostrando una mejora sustancial sobre el algoritmo iterativo más avanzado [Dong et al., 2024] bajo el supuesto del modelo BT. Además, nuestro estudio de ablación destaca los beneficios de incorporar regularización KL para el control de la longitud de las respuestas.
Este artículo presenta una métrica novedosa y consciente de entidades, denominada Evaluación de Informes Radiológicos (Texto) (RaTEScore), para evaluar la calidad de los informes médicos generados por modelos de IA. RaTEScore enfatiza entidades médicas cruciales como resultados diagnósticos y detalles anatómicos, y es robusta frente a sinónimos médicos complejos y sensible a expresiones de negación. Técnicamente, desarrollamos un conjunto de datos exhaustivo de Reconocimiento de Entidades Médicas (NER), RaTE-NER, y entrenamos un modelo NER específicamente para este propósito. Este modelo permite descomponer informes radiológicos complejos en sus entidades médicas constituyentes. La métrica en sí se deriva al comparar la similitud de los embeddings de entidades, obtenidos de un modelo de lenguaje, basados en sus tipos y relevancia para la significación clínica. Nuestras evaluaciones demuestran que RaTEScore se alinea más estrechamente con la preferencia humana que las métricas existentes, validado tanto en puntos de referencia públicos establecidos como en nuestro nuevo punto de referencia propuesto, RaTE-Eval.