Artículos de investigación en IA seleccionados diariamente con traducciones
En los últimos meses ha surgido una tendencia poderosa en la que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se potencian para convertirse en agentes de lenguaje autónomos capaces de realizar tareas multi-paso orientadas a objetivos por sí mismos, en lugar de limitarse a responder a consultas de usuarios humanos. Sin embargo, la mayoría de los agentes de lenguaje existentes no están optimizados utilizando recompensas específicas del entorno. Aunque algunos agentes permiten un refinamiento iterativo a través de retroalimentación verbal, no razonan ni planifican de manera compatible con el aprendizaje basado en gradientes a partir de recompensas. Este artículo introduce un marco conceptual para reforzar agentes de lenguaje de gran escala mediante el aprendizaje de un modelo retrospectivo, que ajusta automáticamente los prompts del agente de lenguaje a partir de la retroalimentación del entorno a través del gradiente de políticas. Específicamente, nuestra arquitectura de agente propuesta aprende de recompensas en múltiples entornos y tareas, afinando un modelo de lenguaje preentrenado que refina el prompt del agente de lenguaje resumiendo la causa raíz de intentos fallidos previos y proponiendo planes de acción. Los resultados experimentales en diversas tareas demuestran que los agentes de lenguaje mejoran con el tiempo y que nuestro enfoque supera considerablemente a las líneas base que no aprovechan adecuadamente los gradientes del entorno. Esto demuestra que el uso de la optimización por gradiente de políticas para mejorar los agentes de lenguaje, para lo cual creemos que nuestro trabajo es uno de los primeros, parece prometedor y puede aplicarse para optimizar otros modelos en la arquitectura del agente, mejorando así su desempeño a lo largo del tiempo.
Proponemos MM-Vet, un punto de referencia de evaluación que examina a los modelos multimodales grandes (LMMs) en tareas multimodales complejas. Los LMMs recientes han demostrado diversas habilidades intrigantes, como resolver problemas matemáticos escritos en la pizarra, razonar sobre eventos y celebridades en imágenes de noticias, y explicar chistes visuales. Los rápidos avances en los modelos plantean desafíos para el desarrollo de puntos de referencia de evaluación. Los problemas incluyen: (1) Cómo estructurar y evaluar sistemáticamente las tareas multimodales complejas; (2) Cómo diseñar métricas de evaluación que funcionen bien en diferentes tipos de preguntas y respuestas; y (3) Cómo proporcionar insights sobre los modelos más allá de una simple clasificación de rendimiento. Con este fin, presentamos MM-Vet, diseñado bajo la premisa de que la capacidad intrigante para resolver tareas complejas a menudo se logra mediante un modelo generalista capaz de integrar diferentes capacidades centrales de visión y lenguaje (VL). MM-Vet define 6 capacidades centrales de VL y examina las 16 integraciones de interés derivadas de la combinación de capacidades. Para las métricas de evaluación, proponemos un evaluador basado en LLM para salidas de respuesta abierta. Este evaluador permite la evaluación en diferentes tipos de preguntas y estilos de respuesta, resultando en una métrica de puntuación unificada. Evaluamos LMMs representativos en MM-Vet, proporcionando insights sobre las capacidades de diferentes paradigmas de sistemas LMM y modelos. El código y los datos están disponibles en https://github.com/yuweihao/MM-Vet.
La segmentación de vocabulario abierto es una tarea desafiante que requiere segmentar y reconocer objetos de un conjunto abierto de categorías. Una forma de abordar este desafío es aprovechar modelos multimodales, como CLIP, para proporcionar características de imagen y texto en un espacio de incrustación compartido, lo que reduce la brecha entre el reconocimiento de vocabulario cerrado y abierto. Por lo tanto, los métodos existentes suelen adoptar un marco de dos etapas para resolver el problema, donde las entradas primero pasan por un generador de máscaras y luego por el modelo CLIP junto con las máscaras predichas. Este proceso implica extraer características de las imágenes múltiples veces, lo que puede ser ineficaz e ineficiente. En contraste, proponemos construir todo en un marco de una sola etapa utilizando una arquitectura compartida de CLIP Convolucional Congelado (Frozen Convolutional CLIP), lo que no solo simplifica significativamente la actual pipeline de dos etapas, sino que también ofrece un mejor equilibrio entre precisión y costo. El FC-CLIP propuesto se beneficia de las siguientes observaciones: la arquitectura congelada de CLIP mantiene la capacidad de clasificación de vocabulario abierto y también puede servir como un generador de máscaras robusto, y el CLIP convolucional se generaliza bien a una resolución de entrada mayor que la utilizada durante el preentrenamiento contrastivo de imagen-texto. Al entrenar únicamente con datos panópticos de COCO y probar de manera zero-shot, FC-CLIP logra 26.8 PQ, 16.8 AP y 34.1 mIoU en ADE20K; 18.2 PQ y 27.9 mIoU en Mapillary Vistas; y 44.0 PQ, 26.8 AP y 56.2 mIoU en Cityscapes, superando el estado del arte en +4.2 PQ, +2.4 AP y +4.2 mIoU en ADE20K, +4.0 PQ en Mapillary Vistas y +20.1 PQ en Cityscapes, respectivamente. Además, el tiempo de entrenamiento y prueba de FC-CLIP es 7.5x y 6.6x más rápido que el mismo estado del arte, mientras utiliza 5.9x menos parámetros. FC-CLIP también establece un nuevo rendimiento de vanguardia en varios conjuntos de datos de segmentación semántica de vocabulario abierto. Código disponible en https://github.com/bytedance/fc-clip.
La selección de ensayos clínicos es un proceso clave en la prestación de servicios de salud y el descubrimiento médico. En la práctica, se ve afectada por el abrumador volumen de datos no estructurados y procesos manuales que no escalan. En este artículo, realizamos un estudio sistemático sobre la escalabilidad de la selección de ensayos clínicos utilizando modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), con un enfoque en oncología. Nuestro estudio se basa en un sistema de selección de ensayos clínicos actualmente en fase de prueba en una gran red de salud de los Estados Unidos. Los hallazgos iniciales son prometedores: desde el primer uso, LLMs de vanguardia, como GPT-4, ya pueden estructurar criterios de elegibilidad detallados de ensayos clínicos y extraer lógicas de coincidencia complejas (por ejemplo, anidaciones de AND/OR/NOT). Aunque aún lejos de ser perfectos, los LLMs superan significativamente los puntos de referencia anteriores y pueden servir como una solución preliminar para ayudar a priorizar candidatos paciente-ensayo con intervención humana. Nuestro estudio también revela áreas importantes de mejora para la aplicación de LLMs en la selección de ensayos clínicos de extremo a extremo, como las limitaciones de contexto y la precisión, especialmente en la estructuración de información del paciente a partir de registros médicos longitudinales.
Las manos robóticas biomiméticas y diestras tienen el potencial de replicar gran parte de las tareas que un humano puede realizar, y de alcanzar el estatus de una plataforma de manipulación general. Los recientes avances en los marcos de aprendizaje por refuerzo (RL, por sus siglas en inglés) han logrado un rendimiento notable en tareas de locomoción cuadrúpeda y manipulación diestra. Combinados con simulaciones altamente paralelizadas basadas en GPU, capaces de simular miles de robots en paralelo, los controladores basados en RL se han vuelto más escalables y accesibles. Sin embargo, para llevar las políticas entrenadas con RL al mundo real, necesitamos marcos de entrenamiento que generen políticas que funcionen con actuadores y sensores físicos, así como una plataforma de hardware que pueda fabricarse con materiales accesibles y que sea lo suficientemente robusta para ejecutar políticas interactivas. Este trabajo presenta la mano Faive, biomimética y accionada por tendones, junto con su arquitectura de sistema, que utiliza articulaciones de contacto rodante accionadas por tendones para lograr un diseño de mano robusto y de alto grado de libertad (DoF) imprimible en 3D. Modelamos cada elemento de la mano y lo integramos en un entorno de simulación basado en GPU para entrenar una política con RL, logrando una transferencia inmediata (zero-shot) de una habilidad diestra de rotación de una esfera en la mano al robot físico.
Presentamos los Modelos de Difusión Compartimentalizados (CDM, por sus siglas en inglés), un método para entrenar diferentes modelos de difusión (o prompts) en fuentes de datos distintas y componerlos de manera arbitraria durante la inferencia. Los modelos individuales pueden entrenarse de forma aislada, en momentos diferentes y en distribuciones y dominios distintos, y luego pueden combinarse para lograr un rendimiento comparable al de un modelo de referencia entrenado con todos los datos simultáneamente. Además, cada modelo solo contiene información sobre el subconjunto de datos al que fue expuesto durante el entrenamiento, lo que permite varias formas de protección de los datos de entrenamiento. En particular, los CDM son el primer método que habilita tanto el olvido selectivo como el aprendizaje continuo para modelos de difusión a gran escala, además de permitir ofrecer modelos personalizados según los derechos de acceso del usuario. Los CDM también permiten determinar la importancia de un subconjunto de datos en la generación de muestras específicas.