Artículos de investigación en IA seleccionados diariamente con traducciones
Este informe presenta xGen-MM (también conocido como BLIP-3), un marco para desarrollar Modelos Multimodales Grandes (LMMs). El marco incluye conjuntos de datos meticulosamente seleccionados, una receta de entrenamiento, arquitecturas de modelos y una suite resultante de LMMs. xGen-MM, abreviatura de xGen-MultiModal, amplía la iniciativa xGen de Salesforce en modelos de IA fundamentales. Nuestros modelos son sometidos a una evaluación rigurosa en una variedad de tareas, incluidas pruebas de imágenes individuales y múltiples. Nuestro modelo base preentrenado muestra fuertes capacidades de aprendizaje en contexto y el modelo ajustado a instrucciones demuestra un rendimiento competitivo entre los LMMs de código abierto con tamaños de modelo similares. Además, presentamos un modelo ajustado a la seguridad con DPO, con el objetivo de mitigar comportamientos dañinos como alucinaciones y mejorar la seguridad. Ponemos nuestros modelos de código abierto, conjuntos de datos a gran escala seleccionados y nuestra base de código de ajuste fino a disposición para facilitar futuros avances en la investigación de LMMs. Los recursos asociados estarán disponibles en nuestra página de proyecto mencionada anteriormente.
El trabajo reciente en generación de imágenes y videos ha estado adoptando la arquitectura LLM autoregresiva debido a su generalidad y potencialmente fácil integración en sistemas multimodales. La clave para aplicar el entrenamiento autoregresivo en generación de lenguaje a la generación visual es la discretización, que consiste en representar datos continuos como imágenes y videos en tokens discretos. Métodos comunes de discretización de imágenes y videos incluyen modelar los valores de píxeles crudos, que son excesivamente extensos, o la cuantización de vectores, que requiere un entrenamiento previo complicado. En este trabajo, proponemos modelar directamente imágenes y videos como archivos comprimidos guardados en computadoras a través de codecs canónicos (por ejemplo, JPEG, AVC/H.264). Utilizando la arquitectura Llama predeterminada sin modificaciones específicas de visión, preentrenamos JPEG-LM desde cero para generar imágenes (y AVC-LM para generar videos como prueba de concepto), al producir directamente bytes de archivos comprimidos en formatos JPEG y AVC. La evaluación de la generación de imágenes muestra que este enfoque simple y directo es más efectivo que la modelización basada en píxeles y las líneas base de cuantización de vectores sofisticadas (en las cuales nuestro método logra una reducción del 31% en FID). Nuestro análisis muestra que JPEG-LM tiene una ventaja especial sobre los modelos de cuantización de vectores en la generación de elementos visuales de cola larga. En general, demostramos que el uso de representaciones de codecs canónicos puede ayudar a reducir las barreras entre la generación de lenguaje y la generación visual, facilitando la investigación futura sobre LLMs multimodales de lenguaje/imagen/video.
Los investigadores están invirtiendo un esfuerzo sustancial en desarrollar agentes generales potentes, donde los Modelos Fundamentales se utilizan como módulos dentro de sistemas agentes (por ejemplo, Cadena de Pensamiento, Autorreflexión, Formador de Herramientas). Sin embargo, la historia del aprendizaje automático nos enseña que las soluciones diseñadas a mano son eventualmente reemplazadas por soluciones aprendidas. Formulamos un nuevo área de investigación, Diseño Automatizado de Sistemas Agentes (ADAS), que tiene como objetivo crear automáticamente diseños de sistemas agentes potentes, incluyendo la invención de bloques de construcción novedosos y/o combinándolos de nuevas formas. Demostramos además que hay un enfoque aún no explorado pero prometedor dentro de ADAS donde los agentes pueden ser definidos en código y nuevos agentes pueden ser descubiertos automáticamente por un metaagente programando cada vez mejores en código. Dado que los lenguajes de programación son Turing Completos, este enfoque teóricamente permite el aprendizaje de cualquier sistema agente posible: incluyendo indicaciones novedosas, uso de herramientas, flujos de control y combinaciones de los mismos. Presentamos un algoritmo simple pero efectivo llamado Búsqueda de Metaagente para demostrar esta idea, donde un metaagente programa iterativamente nuevos agentes interesantes basados en un archivo en constante crecimiento de descubrimientos previos. A través de experimentos extensos en múltiples dominios incluyendo codificación, ciencia y matemáticas, mostramos que nuestro algoritmo puede inventar progresivamente agentes con diseños novedosos que superan ampliamente a los agentes diseñados a mano de vanguardia. Es importante destacar que observamos consistentemente el resultado sorprendente de que los agentes inventados por la Búsqueda de Metaagentes mantienen un rendimiento superior incluso al ser transferidos entre dominios y modelos, demostrando su robustez y generalidad. Si lo desarrollamos de manera segura, nuestro trabajo ilustra el potencial de una emocionante nueva dirección de investigación hacia el diseño automático de sistemas agentes cada vez más potentes para beneficiar a la humanidad.
La segmentación de videos quirúrgicos es una tarea crítica en la cirugía asistida por computadora y es vital para mejorar la calidad quirúrgica y los resultados para el paciente. Recientemente, el marco del Modelo Segment Anything 2 (SAM2) ha mostrado avances superiores en la segmentación de imágenes y videos. Sin embargo, SAM2 enfrenta dificultades en eficiencia debido a las altas demandas computacionales para procesar imágenes de alta resolución y dinámicas temporales complejas y de largo alcance en videos quirúrgicos. Para abordar estos desafíos, presentamos Surgical SAM 2 (SurgSAM-2), un modelo avanzado que utiliza SAM2 con un mecanismo de Poda Eficiente de Fotogramas (EFP), para facilitar la segmentación en tiempo real de videos quirúrgicos. El mecanismo EFP gestiona dinámicamente el banco de memoria al retener selectivamente solo los fotogramas más informativos, reduciendo el uso de memoria y el costo computacional manteniendo una alta precisión de segmentación. Nuestros extensos experimentos demuestran que SurgSAM-2 mejora significativamente tanto la eficiencia como la precisión de segmentación en comparación con SAM2 estándar. Notablemente, SurgSAM-2 logra un FPS 3 veces mayor en comparación con SAM2, al tiempo que ofrece un rendimiento de vanguardia después de un ajuste fino con datos de menor resolución. Estos avances establecen a SurgSAM-2 como un modelo líder para el análisis de videos quirúrgicos, haciendo que la segmentación en tiempo real de videos quirúrgicos en entornos con recursos limitados sea una realidad factible.
Abordamos los desafíos de la inversión precisa de imágenes y la edición desentrelazada de imágenes en el contexto de modelos de difusión de pocos pasos. Introducimos una técnica de inversión iterativa basada en un codificador. La red de inversión se condiciona a la imagen de entrada y a la imagen reconstruida del paso anterior, lo que permite corregir la próxima reconstrucción hacia la imagen de entrada. Demostramos que los controles desentrelazados pueden lograrse fácilmente en el modelo de difusión de pocos pasos condicionando a una descripción detallada de texto (generada automáticamente). Para manipular la imagen invertida, congelamos los mapas de ruido y modificamos un atributo en la descripción de texto (ya sea manualmente o mediante edición basada en instrucciones impulsada por un LLM), lo que resulta en la generación de una nueva imagen similar a la imagen de entrada con solo un atributo cambiado. Además, se puede controlar la intensidad de la edición y aceptar descripciones de texto instructivas. Nuestro enfoque facilita ediciones de imágenes realistas guiadas por texto en tiempo real, requiriendo solo 8 evaluaciones funcionales (NFEs) en la inversión (costo único) y 4 NFEs por edición. Nuestro método no solo es rápido, sino que también supera significativamente las técnicas de edición de difusión de varios pasos más avanzadas.
Entrenar Modelos de Lenguaje Grandes (LLMs) conlleva costos sustanciales relacionados con los datos, lo que motiva el desarrollo de métodos de entrenamiento eficientes en datos a través de la optimización del orden y la selección de datos. Estrategias de aprendizaje inspiradas en humanos, como el aprendizaje por currículo, ofrecen posibilidades para un entrenamiento eficiente al organizar los datos de acuerdo con prácticas comunes de aprendizaje humano. A pesar de la evidencia de que el ajuste fino con aprendizaje por currículo mejora el rendimiento de LLMs para tareas de comprensión del lenguaje natural, su efectividad se evalúa típicamente utilizando un solo modelo. En este trabajo, ampliamos investigaciones anteriores evaluando estrategias de aprendizaje basadas en currículo y no basadas en currículo en varios LLMs, utilizando etiquetas de datos definidas por humanos y de forma automatizada para responder preguntas médicas. Nuestros resultados indican un impacto moderado del uso de estrategias de aprendizaje inspiradas en humanos para el ajuste fino de LLMs, con ganancias máximas de precisión de 1.77% por modelo y 1.81% por conjunto de datos. Esencialmente, demostramos que la efectividad de estas estrategias varía significativamente entre diferentes combinaciones de modelo y conjunto de datos, enfatizando que los beneficios de una estrategia específica inspirada en humanos para el ajuste fino de LLMs no se generalizan. Además, encontramos evidencia de que el aprendizaje por currículo utilizando la dificultad de las preguntas definida por LLM supera a la dificultad definida por humanos, resaltando el potencial de utilizar medidas generadas por el modelo para un diseño curricular óptimo.
Los algoritmos de aprendizaje por refuerzo offline prometen habilitar métodos de RL basados en datos que no requieren exploración costosa o peligrosa en el mundo real y se benefician de grandes conjuntos de datos pre-recopilados. Esto, a su vez, puede facilitar aplicaciones en el mundo real, así como un enfoque más estandarizado para la investigación en RL. Además, los métodos de RL offline pueden proporcionar inicializaciones efectivas para el ajuste fino en línea para superar desafíos con la exploración. Sin embargo, evaluar el progreso en los algoritmos de RL offline requiere puntos de referencia efectivos y desafiantes que capturen propiedades de tareas del mundo real, proporcionen una variedad de dificultades en las tareas y abarquen una serie de desafíos tanto en términos de los parámetros del dominio (por ejemplo, longitud del horizonte, dispersión de recompensas) como en los parámetros de los datos (por ejemplo, datos de demostración limitados o datos exploratorios amplios). Aunque en los últimos años se ha logrado un progreso considerable en RL offline gracias a tareas de referencia más simples, los conjuntos de datos más ampliamente utilizados están alcanzando un punto de saturación en rendimiento y pueden no reflejar las propiedades de tareas realistas. Proponemos un nuevo punto de referencia para RL offline que se centra en simulaciones realistas de entornos de manipulación y locomoción robótica, basados en modelos de sistemas robóticos del mundo real, y que abarca una variedad de fuentes de datos, incluidos datos escritos, datos de estilo de juego recopilados por teleoperadores humanos y otras fuentes de datos. Nuestro punto de referencia propuesto cubre dominios basados en estados e imágenes, y admite tanto la evaluación de RL offline como el ajuste fino en línea, con algunas tareas diseñadas específicamente para requerir tanto pre-entrenamiento como ajuste fino. Esperamos que nuestro punto de referencia propuesto facilite un mayor progreso tanto en los algoritmos de RL offline como en los de ajuste fino. El sitio web con código, ejemplos, tareas y datos está disponible en https://sites.google.com/view/d5rl/