HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

7 papers found

xGen-MM (BLIP-3): Una Familia de Modelos Multimodales Grandes Abiertos
xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

Aug 16

ByLe Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu

100

Este informe presenta xGen-MM (también conocido como BLIP-3), un marco para desarrollar Modelos Multimodales Grandes (LMMs). El marco incluye conjuntos de datos meticulosamente seleccionados, una receta de entrenamiento, arquitecturas de modelos y una suite resultante de LMMs. xGen-MM, abreviatura de xGen-MultiModal, amplía la iniciativa xGen de Salesforce en modelos de IA fundamentales. Nuestros modelos son sometidos a una evaluación rigurosa en una variedad de tareas, incluidas pruebas de imágenes individuales y múltiples. Nuestro modelo base preentrenado muestra fuertes capacidades de aprendizaje en contexto y el modelo ajustado a instrucciones demuestra un rendimiento competitivo entre los LMMs de código abierto con tamaños de modelo similares. Además, presentamos un modelo ajustado a la seguridad con DPO, con el objetivo de mitigar comportamientos dañinos como alucinaciones y mejorar la seguridad. Ponemos nuestros modelos de código abierto, conjuntos de datos a gran escala seleccionados y nuestra base de código de ajuste fino a disposición para facilitar futuros avances en la investigación de LMMs. Los recursos asociados estarán disponibles en nuestra página de proyecto mencionada anteriormente.

JPEG-LM: LLMs como Generadores de Imágenes con Representaciones de Códec Canónicas
JPEG-LM: LLMs as Image Generators with Canonical Codec Representations

Aug 15

ByXiaochuang Han, Marjan Ghazvininejad, Pang Wei Koh, Yulia Tsvetkov

El trabajo reciente en generación de imágenes y videos ha estado adoptando la arquitectura LLM autoregresiva debido a su generalidad y potencialmente fácil integración en sistemas multimodales. La clave para aplicar el entrenamiento autoregresivo en generación de lenguaje a la generación visual es la discretización, que consiste en representar datos continuos como imágenes y videos en tokens discretos. Métodos comunes de discretización de imágenes y videos incluyen modelar los valores de píxeles crudos, que son excesivamente extensos, o la cuantización de vectores, que requiere un entrenamiento previo complicado. En este trabajo, proponemos modelar directamente imágenes y videos como archivos comprimidos guardados en computadoras a través de codecs canónicos (por ejemplo, JPEG, AVC/H.264). Utilizando la arquitectura Llama predeterminada sin modificaciones específicas de visión, preentrenamos JPEG-LM desde cero para generar imágenes (y AVC-LM para generar videos como prueba de concepto), al producir directamente bytes de archivos comprimidos en formatos JPEG y AVC. La evaluación de la generación de imágenes muestra que este enfoque simple y directo es más efectivo que la modelización basada en píxeles y las líneas base de cuantización de vectores sofisticadas (en las cuales nuestro método logra una reducción del 31% en FID). Nuestro análisis muestra que JPEG-LM tiene una ventaja especial sobre los modelos de cuantización de vectores en la generación de elementos visuales de cola larga. En general, demostramos que el uso de representaciones de codecs canónicos puede ayudar a reducir las barreras entre la generación de lenguaje y la generación visual, facilitando la investigación futura sobre LLMs multimodales de lenguaje/imagen/video.

Diseño Automatizado de Sistemas Agentes
Automated Design of Agentic Systems

Aug 15

ByShengran Hu, Cong Lu, Jeff Clune

Los investigadores están invirtiendo un esfuerzo sustancial en desarrollar agentes generales potentes, donde los Modelos Fundamentales se utilizan como módulos dentro de sistemas agentes (por ejemplo, Cadena de Pensamiento, Autorreflexión, Formador de Herramientas). Sin embargo, la historia del aprendizaje automático nos enseña que las soluciones diseñadas a mano son eventualmente reemplazadas por soluciones aprendidas. Formulamos un nuevo área de investigación, Diseño Automatizado de Sistemas Agentes (ADAS), que tiene como objetivo crear automáticamente diseños de sistemas agentes potentes, incluyendo la invención de bloques de construcción novedosos y/o combinándolos de nuevas formas. Demostramos además que hay un enfoque aún no explorado pero prometedor dentro de ADAS donde los agentes pueden ser definidos en código y nuevos agentes pueden ser descubiertos automáticamente por un metaagente programando cada vez mejores en código. Dado que los lenguajes de programación son Turing Completos, este enfoque teóricamente permite el aprendizaje de cualquier sistema agente posible: incluyendo indicaciones novedosas, uso de herramientas, flujos de control y combinaciones de los mismos. Presentamos un algoritmo simple pero efectivo llamado Búsqueda de Metaagente para demostrar esta idea, donde un metaagente programa iterativamente nuevos agentes interesantes basados en un archivo en constante crecimiento de descubrimientos previos. A través de experimentos extensos en múltiples dominios incluyendo codificación, ciencia y matemáticas, mostramos que nuestro algoritmo puede inventar progresivamente agentes con diseños novedosos que superan ampliamente a los agentes diseñados a mano de vanguardia. Es importante destacar que observamos consistentemente el resultado sorprendente de que los agentes inventados por la Búsqueda de Metaagentes mantienen un rendimiento superior incluso al ser transferidos entre dominios y modelos, demostrando su robustez y generalidad. Si lo desarrollamos de manera segura, nuestro trabajo ilustra el potencial de una emocionante nueva dirección de investigación hacia el diseño automático de sistemas agentes cada vez más potentes para beneficiar a la humanidad.

Surgical SAM 2: Segmentación en Tiempo Real de Cualquier Elemento en Vídeo Quirúrgico mediante una Poda Eficiente de Fotogramas
Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning

Aug 15

ByHaofeng Liu, Erli Zhang, Junde Wu, Mingxuan Hong, Yueming Jin

La segmentación de videos quirúrgicos es una tarea crítica en la cirugía asistida por computadora y es vital para mejorar la calidad quirúrgica y los resultados para el paciente. Recientemente, el marco del Modelo Segment Anything 2 (SAM2) ha mostrado avances superiores en la segmentación de imágenes y videos. Sin embargo, SAM2 enfrenta dificultades en eficiencia debido a las altas demandas computacionales para procesar imágenes de alta resolución y dinámicas temporales complejas y de largo alcance en videos quirúrgicos. Para abordar estos desafíos, presentamos Surgical SAM 2 (SurgSAM-2), un modelo avanzado que utiliza SAM2 con un mecanismo de Poda Eficiente de Fotogramas (EFP), para facilitar la segmentación en tiempo real de videos quirúrgicos. El mecanismo EFP gestiona dinámicamente el banco de memoria al retener selectivamente solo los fotogramas más informativos, reduciendo el uso de memoria y el costo computacional manteniendo una alta precisión de segmentación. Nuestros extensos experimentos demuestran que SurgSAM-2 mejora significativamente tanto la eficiencia como la precisión de segmentación en comparación con SAM2 estándar. Notablemente, SurgSAM-2 logra un FPS 3 veces mayor en comparación con SAM2, al tiempo que ofrece un rendimiento de vanguardia después de un ajuste fino con datos de menor resolución. Estos avances establecen a SurgSAM-2 como un modelo líder para el análisis de videos quirúrgicos, haciendo que la segmentación en tiempo real de videos quirúrgicos en entornos con recursos limitados sea una realidad factible.

TurboEdit: Edición instantánea de imágenes basada en texto
TurboEdit: Instant text-based image editing

Aug 14

ByZongze Wu, Nicholas Kolkin, Jonathan Brandt, Richard Zhang, Eli Shechtman

Abordamos los desafíos de la inversión precisa de imágenes y la edición desentrelazada de imágenes en el contexto de modelos de difusión de pocos pasos. Introducimos una técnica de inversión iterativa basada en un codificador. La red de inversión se condiciona a la imagen de entrada y a la imagen reconstruida del paso anterior, lo que permite corregir la próxima reconstrucción hacia la imagen de entrada. Demostramos que los controles desentrelazados pueden lograrse fácilmente en el modelo de difusión de pocos pasos condicionando a una descripción detallada de texto (generada automáticamente). Para manipular la imagen invertida, congelamos los mapas de ruido y modificamos un atributo en la descripción de texto (ya sea manualmente o mediante edición basada en instrucciones impulsada por un LLM), lo que resulta en la generación de una nueva imagen similar a la imagen de entrada con solo un atributo cambiado. Además, se puede controlar la intensidad de la edición y aceptar descripciones de texto instructivas. Nuestro enfoque facilita ediciones de imágenes realistas guiadas por texto en tiempo real, requiriendo solo 8 evaluaciones funcionales (NFEs) en la inversión (costo único) y 4 NFEs por edición. Nuestro método no solo es rápido, sino que también supera significativamente las técnicas de edición de difusión de varios pasos más avanzadas.

Ajuste fino de Modelos de Lenguaje Grandes con Estrategias de Aprendizaje Inspiradas en Humanos en la Respuesta a Preguntas Médicas
Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering

Aug 15

ByYushi Yang, Andrew M. Bean, Robert McCraith, Adam Mahdi

Entrenar Modelos de Lenguaje Grandes (LLMs) conlleva costos sustanciales relacionados con los datos, lo que motiva el desarrollo de métodos de entrenamiento eficientes en datos a través de la optimización del orden y la selección de datos. Estrategias de aprendizaje inspiradas en humanos, como el aprendizaje por currículo, ofrecen posibilidades para un entrenamiento eficiente al organizar los datos de acuerdo con prácticas comunes de aprendizaje humano. A pesar de la evidencia de que el ajuste fino con aprendizaje por currículo mejora el rendimiento de LLMs para tareas de comprensión del lenguaje natural, su efectividad se evalúa típicamente utilizando un solo modelo. En este trabajo, ampliamos investigaciones anteriores evaluando estrategias de aprendizaje basadas en currículo y no basadas en currículo en varios LLMs, utilizando etiquetas de datos definidas por humanos y de forma automatizada para responder preguntas médicas. Nuestros resultados indican un impacto moderado del uso de estrategias de aprendizaje inspiradas en humanos para el ajuste fino de LLMs, con ganancias máximas de precisión de 1.77% por modelo y 1.81% por conjunto de datos. Esencialmente, demostramos que la efectividad de estas estrategias varía significativamente entre diferentes combinaciones de modelo y conjunto de datos, enfatizando que los beneficios de una estrategia específica inspirada en humanos para el ajuste fino de LLMs no se generalizan. Además, encontramos evidencia de que el aprendizaje por currículo utilizando la dificultad de las preguntas definida por LLM supera a la dificultad definida por humanos, resaltando el potencial de utilizar medidas generadas por el modelo para un diseño curricular óptimo.

D5RL: Conjuntos de datos diversos para el aprendizaje profundo basado en datos de refuerzo.
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning

Aug 15

ByRafael Rafailov, Kyle Hatch, Anikait Singh, Laura Smith, Aviral Kumar, Ilya Kostrikov, Philippe Hansen-Estruch, Victor Kolev, Philip Ball, Jiajun Wu, Chelsea Finn, Sergey Levine

Los algoritmos de aprendizaje por refuerzo offline prometen habilitar métodos de RL basados en datos que no requieren exploración costosa o peligrosa en el mundo real y se benefician de grandes conjuntos de datos pre-recopilados. Esto, a su vez, puede facilitar aplicaciones en el mundo real, así como un enfoque más estandarizado para la investigación en RL. Además, los métodos de RL offline pueden proporcionar inicializaciones efectivas para el ajuste fino en línea para superar desafíos con la exploración. Sin embargo, evaluar el progreso en los algoritmos de RL offline requiere puntos de referencia efectivos y desafiantes que capturen propiedades de tareas del mundo real, proporcionen una variedad de dificultades en las tareas y abarquen una serie de desafíos tanto en términos de los parámetros del dominio (por ejemplo, longitud del horizonte, dispersión de recompensas) como en los parámetros de los datos (por ejemplo, datos de demostración limitados o datos exploratorios amplios). Aunque en los últimos años se ha logrado un progreso considerable en RL offline gracias a tareas de referencia más simples, los conjuntos de datos más ampliamente utilizados están alcanzando un punto de saturación en rendimiento y pueden no reflejar las propiedades de tareas realistas. Proponemos un nuevo punto de referencia para RL offline que se centra en simulaciones realistas de entornos de manipulación y locomoción robótica, basados en modelos de sistemas robóticos del mundo real, y que abarca una variedad de fuentes de datos, incluidos datos escritos, datos de estilo de juego recopilados por teleoperadores humanos y otras fuentes de datos. Nuestro punto de referencia propuesto cubre dominios basados en estados e imágenes, y admite tanto la evaluación de RL offline como el ajuste fino en línea, con algunas tareas diseñadas específicamente para requerir tanto pre-entrenamiento como ajuste fino. Esperamos que nuestro punto de referencia propuesto facilite un mayor progreso tanto en los algoritmos de RL offline como en los de ajuste fino. El sitio web con código, ejemplos, tareas y datos está disponible en https://sites.google.com/view/d5rl/

D5RL: Conjuntos de datos diversos para el aprendizaje profundo basado en datos de refuerzo.
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning

Aug 15

ByRafael Rafailov, Kyle Hatch, Anikait Singh, Laura Smith, Aviral Kumar, Ilya Kostrikov, Philippe Hansen-Estruch, Victor Kolev, Philip Ball, Jiajun Wu, Chelsea Finn, Sergey Levine