Artículos de investigación en IA seleccionados diariamente con traducciones
Impulsado por el preentrenamiento con grandes volúmenes de datos, el Segment Anything Model (SAM) se ha demostrado como un marco potente y adaptable, revolucionando los modelos de segmentación. A pesar de su generalidad, la personalización de SAM para conceptos visuales específicos sin intervención manual sigue siendo un área poco explorada, por ejemplo, segmentar automáticamente a tu perro en diferentes imágenes. En este artículo, proponemos un enfoque de Personalización sin entrenamiento para SAM, denominado PerSAM. Dada solo una imagen con una máscara de referencia, PerSAM primero localiza el concepto objetivo mediante un prior de ubicación y lo segmenta en otras imágenes o videos mediante tres técnicas: atención guiada por el objetivo, indicación semántica del objetivo y refinamiento en cascada. De esta manera, adaptamos eficazmente SAM para uso privado sin ningún entrenamiento. Para mitigar aún más la ambigüedad de las máscaras, presentamos una variante eficiente de ajuste fino en una sola toma, PerSAM-F. Congelando todo SAM, introducimos dos pesos aprendibles para máscaras multi-escala, entrenando solo 2 parámetros en 10 segundos para mejorar el rendimiento. Para demostrar nuestra eficacia, construimos un nuevo conjunto de datos de segmentación, PerSeg, para evaluación personalizada, y probamos nuestros métodos en la segmentación de objetos en videos con un rendimiento competitivo. Además, nuestro enfoque también puede mejorar DreamBooth para personalizar Stable Diffusion en la generación de imágenes a partir de texto, eliminando las perturbaciones del fondo para un mejor aprendizaje de la apariencia del objetivo. El código está disponible en https://github.com/ZrrSkywalker/Personalize-SAM.
Adaptar las salidas de modelos de lenguaje de gran escala, como ChatGPT, a las necesidades específicas de los usuarios sigue siendo un desafío a pesar de su impresionante calidad de generación. En este artículo, proponemos una canalización de generación tri-agente compuesta por un generador, un instructor y un editor para mejorar la personalización de las salidas generadas. El generador produce una salida inicial, el instructor específico del usuario genera instrucciones de edición, y el editor genera una salida revisada alineada con las preferencias del usuario. El modelo de lenguaje de gran escala basado únicamente en inferencia (ChatGPT) actúa tanto como generador como editor, mientras que un modelo más pequeño funciona como instructor específico del usuario para guiar el proceso de generación hacia las necesidades del usuario. El instructor se entrena utilizando aprendizaje por refuerzo guiado por el editor, aprovechando la retroalimentación del modelo editor a gran escala para optimizar la generación de instrucciones. Los resultados experimentales en dos conjuntos de datos de resumen abstractivo demuestran la efectividad de nuestro enfoque para generar salidas que cumplen mejor con las expectativas del usuario.
Presentamos Shap-E, un modelo generativo condicional para activos 3D. A diferencia de trabajos recientes sobre modelos generativos 3D que producen una única representación de salida, Shap-E genera directamente los parámetros de funciones implícitas que pueden renderizarse tanto como mallas texturizadas como campos de radiancia neurales. Entrenamos Shap-E en dos etapas: primero, entrenamos un codificador que mapea determinísticamente activos 3D a los parámetros de una función implícita; segundo, entrenamos un modelo de difusión condicional sobre las salidas del codificador. Cuando se entrena con un gran conjunto de datos de pares 3D y texto, nuestros modelos resultantes son capaces de generar activos 3D complejos y diversos en cuestión de segundos. En comparación con Point-E, un modelo generativo explícito sobre nubes de puntos, Shap-E converge más rápido y alcanza una calidad de muestras comparable o mejor, a pesar de modelar un espacio de salida de mayor dimensionalidad y múltiples representaciones. Publicamos los pesos del modelo, el código de inferencia y muestras en https://github.com/openai/shap-e.
Los recientes agentes de asistencia basados en IA, como ChatGPT, dependen principalmente del ajuste fino supervisado (SFT) con anotaciones humanas y del aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) para alinear la salida de los modelos de lenguaje grandes (LLMs) con las intenciones humanas, asegurando que sean útiles, éticos y confiables. Sin embargo, esta dependencia puede limitar significativamente el verdadero potencial de los agentes de asistencia de IA debido al alto costo de obtener supervisión humana y a los problemas relacionados con la calidad, confiabilidad, diversidad, autoconsistencia y sesgos indeseables. Para abordar estos desafíos, proponemos un enfoque novedoso llamado SELF-ALIGN, que combina el razonamiento basado en principios y el poder generativo de los LLMs para la autoalineación de los agentes de IA con una supervisión humana mínima. Nuestro enfoque abarca cuatro etapas: primero, utilizamos un LLM para generar indicaciones sintéticas y un método guiado por temas para aumentar la diversidad de las indicaciones; segundo, empleamos un pequeño conjunto de principios escritos por humanos para que los modelos de IA los sigan, y guiamos al LLM mediante el aprendizaje en contexto a partir de demostraciones (de la aplicación de principios) para producir respuestas útiles, éticas y confiables a las consultas de los usuarios; tercero, ajustamos finamente el LLM original con las respuestas autoalineadas de alta calidad para que el modelo resultante pueda generar respuestas deseables para cada consulta directamente sin necesidad del conjunto de principios y las demostraciones; y finalmente, ofrecemos un paso de refinamiento para abordar los problemas de respuestas demasiado breves o indirectas. Aplicando SELF-ALIGN al modelo de lenguaje base LLaMA-65b, desarrollamos un asistente de IA llamado Dromedary. Con menos de 300 líneas de anotaciones humanas (incluyendo < 200 indicaciones iniciales, 16 principios genéricos y 5 ejemplos para el aprendizaje en contexto), Dromedary supera significativamente el rendimiento de varios sistemas de IA de vanguardia, incluyendo Text-Davinci-003 y Alpaca, en conjuntos de datos de referencia con diversas configuraciones.