Artículos de investigación en IA seleccionados diariamente con traducciones
La optimización es omnipresente. Si bien los algoritmos basados en derivadas han sido herramientas poderosas para diversos problemas, la ausencia de gradientes impone desafíos en muchas aplicaciones del mundo real. En este trabajo, proponemos Optimización mediante PROmpting (OPRO), un enfoque simple y efectivo para aprovechar los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) como optimizadores, donde la tarea de optimización se describe en lenguaje natural. En cada paso de optimización, el LLM genera nuevas soluciones a partir del prompt que contiene las soluciones generadas previamente junto con sus valores; luego, las nuevas soluciones se evalúan y se añaden al prompt para el siguiente paso de optimización. Primero demostramos OPRO en problemas de regresión lineal y del viajante, y luego avanzamos hacia la optimización de prompts, donde el objetivo es encontrar instrucciones que maximicen la precisión de la tarea. Con una variedad de LLMs, demostramos que los mejores prompts optimizados por OPRO superan a los prompts diseñados por humanos en hasta un 8% en GSM8K y en hasta un 50% en tareas de Big-Bench Hard.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado un éxito notable en tareas de PLN y multimodales. A pesar de estos logros, su desarrollo enfrenta dos desafíos principales: (i) el alto costo computacional; y (ii) la dificultad para realizar evaluaciones justas y objetivas. Los LLMs son prohibitivamente costosos, lo que hace que solo unos pocos actores importantes puedan emprender su entrenamiento, limitando así tanto las oportunidades de investigación como de aplicación. Esto subraya la importancia de un entrenamiento de LLMs rentable. En este artículo, utilizamos una estrategia de crecimiento para reducir significativamente el costo de entrenamiento de LLMs. Demostramos que un LLM con 101B parámetros y 0.31TB de tokens puede ser entrenado con un presupuesto de 100K. También adoptamos un paradigma de evaluación sistemática para la evaluación del coeficiente intelectual (IQ) de los LLMs, complementando las evaluaciones existentes que se centran más en habilidades orientadas al conocimiento. Introducimos nuestro benchmark que incluye evaluaciones en aspectos importantes de la inteligencia, como mapeo simbólico, comprensión de reglas, minería de patrones y anti-interferencia. Dichas evaluaciones minimizan el impacto potencial de la memorización. Los resultados experimentales muestran que nuestro modelo FLM-101B, entrenado con un presupuesto de 100K, logra un rendimiento comparable a modelos potentes y conocidos, como GPT-3 y GLM-130B, especialmente en las evaluaciones de IQ con contextos no vistos en los datos de entrenamiento. El checkpoint de FLM-101B será de código abierto en https://huggingface.co/CofeAI/FLM-101B.
A pesar de sus impresionantes capacidades, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son propensos a las alucinaciones, es decir, a generar contenido que se desvía de los hechos observados durante el preentrenamiento. Proponemos una estrategia de decodificación simple para reducir las alucinaciones en LLMs preentrenados que no requiere condicionamiento sobre conocimiento externo recuperado ni ajustes adicionales. Nuestro enfoque obtiene la distribución del siguiente token contrastando las diferencias en los logits obtenidos al proyectar las capas posteriores frente a las capas anteriores en el espacio del vocabulario, aprovechando el hecho de que el conocimiento factual en los LLMs generalmente se ha demostrado que está localizado en capas específicas del transformador. Descubrimos que este enfoque de Decodificación por Contraste de Capas (DoLa, por sus siglas en inglés) es capaz de resaltar mejor el conocimiento factual y reducir la generación de hechos incorrectos. DoLa mejora consistentemente la veracidad en tareas de selección múltiple y tareas de generación abierta, por ejemplo, mejorando el rendimiento de los modelos de la familia LLaMA en TruthfulQA en 12-17 puntos porcentuales absolutos, demostrando su potencial para hacer que los LLMs generen hechos verdaderos de manera confiable.
Los datos de entrenamiento para la segmentación de video son costosos de anotar. Esto dificulta la extensión de algoritmos de extremo a extremo a nuevas tareas de segmentación de video, especialmente en entornos de vocabulario amplio. Para "rastrear cualquier cosa" sin entrenar con datos de video para cada tarea individual, desarrollamos un enfoque de segmentación de video desacoplado (DEVA), compuesto por una segmentación a nivel de imagen específica para la tarea y una propagación temporal bidireccional independiente de la clase/tarea. Debido a este diseño, solo necesitamos un modelo a nivel de imagen para la tarea objetivo (que es más económico de entrenar) y un modelo universal de propagación temporal que se entrena una vez y generaliza entre tareas. Para combinar efectivamente estos dos módulos, utilizamos propagación bidireccional para la fusión (semi-)en línea de hipótesis de segmentación de diferentes fotogramas, generando así una segmentación coherente. Demostramos que esta formulación desacoplada se compara favorablemente con enfoques de extremo a extremo en varias tareas con escasez de datos, incluyendo la segmentación panóptica de video de vocabulario amplio, la segmentación de video de mundo abierto, la segmentación de video referencial y la segmentación de objetos en video no supervisada. El código está disponible en: https://hkchengrex.github.io/Tracking-Anything-with-DEVA
La propagación basada en flujo y el Transformer espacio-temporal son dos mecanismos principales en la restauración de vídeos (VI). A pesar de la efectividad de estos componentes, aún presentan ciertas limitaciones que afectan su rendimiento. Los enfoques anteriores basados en propagación se realizan por separado, ya sea en el dominio de la imagen o en el de las características. La propagación global de imágenes, aislada del aprendizaje, puede causar desalineación espacial debido a flujos ópticos imprecisos. Además, las limitaciones de memoria o computación restringen el rango temporal de la propagación de características y el Transformer de vídeo, impidiendo la exploración de información de correspondencia en fotogramas distantes. Para abordar estos problemas, proponemos un marco mejorado, llamado ProPainter, que incluye una propagación mejorada y un Transformer eficiente. Específicamente, introducimos una propagación de doble dominio que combina las ventajas del deformado de imágenes y características, aprovechando de manera confiable las correspondencias globales. También proponemos un Transformer de vídeo disperso guiado por máscara, que logra alta eficiencia al descartar tokens innecesarios y redundantes. Con estos componentes, ProPainter supera a los métodos anteriores por un amplio margen de 1.46 dB en PSNR, manteniendo una eficiencia atractiva.
Presentamos ImageBind-LLM, un método de ajuste por instrucciones multimodales para modelos de lenguaje grande (LLMs) mediante ImageBind. Los trabajos existentes se centran principalmente en el ajuste por instrucciones de lenguaje e imágenes, a diferencia de los cuales, nuestro ImageBind-LLM puede responder a condiciones multimodales, incluyendo audio, nubes de puntos 3D, video y su aritmética en el espacio de incrustaciones, solo con entrenamiento de alineación imagen-texto. Durante el entrenamiento, adoptamos una red de enlace aprendible para alinear el espacio de incrustaciones entre LLaMA y el codificador de imágenes de ImageBind. Luego, las características de imagen transformadas por la red de enlace se añaden a los tokens de palabras de todas las capas en LLaMA, lo que inyecta progresivamente instrucciones visuales mediante un mecanismo de compuerta sin atención e inicializado en cero. Ayudado por la incrustación conjunta de ImageBind, el simple entrenamiento imagen-texto permite que nuestro modelo exhiba capacidades superiores de seguimiento de instrucciones multimodales. Durante la inferencia, las entradas multimodales se introducen en los codificadores correspondientes de ImageBind y se procesan mediante un modelo de caché visual propuesto para una mayor mejora de la incrustación cruzada de modalidades. El modelo de caché, que no requiere entrenamiento, recupera de tres millones de características de imagen extraídas por ImageBind, lo que mitiga eficazmente la discrepancia de modalidades entre entrenamiento e inferencia. Notablemente, con nuestro enfoque, ImageBind-LLM puede responder a instrucciones de diversas modalidades y demostrar una calidad significativa en la generación de lenguaje. El código se ha publicado en https://github.com/OpenGVLab/LLaMA-Adapter.
Presentamos InstructDiffusion, un marco unificador y genérico para alinear tareas de visión por computadora con instrucciones humanas. A diferencia de los enfoques existentes que integran conocimiento previo y predefinen el espacio de salida (por ejemplo, categorías y coordenadas) para cada tarea de visión, transformamos diversas tareas de visión en un proceso intuitivo de manipulación de imágenes cuyo espacio de salida es un espacio de píxeles flexible e interactivo. Concretamente, el modelo se basa en el proceso de difusión y se entrena para predecir píxeles según las instrucciones del usuario, como rodear en rojo el hombro izquierdo de un hombre o aplicar una máscara azul al coche de la izquierda. InstructDiffusion puede manejar una variedad de tareas de visión, incluyendo tareas de comprensión (como segmentación y detección de puntos clave) y tareas generativas (como edición y mejora). Incluso exhibe la capacidad de manejar tareas no vistas y supera a métodos anteriores en nuevos conjuntos de datos. Esto representa un paso significativo hacia una interfaz de modelado generalista para tareas de visión, avanzando en la inteligencia artificial general en el campo de la visión por computadora.
En este artículo, presentamos un nuevo modelo de difusión llamado que genera imágenes multivista consistentes a partir de una imagen de una sola vista. Utilizando modelos de difusión 2D a gran escala preentrenados, trabajos recientes como Zero123 demuestran la capacidad de generar vistas novedosas plausibles a partir de una imagen de un objeto con una sola vista. Sin embargo, mantener la consistencia en la geometría y los colores de las imágenes generadas sigue siendo un desafío. Para abordar este problema, proponemos un modelo de difusión multivista sincronizado que modela la distribución de probabilidad conjunta de imágenes multivista, permitiendo la generación de imágenes multivista consistentes en un único proceso inverso. SyncDreamer sincroniza los estados intermedios de todas las imágenes generadas en cada paso del proceso inverso mediante un mecanismo de atención de características 3D que correlaciona las características correspondientes en diferentes vistas. Los experimentos muestran que SyncDreamer genera imágenes con alta consistencia entre diferentes vistas, lo que lo hace adecuado para diversas tareas de generación 3D, como síntesis de vistas novedosas, texto-a-3D e imagen-a-3D.
Los recientes avances en modelos de difusión como ControlNet han permitido la generación de imágenes de alta fidelidad a partir de texto con control geométrico. Sin embargo, ninguno de ellos aborda la cuestión de añadir dicha capacidad de control a la generación de texto a 3D. En respuesta, proponemos Text2Control3D, un método de generación de avatares 3D controlables a partir de texto, cuyas expresiones faciales son controlables dado un video monocular capturado casualmente con una cámara de mano. Nuestra estrategia principal es construir el avatar 3D en Campos de Radiancia Neural (NeRF) optimizado con un conjunto de imágenes controladas y dependientes del punto de vista que generamos a partir de ControlNet, cuya entrada de condición es el mapa de profundidad extraído del video de entrada. Al generar las imágenes dependientes del punto de vista, utilizamos atención de referencia cruzada para inyectar expresiones faciales y apariencias bien controladas y referenciales mediante atención cruzada. También realizamos un filtrado de paso bajo del espacio latente gaussiano del modelo de difusión para mejorar el problema de textura independiente del punto de vista que observamos en nuestro análisis empírico, donde las imágenes dependientes del punto de vista contienen texturas idénticas en posiciones de píxeles idénticas que son incomprensibles en 3D. Finalmente, para entrenar NeRF con imágenes que son dependientes del punto de vista pero no son estrictamente consistentes en geometría, nuestro enfoque considera la variación geométrica por imagen como una vista de deformación desde un espacio canónico 3D compartido. En consecuencia, construimos el avatar 3D en un espacio canónico de NeRF deformable aprendiendo un conjunto de deformaciones por imagen mediante una tabla de campos de deformación. Demostramos los resultados empíricos y discutimos la efectividad de nuestro método.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se han vuelto omnipresentes en diversos dominios, transformando la forma en que interactuamos con la información y llevamos a cabo investigaciones. Sin embargo, la mayoría de los LLMs de alto rendimiento permanecen confinados detrás de barreras propietarias, obstaculizando el progreso científico. Por otro lado, la mayoría de los LLMs de código abierto tienen limitaciones en su capacidad para manejar secuencias más largas, un requisito clave para muchas tareas que requieren inferencia sobre un contexto de entrada. Para abordar este problema, hemos entrenado XGen, una serie de modelos de 7B de parámetros con longitudes de secuencia de hasta 8K y hasta 1.5T de tokens. También hemos ajustado finamente los modelos XGen con datos instructivos de dominio público, creando sus versiones ajustadas para instrucciones (XGen-Inst). Hemos liberado nuestros modelos tanto para avances en investigación como para aplicaciones comerciales. Nuestra evaluación en benchmarks estándar muestra que los modelos XGen logran resultados comparables o superiores en comparación con los LLMs de código abierto más avanzados. Nuestra evaluación específica en tareas de modelado de secuencias largas demuestra los beneficios de nuestros modelos de 8K de secuencia frente a los LLMs de código abierto de 2K de secuencia.
Presentamos un análisis en profundidad de un sistema de aprendizaje robótico del mundo real que, en trabajos previos, demostró ser capaz de realizar cientos de intercambios de tenis de mesa con un humano y tiene la capacidad de devolver la pelota con precisión a objetivos deseados. Este sistema combina un subsistema de percepción altamente optimizado, un controlador robótico de alta velocidad y baja latencia, un paradigma de simulación que puede prevenir daños en el mundo real y también entrenar políticas para transferencia de cero disparos, y reinicios automatizados del entorno en el mundo real que permiten el entrenamiento y evaluación autónomos en robots físicos. Complementamos una descripción completa del sistema, incluyendo numerosas decisiones de diseño que normalmente no se divulgan ampliamente, con una colección de estudios que aclaran la importancia de mitigar diversas fuentes de latencia, tener en cuenta los cambios de distribución entre el entrenamiento y el despliegue, la robustez del sistema de percepción, la sensibilidad a los hiperparámetros de la política y la elección del espacio de acción. Un video que demuestra los componentes del sistema y los detalles de los resultados experimentales se puede encontrar en https://youtu.be/uFcnWjB42I0.
Inspirados por el notable éxito de los Modelos de Difusión Latente (LDMs, por sus siglas en inglés) en la síntesis de imágenes, estudiamos el uso de LDMs para la generación de texto a video, un desafío formidable debido a las limitaciones computacionales y de memoria durante tanto el entrenamiento como la inferencia del modelo. Un solo LDM suele ser capaz de generar solo un número muy limitado de fotogramas de video. Algunos trabajos existentes se centran en modelos de predicción separados para generar más fotogramas, pero estos sufren de costos adicionales de entrenamiento y fluctuaciones a nivel de fotograma. En este artículo, proponemos un marco llamado "Reutilizar y Difundir", denominado VidRD, para producir más fotogramas siguiendo los fotogramas ya generados por un LDM. Condicionado en un clip de video inicial con un pequeño número de fotogramas, se generan fotogramas adicionales de manera iterativa reutilizando las características latentes originales y siguiendo el proceso de difusión previo. Además, para el autocodificador utilizado para la traducción entre el espacio de píxeles y el espacio latente, inyectamos capas temporales en su decodificador y ajustamos finamente estas capas para lograr una mayor consistencia temporal. También proponemos un conjunto de estrategias para componer datos de video-texto que involucran contenido diverso de múltiples conjuntos de datos existentes, incluyendo conjuntos de datos de video para reconocimiento de acciones y conjuntos de datos de imagen-texto. Experimentos extensos muestran que nuestro método logra buenos resultados tanto en evaluaciones cuantitativas como cualitativas. Nuestra página del proyecto está disponible {aquí}.