Artículos de investigación en IA seleccionados diariamente con traducciones
Proponemos LENS, un enfoque modular para abordar problemas de visión por computadora aprovechando el poder de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). Nuestro sistema utiliza un modelo de lenguaje para razonar sobre las salidas de un conjunto de módulos de visión independientes y altamente descriptivos que proporcionan información exhaustiva sobre una imagen. Evaluamos el enfoque en entornos puros de visión por computadora, como el reconocimiento de objetos en escenarios de cero y pocos ejemplos, así como en problemas que combinan visión y lenguaje. LENS puede aplicarse a cualquier LLM disponible comercialmente y encontramos que los LLMs con LENS tienen un rendimiento altamente competitivo en comparación con sistemas mucho más grandes y sofisticados, sin necesidad de ningún entrenamiento multimodal. Hemos liberado nuestro código en https://github.com/ContextualAI/lens y proporcionamos una demostración interactiva.
La IA generativa y los modelos de lenguaje de gran escala tienen un gran potencial para mejorar la educación en computación al impulsar tecnologías educativas de próxima generación para la programación introductoria. Trabajos recientes han estudiado estos modelos en diferentes escenarios relevantes para la educación en programación; sin embargo, estos estudios están limitados por varias razones, ya que generalmente consideran modelos ya obsoletos o solo escenarios específicos. En consecuencia, existe una falta de estudios sistemáticos que evalúen modelos de última generación para un conjunto completo de escenarios de educación en programación. En nuestro trabajo, evaluamos sistemáticamente dos modelos, ChatGPT (basado en GPT-3.5) y GPT-4, y comparamos su rendimiento con el de tutores humanos en una variedad de escenarios. Evaluamos utilizando cinco problemas introductorios de programación en Python y programas con errores del mundo real de una plataforma en línea, y medimos el rendimiento mediante anotaciones basadas en expertos. Nuestros resultados muestran que GPT-4 supera drásticamente a ChatGPT (basado en GPT-3.5) y se acerca al rendimiento de los tutores humanos en varios escenarios. Estos resultados también destacan situaciones en las que GPT-4 aún tiene dificultades, proporcionando direcciones futuras emocionantes para desarrollar técnicas que mejoren el rendimiento de estos modelos.
Las secuencias genómicas (ADN) codifican una enorme cantidad de información para la regulación génica y la síntesis de proteínas. Similar a los modelos de lenguaje natural, los investigadores han propuesto modelos fundacionales en genómica para aprender características generalizables a partir de datos genómicos no etiquetados, que luego pueden ajustarse para tareas posteriores, como la identificación de elementos reguladores. Debido al escalamiento cuadrático de la atención, los modelos genómicos basados en Transformers anteriores han utilizado de 512 a 4k tokens como contexto (<0.001% del genoma humano), limitando significativamente el modelado de interacciones de largo alcance en el ADN. Además, estos métodos dependen de tokenizadores para agregar unidades significativas de ADN, perdiendo la resolución de nucleótidos individuales, donde variaciones genéticas sutiles pueden alterar completamente la función de las proteínas a través de polimorfismos de un solo nucleótido (SNPs). Recientemente, Hyena, un modelo de lenguaje grande basado en convoluciones implícitas, demostró igualar la calidad de la atención mientras permite longitudes de contexto más largas y una menor complejidad temporal. Aprovechando las nuevas capacidades de largo alcance de Hyena, presentamos HyenaDNA, un modelo fundacional genómico preentrenado en el genoma de referencia humano con longitudes de contexto de hasta 1 millón de tokens a nivel de nucleótido individual, un aumento de hasta 500x sobre los modelos anteriores basados en atención densa. HyenaDNA escala subcuadráticamente en longitud de secuencia (entrenándose hasta 160x más rápido que un Transformer), utiliza tokens de nucleótidos individuales y tiene contexto global completo en cada capa. Exploramos lo que permite un contexto más largo, incluyendo el primer uso de aprendizaje en contexto en genómica para la adaptación simple a nuevas tareas sin actualizar los pesos del modelo preentrenado. En los puntos de referencia ajustados del Nucleotide Transformer, HyenaDNA alcanza el estado del arte (SotA) en 12 de 17 conjuntos de datos utilizando un modelo con órdenes de magnitud menos de parámetros y datos de preentrenamiento. En GenomicBenchmarks, HyenaDNA supera el SotA en los 8 conjuntos de datos en promedio por +9 puntos de precisión.
El ajuste por instrucciones desbloquea la capacidad superior de los Modelos de Lenguaje de Gran Escala (LLM) para interactuar con humanos. Además, los conjuntos de datos recientes de seguimiento de instrucciones incluyen imágenes como entradas visuales, recopilando respuestas para instrucciones basadas en imágenes. Sin embargo, los modelos ajustados por instrucciones visuales no comprenden bien los detalles textuales dentro de las imágenes. Este trabajo mejora la actual pipeline de ajuste por instrucciones visuales con imágenes ricas en texto (por ejemplo, carteles de películas, portadas de libros, etc.). Específicamente, primero utilizamos herramientas OCR disponibles públicamente para recopilar resultados en 422K imágenes ricas en texto del conjunto de datos LAION. Además, utilizamos GPT-4 solo de texto con textos reconocidos y descripciones de imágenes para generar 16K conversaciones, cada una conteniendo pares de preguntas y respuestas para imágenes ricas en texto. Al combinar nuestros datos recopilados con datos previos de seguimiento de instrucciones multimodales, nuestro modelo, LLaVAR, mejora sustancialmente la capacidad del modelo LLaVA en conjuntos de datos de VQA basados en texto (hasta un 20% de mejora en precisión) mientras alcanza una precisión del 91.42% en ScienceQA. La evaluación de seguimiento de instrucciones basada en GPT-4 también demuestra la mejora de nuestro modelo tanto en imágenes naturales como en imágenes ricas en texto. A través de análisis cualitativo, LLaVAR muestra habilidades prometedoras de interacción (por ejemplo, razonamiento, escritura y elaboración) con humanos basadas en el contenido en línea del mundo real más reciente que combina texto e imágenes. Hacemos nuestro código/datos/modelos disponibles públicamente en https://llavar.github.io/.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) pueden no representar equitativamente las diversas perspectivas globales sobre temas sociales. En este artículo, desarrollamos un marco cuantitativo para evaluar a cuyas opiniones se asemejan más las respuestas generadas por los modelos. Primero construimos un conjunto de datos, GlobalOpinionQA, compuesto por preguntas y respuestas de encuestas transnacionales diseñadas para capturar opiniones diversas sobre temas globales en diferentes países. A continuación, definimos una métrica que cuantifica la similitud entre las respuestas generadas por los LLMs y las respuestas humanas, condicionadas por país. Con nuestro marco, realizamos tres experimentos en un LLM entrenado para ser útil, honesto e inofensivo mediante IA Constitucional. Por defecto, las respuestas del LLM tienden a ser más similares a las opiniones de ciertas poblaciones, como las de EE. UU., y algunos países europeos y sudamericanos, lo que destaca el potencial de sesgos. Cuando indicamos al modelo que considere la perspectiva de un país en particular, las respuestas se desplazan para ser más similares a las opiniones de las poblaciones indicadas, pero pueden reflejar estereotipos culturales dañinos. Cuando traducimos las preguntas de GlobalOpinionQA a un idioma objetivo, las respuestas del modelo no necesariamente se vuelven más similares a las opiniones de los hablantes de esos idiomas. Publicamos nuestro conjunto de datos para que otros lo utilicen y desarrollen. Nuestros datos están disponibles en https://huggingface.co/datasets/Anthropic/llm_global_opinions. También proporcionamos una visualización interactiva en https://llmglobalvalues.anthropic.com.
Los modelos de difusión para eliminación de ruido han mostrado recientemente resultados impresionantes en tareas generativas. Al aprender potentes distribuciones previas a partir de grandes colecciones de imágenes de entrenamiento, estos modelos son capaces de modificar gradualmente ruido completo para obtener una imagen natural limpia mediante una secuencia de pequeños pasos de eliminación de ruido, lo que aparentemente los hace adecuados para la eliminación de ruido en imágenes individuales. Sin embargo, aplicar efectivamente los modelos de difusión para eliminación de ruido a la eliminación de ruido realista es más desafiante de lo que parece, ya que su formulación se basa en ruido gaussiano blanco aditivo, a diferencia del ruido presente en imágenes del mundo real. En este trabajo, presentamos SVNR, una nueva formulación de difusión para eliminación de ruido que asume un modelo de ruido más realista y espacialmente variable. SVNR permite utilizar la imagen ruidosa de entrada como punto de partida para el proceso de difusión para eliminación de ruido, además de condicionar el proceso en ella. Para ello, adaptamos el proceso de difusión para permitir que cada píxel tenga su propia incrustación temporal, y proponemos esquemas de entrenamiento e inferencia que admiten mapas temporales espacialmente variables. Nuestra formulación también tiene en cuenta la correlación que existe entre la imagen de condición y las muestras a lo largo del proceso de difusión modificado. En nuestros experimentos demostramos las ventajas de nuestro enfoque frente a un modelo de difusión de referencia sólido, así como frente a un método de eliminación de ruido en imágenes individuales de última generación.
La capacidad de detectar y analizar automáticamente ejecuciones fallidas es crucial para un sistema robótico explicable y robusto. Recientemente, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado habilidades sólidas de razonamiento de sentido común en entradas textuales. Para aprovechar el poder de los LLMs en la explicación de fallos robóticos, proponemos un marco llamado REFLECT, que convierte datos multisensoriales en un resumen jerárquico de las experiencias pasadas del robot y consulta al LLM mediante un algoritmo progresivo de explicación de fallos. Condicionado por la explicación, un planificador de corrección de fallos genera un plan ejecutable para que el robot corrija el error y complete la tarea. Para evaluar sistemáticamente el marco, creamos el conjunto de datos RoboFail y demostramos que nuestro marco basado en LLMs es capaz de generar explicaciones de fallos informativas que ayudan a la planificación exitosa de correcciones. Sitio web del proyecto: https://roboreflect.github.io/
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables de manera inmediata para una amplia gama de aplicaciones, aunque la precisión sigue siendo un área clave de mejora, especialmente en dominios críticos como la biomedicina. Un método efectivo para calibrar el nivel de confianza en las respuestas de los LLMs es esencial para detectar errores automáticamente y facilitar la verificación con intervención humana. Una fuente importante de señales de calibración proviene de la supervisión programática establecida por expertos, que suele estar disponible a bajo costo pero tiene sus propias limitaciones, como el ruido y la cobertura. En este artículo, presentamos un marco de autosupervisión óptimo de Pareto que puede aprovechar la supervisión programática disponible para calibrar sistemáticamente las respuestas de los LLMs, generando una puntuación de riesgo para cada respuesta, sin necesidad de esfuerzos manuales adicionales. Esto se logra mediante el aprendizaje de un modelo armonizador que alinea la salida del LLM con otras fuentes de supervisión disponibles, asignando puntuaciones de riesgo más altas a las respuestas más inciertas del LLM y facilitando la corrección de errores. Los experimentos en tareas estándar de extracción de relaciones en dominios biomédicos y generales demuestran el potencial de este enfoque, con nuestras puntuaciones de riesgo propuestas altamente correlacionadas con la tasa real de errores de los LLMs. Para las instancias de prueba más inciertas, el uso de indicaciones dinámicas basadas en nuestras puntuaciones de riesgo propuestas resulta en una mejora significativa en la precisión de los LLMs listos para usar, superando los resultados de GPT-3 más allá del estado del arte (SOTA) en supervisión débil y los resultados de GPT-4 más allá del SOTA en supervisión supervisada en conjuntos de datos de evaluación desafiantes.
Los sistemas recientes de reconocimiento automático del habla (ASR) de extremo a extremo suelen utilizar un codificador acústico basado en Transformers que genera embeddings a una alta tasa de fotogramas. Sin embargo, este diseño es ineficiente, especialmente para señales de habla largas, debido al cálculo cuadrático de la autoatención. Para abordar este problema, proponemos un nuevo método, Fusión de Tokens Adyacentes (A-ToMe), que combina gradualmente tokens adyacentes con puntuaciones de similitud altas entre sus valores clave. De esta manera, se puede reducir el número total de pasos de tiempo, y se acelera la inferencia tanto del codificador como de la red conjunta. Los experimentos en LibriSpeech muestran que nuestro método puede reducir un 57% de los tokens y mejorar la velocidad de inferencia en GPU en un 70% sin una pérdida notable de precisión. Además, demostramos que A-ToMe también es una solución efectiva para reducir tokens en ASR de formato largo, donde el habla de entrada consiste en múltiples enunciados.