Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) pasaron de ser inexistentes a ubicuos en el discurso del aprendizaje automático en tan solo unos años. Debido al rápido avance del campo, resulta difícil identificar los desafíos pendientes y las áreas de aplicación ya fructíferas. En este artículo, nuestro objetivo es establecer un conjunto sistemático de problemas abiertos y éxitos en aplicaciones, de modo que los investigadores en aprendizaje automático puedan comprender más rápidamente el estado actual del campo y volverse productivos.
Desde finales de 2022, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han adquirido gran relevancia, con modelos como ChatGPT y Bard alcanzando millones de usuarios. Cada semana se anuncian cientos de nuevos LLMs, muchos de los cuales se depositan en Hugging Face, un repositorio de modelos y conjuntos de datos de aprendizaje automático. Hasta la fecha, se han subido casi 16,000 modelos de generación de texto a la plataforma. Dada la enorme afluencia de LLMs, resulta de interés conocer qué arquitecturas, configuraciones, métodos de entrenamiento y familias de LLMs son populares o están en tendencia. Sin embargo, no existe un índice completo de LLMs disponible. Aprovechamos la nomenclatura relativamente sistemática de los LLMs en Hugging Face para realizar agrupamiento jerárquico e identificar comunidades entre los LLMs utilizando n-gramas y la frecuencia de términos-inversa de la frecuencia en documentos. Nuestros métodos identifican con éxito familias de LLMs y agrupan con precisión los LLMs en subgrupos significativos. Presentamos una aplicación web pública para navegar y explorar Constellation, nuestro atlas de 15,821 LLMs. Constellation genera rápidamente una variedad de visualizaciones, como dendrogramas, gráficos, nubes de palabras y diagramas de dispersión. Constellation está disponible en el siguiente enlace: https://constellation.sites.stanford.edu/.
En una era donde la generación de contenido visual está cada vez más impulsada por el aprendizaje automático, la integración de retroalimentación humana en los modelos generativos presenta oportunidades significativas para mejorar la experiencia del usuario y la calidad de los resultados. Este estudio explora estrategias para incorporar retroalimentación humana iterativa en el proceso generativo de modelos de difusión basados en texto a imagen. Proponemos FABRIC, un enfoque que no requiere entrenamiento y es aplicable a una amplia gama de modelos de difusión populares, el cual aprovecha la capa de auto-atención presente en las arquitecturas más utilizadas para condicionar el proceso de difusión en un conjunto de imágenes de retroalimentación. Para garantizar una evaluación rigurosa de nuestro enfoque, introducimos una metodología de evaluación integral, ofreciendo un mecanismo robusto para cuantificar el rendimiento de los modelos generativos visuales que integran retroalimentación humana. Demostramos que los resultados de generación mejoran a través de múltiples rondas de retroalimentación iterativa mediante un análisis exhaustivo, optimizando implícitamente preferencias arbitrarias del usuario. Las aplicaciones potenciales de estos hallazgos se extienden a campos como la creación de contenido personalizado y la personalización.
La composición por capas es uno de los flujos de trabajo de edición de imágenes más populares tanto entre aficionados como profesionales. Motivados por el éxito de los modelos de difusión, exploramos la composición por capas desde una perspectiva de generación de imágenes en capas. En lugar de generar una imagen, proponemos generar simultáneamente el fondo, el primer plano, la máscara de capa y la imagen compuesta. Para lograr la generación de imágenes en capas, entrenamos un autoencoder capaz de reconstruir imágenes en capas y entrenamos modelos de difusión sobre la representación latente. Un beneficio del problema propuesto es permitir mejores flujos de trabajo de composición, además de obtener imágenes de alta calidad. Otro beneficio es la producción de máscaras de capa de mayor calidad en comparación con las máscaras generadas en un paso separado de segmentación de imágenes. Los resultados experimentales muestran que el método propuesto es capaz de generar imágenes en capas de alta calidad y establece un punto de referencia para trabajos futuros.
Los Modelos de Lenguaje y los Modelos de Lenguaje Visual han demostrado recientemente capacidades sin precedentes en términos de comprensión de intenciones humanas, razonamiento, comprensión de escenas y comportamientos similares a la planificación, en forma de texto, entre muchos otros. En este trabajo, investigamos cómo integrar y aprovechar dichas capacidades en agentes de Aprendizaje por Refuerzo (RL, por sus siglas en inglés). Diseñamos un marco que utiliza el lenguaje como herramienta central de razonamiento, explorando cómo esto permite a un agente abordar una serie de desafíos fundamentales de RL, como la exploración eficiente, la reutilización de datos de experiencia, la programación de habilidades y el aprendizaje a partir de observaciones, que tradicionalmente requieren algoritmos separados y diseñados verticalmente. Probamos nuestro método en un entorno simulado de manipulación robótica con recompensas escasas, donde un robot necesita apilar un conjunto de objetos. Demostramos mejoras sustanciales en el rendimiento respecto a las líneas base en eficiencia de exploración y capacidad para reutilizar datos de conjuntos de datos fuera de línea, e ilustramos cómo reutilizar habilidades aprendidas para resolver tareas novedosas o imitar videos de expertos humanos.
A pesar de los avances en IA conversacional, los modelos de lenguaje enfrentan desafíos para manejar diversas tareas conversacionales, y las colecciones de conjuntos de datos de diálogo existentes a menudo carecen de diversidad y exhaustividad. Para abordar estos problemas, presentamos DialogStudio: la colección más grande y diversa de conjuntos de datos de diálogo, unificados bajo un formato consistente mientras se preserva su información original. Nuestra colección abarca datos de diálogos de dominio abierto, diálogos orientados a tareas, comprensión del lenguaje natural, recomendación conversacional, resumen de diálogos y diálogos basados en conocimiento, convirtiéndola en un recurso increíblemente rico y diverso para la investigación en diálogos y el entrenamiento de modelos. Para mejorar aún más la utilidad de DialogStudio, identificamos las licencias de cada conjunto de datos y diseñamos indicaciones conscientes del dominio para diálogos seleccionados, facilitando el ajuste fino basado en instrucciones. Además, desarrollamos modelos de IA conversacional utilizando la colección de conjuntos de datos, y nuestros experimentos en escenarios de aprendizaje tanto en cero disparos como en pocos disparos demuestran la superioridad de DialogStudio. Para mejorar la transparencia y apoyar la investigación basada en conjuntos de datos y tareas, así como el preentrenamiento de modelos de lenguaje, todos los conjuntos de datos, licencias, códigos y modelos asociados con DialogStudio están disponibles públicamente en https://github.com/salesforce/DialogStudio.
Existe un creciente interés en los sistemas de control de dispositivos que pueden interpretar instrucciones en lenguaje natural humano y ejecutarlas en un dispositivo digital controlando directamente su interfaz de usuario. Presentamos un conjunto de datos para investigación en control de dispositivos, Android in the Wild (AITW), que es órdenes de magnitud más grande que los conjuntos de datos actuales. El conjunto de datos contiene demostraciones humanas de interacciones con dispositivos, incluyendo las pantallas y acciones, junto con las correspondientes instrucciones en lenguaje natural. Consta de 715k episodios que abarcan 30k instrucciones únicas, cuatro versiones de Android (v10-13) y ocho tipos de dispositivos (desde Pixel 2 XL hasta Pixel 6) con diferentes resoluciones de pantalla. Incluye tareas de múltiples pasos que requieren comprensión semántica del lenguaje y del contexto visual. Este conjunto de datos plantea un nuevo desafío: las acciones disponibles a través de la interfaz de usuario deben inferirse a partir de su apariencia visual. Además, en lugar de acciones simples basadas en elementos de la interfaz, el espacio de acciones consiste en gestos precisos (por ejemplo, desplazamientos horizontales para operar widgets de carrusel). Organizamos nuestro conjunto de datos para fomentar el análisis de robustez de los sistemas de control de dispositivos, es decir, qué tan bien funciona un sistema ante nuevas descripciones de tareas, nuevas aplicaciones o nuevas versiones de plataformas. Desarrollamos dos agentes e informamos su rendimiento en todo el conjunto de datos. El conjunto de datos está disponible en https://github.com/google-research/google-research/tree/master/android_in_the_wild.
Los LLM han demostrado ser prometedores al replicar comportamientos similares a los humanos en tareas de crowdsourcing que anteriormente se consideraban exclusivas de las capacidades humanas. Sin embargo, los esfuerzos actuales se centran principalmente en tareas atómicas simples. Exploramos si los LLM pueden replicar pipelines de crowdsourcing más complejos. Descubrimos que los LLM modernos pueden simular algunas de las habilidades de los trabajadores de la multitud en estos "algoritmos de computación humana", pero el nivel de éxito es variable y está influenciado por la comprensión que tienen los solicitantes de las capacidades de los LLM, las habilidades específicas requeridas para las subtareas y la modalidad de interacción óptima para realizar estas subtareas. Reflexionamos sobre las diferentes sensibilidades de los humanos y los LLM ante las instrucciones, enfatizamos la importancia de habilitar salvaguardas orientadas a humanos para los LLM y discutimos el potencial de entrenar a humanos y LLM con conjuntos de habilidades complementarios. De manera crucial, demostramos que replicar pipelines de crowdsourcing ofrece una plataforma valiosa para investigar (1) las fortalezas relativas de los LLM en diferentes tareas (al comparar su rendimiento en subtareas) y (2) el potencial de los LLM en tareas complejas, donde pueden completar parte de las tareas mientras dejan otras a los humanos.
El renderizado realista centrado en humanos desempeña un papel clave tanto en visión por computadora como en gráficos por computadora. En los últimos años se ha logrado un rápido progreso en el aspecto algorítmico, sin embargo, los conjuntos de datos y puntos de referencia existentes para renderizado centrado en humanos son bastante limitados en términos de diversidad, lo cual es crucial para el efecto de renderizado. Los investigadores suelen verse restringidos a explorar y evaluar un pequeño conjunto de problemas de renderizado en los conjuntos de datos actuales, mientras que las aplicaciones del mundo real requieren que los métodos sean robustos en diferentes escenarios. En este trabajo, presentamos DNA-Rendering, un repositorio a gran escala y de alta fidelidad de datos de desempeño humano para el renderizado de actores neuronales. DNA-Rendering presenta varios atributos atractivos. En primer lugar, nuestro conjunto de datos contiene más de 1500 sujetos humanos, 5000 secuencias de movimiento y un volumen de datos de 67.5 millones de fotogramas. En segundo lugar, proporcionamos recursos ricos para cada sujeto: puntos clave 2D/3D del cuerpo humano, máscaras de primer plano, modelos SMPLX, materiales de ropa/accesorios, imágenes multi-vista y videos. Estos recursos mejoran la precisión de los métodos actuales en tareas de renderizado posteriores. En tercer lugar, construimos un sistema profesional multi-vista para capturar datos, que incluye 60 cámaras sincronizadas con una resolución máxima de 4096 x 3000, una velocidad de 15 fps y rigurosos pasos de calibración de cámara, asegurando recursos de alta calidad para el entrenamiento y evaluación de tareas. Junto con el conjunto de datos, proporcionamos un punto de referencia cuantitativo a gran escala, con múltiples tareas para evaluar el progreso actual de los métodos de síntesis de nuevas vistas, síntesis de animación de nuevas poses y renderizado de nuevas identidades. En este manuscrito, describimos nuestro esfuerzo en DNA-Rendering como una revelación de nuevas observaciones, desafíos y direcciones futuras para el renderizado centrado en humanos. El conjunto de datos, el código y los puntos de referencia estarán disponibles públicamente en https://dna-rendering.github.io/.
Los optimizadores basados en gradientes adaptativos, particularmente Adam, han dejado su huella en el entrenamiento de modelos de aprendizaje profundo a gran escala. La fortaleza de estos optimizadores radica en que exhiben una convergencia rápida mientras son más robustos a la elección de hiperparámetros. Sin embargo, a menudo generalizan peor que los métodos no adaptativos. Estudios recientes han vinculado esta brecha de rendimiento con la selección de mínimos planos: los métodos adaptativos tienden a encontrar soluciones en cuencas más pronunciadas del paisaje de pérdida, lo que a su vez perjudica la generalización. Para superar este problema, proponemos una nueva versión de Adam aumentada con memoria que promueve la exploración hacia mínimos más planos mediante el uso de un búfer de términos de momento críticos durante el entrenamiento. Intuitivamente, el uso del búfer hace que el optimizador sobrepase la cuenca de atracción si esta no es lo suficientemente amplia. Demostramos empíricamente que nuestro método mejora el rendimiento de varias variantes de Adam en tareas estándar de modelado de lenguaje supervisado y clasificación de imágenes.