Artículos de investigación en IA seleccionados diariamente con traducciones
En este trabajo, desarrollamos y publicamos Llama 2, una colección de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) preentrenados y ajustados, que abarcan desde 7 mil millones hasta 70 mil millones de parámetros. Nuestros LLMs ajustados, denominados Llama 2-Chat, están optimizados para casos de uso en diálogos. Nuestros modelos superan a los modelos de chat de código abierto en la mayoría de los puntos de referencia que evaluamos, y según nuestras evaluaciones humanas de utilidad y seguridad, podrían ser un sustituto adecuado para los modelos de código cerrado. Ofrecemos una descripción detallada de nuestro enfoque para el ajuste fino y las mejoras de seguridad de Llama 2-Chat, con el fin de permitir que la comunidad construya sobre nuestro trabajo y contribuya al desarrollo responsable de los LLMs.
GPT-3.5 y GPT-4 son los dos servicios de modelos de lenguaje grande (LLM, por sus siglas en inglés) más utilizados. Sin embargo, cuándo y cómo se actualizan estos modelos a lo largo del tiempo es opaco. En este estudio, evaluamos las versiones de marzo de 2023 y junio de 2023 de GPT-3.5 y GPT-4 en cuatro tareas diversas: 1) resolver problemas matemáticos, 2) responder preguntas sensibles/peligrosas, 3) generar código y 4) razonamiento visual. Descubrimos que el rendimiento y el comportamiento de ambos modelos, GPT-3.5 y GPT-4, pueden variar significativamente con el tiempo. Por ejemplo, GPT-4 (marzo de 2023) era muy bueno identificando números primos (precisión del 97,6%), pero GPT-4 (junio de 2023) tuvo un desempeño muy pobre en las mismas preguntas (precisión del 2,4%). Curiosamente, GPT-3.5 (junio de 2023) fue mucho mejor que GPT-3.5 (marzo de 2023) en esta tarea. GPT-4 estuvo menos dispuesto a responder preguntas sensibles en junio que en marzo, y tanto GPT-4 como GPT-3.5 cometieron más errores de formato en la generación de código en junio que en marzo. En general, nuestros hallazgos muestran que el comportamiento del mismo servicio de LLM puede cambiar sustancialmente en un período de tiempo relativamente corto, lo que resalta la necesidad de un monitoreo continuo de la calidad de los LLM.
El análisis de circuitos es una técnica prometedora para comprender los mecanismos internos de los modelos de lenguaje. Sin embargo, los análisis existentes se realizan en modelos pequeños, lejos del estado del arte. Para abordar esto, presentamos un estudio de caso de análisis de circuitos en el modelo Chinchilla de 70B, con el objetivo de probar la escalabilidad del análisis de circuitos. En particular, estudiamos la respuesta a preguntas de opción múltiple e investigamos la capacidad de Chinchilla para identificar la etiqueta de la respuesta correcta dado el conocimiento del texto de la respuesta correcta. Encontramos que las técnicas existentes de atribución de logits, visualización de patrones de atención y parcheo de activaciones escalan naturalmente a Chinchilla, lo que nos permite identificar y categorizar un pequeño conjunto de "nodos de salida" (cabezas de atención y MLPs). Además, estudiamos la categoría de cabezas de atención de "letra correcta" con el objetivo de comprender la semántica de sus características, con resultados mixtos. Para respuestas normales de preguntas de opción múltiple, comprimimos significativamente los subespacios de consulta, clave y valor de la cabeza sin pérdida de rendimiento al operar en las etiquetas de respuesta de preguntas de opción múltiple, y demostramos que los subespacios de consulta y clave representan, al menos en cierta medida, una característica de "N-ésimo elemento en una enumeración". Sin embargo, cuando intentamos usar esta explicación para comprender el comportamiento de las cabezas en una distribución más general que incluye etiquetas de respuesta aleatorizadas, encontramos que es solo una explicación parcial, lo que sugiere que hay más por aprender sobre el funcionamiento de las cabezas de "letra correcta" en la respuesta a preguntas de opción múltiple.
Los modelos de contraste imagen-texto como CLIP son útiles para una variedad de aplicaciones posteriores, incluyendo clasificación zero-shot, recuperación de imágenes-texto y transferencia de aprendizaje. Sin embargo, estos modelos de visión-lenguaje entrenados de manera contrastiva a menudo fallan en tareas composicionales visio-lingüísticas como Winoground, con un rendimiento equivalente al azar. En nuestro artículo, abordamos este problema y proponemos un método ligero y eficiente en muestras llamado SDS-CLIP para mejorar las capacidades de razonamiento visio-lingüístico composicional de CLIP. La idea central de nuestro método es utilizar parametrizaciones de imágenes diferenciables para ajustar CLIP con un objetivo de destilación a partir de modelos generativos grandes de texto a imagen como Stable-Diffusion, que son relativamente buenos en tareas de razonamiento visio-lingüístico. En el desafiante benchmark de razonamiento composicional Winoground, nuestro método mejora el rendimiento visio-lingüístico absoluto de diferentes modelos CLIP hasta en un 7%, mientras que en el conjunto de datos ARO, nuestro método mejora el rendimiento visio-lingüístico hasta en un 3%. Como subproducto de inducir razonamiento visio-lingüístico en CLIP, también encontramos que el rendimiento zero-shot mejora marginalmente en una variedad de conjuntos de datos posteriores. Nuestro método refuerza que los objetivos de destilación cuidadosamente diseñados a partir de modelos generativos pueden aprovecharse para extender los modelos de contraste imagen-texto existentes con capacidades mejoradas de razonamiento visio-lingüístico.
Se han logrado avances notables en la reconstrucción 3D a partir de entradas RGB-D de una sola vista. MCC es el método más avanzado actualmente en este campo, que alcanza un éxito sin precedentes al combinar Transformers de visión con entrenamiento a gran escala. Sin embargo, identificamos dos limitaciones clave de MCC: 1) El decodificador Transformer es ineficiente para manejar un gran número de puntos de consulta; 2) La representación 3D tiene dificultades para recuperar detalles de alta fidelidad. En este artículo, proponemos un nuevo enfoque llamado NU-MCC que aborda estas limitaciones. NU-MCC incluye dos innovaciones clave: un decodificador de Vecindario y una Función de Distancia Sin Signo Repulsiva (Repulsive UDF). Primero, nuestro decodificador de Vecindario introduce puntos centrales como un proxy eficiente de las características visuales de entrada, permitiendo que cada punto de consulta solo atienda a un pequeño vecindario. Este diseño no solo resulta en una velocidad de inferencia mucho más rápida, sino que también permite la explotación de características visuales a escala más fina para una mejor recuperación de texturas 3D. Segundo, nuestra Repulsive UDF es una alternativa novedosa al campo de ocupación utilizado en MCC, mejorando significativamente la calidad de la reconstrucción de objetos 3D. En comparación con las UDF estándar que sufren de agujeros en los resultados, nuestra Repulsive UDF propuesta puede lograr una reconstrucción de superficie más completa. Los resultados experimentales demuestran que NU-MCC es capaz de aprender una representación 3D sólida, avanzando significativamente el estado del arte en la reconstrucción 3D de una sola vista. En particular, supera a MCC en un 9.7% en términos de puntuación F1 en el conjunto de datos CO3D-v2 con una velocidad de ejecución más de 5 veces más rápida.
Presentamos Biomaker CA: un proyecto de creación de biomas utilizando Autómatas Celulares (CA). En Biomaker CA, la morfogénesis es un elemento fundamental, donde pequeñas semillas deben desarrollarse en organismos similares a plantas para sobrevivir en un entorno con escasez de nutrientes y, eventualmente, reproducirse con variación, permitiendo que un bioma perdure durante largos períodos de tiempo. Simulamos biomas complejos mediante reglas de CA en cuadrículas 2D y paralelizamos todos los cálculos en GPU utilizando el framework Python JAX. Mostramos cómo este proyecto permite la creación de diversos tipos de entornos y leyes de 'física', junto con diferentes arquitecturas de modelos y estrategias de mutación. Además, analizamos algunas configuraciones para demostrar cómo los agentes vegetales pueden crecer, sobrevivir, reproducirse y evolucionar, formando biomas estables e inestables. Luego, demostramos cómo se puede meta-evolucionar modelos para sobrevivir en un entorno hostil, ya sea mediante meta-evolución de extremo a extremo o mediante un enfoque más quirúrgico y eficiente, denominado meta-evolución en placa de Petri. Finalmente, mostramos cómo realizar evolución interactiva, donde el usuario decide cómo evolucionar un modelo de planta de manera interactiva y luego lo despliega en un entorno más amplio. Hemos liberado el código fuente de Biomaker CA en: https://tinyurl.com/2x8yu34s.