Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

Llama 2: Fundamento Abierto y Modelos de Chat Ajustados Finamente
Llama 2: Open Foundation and Fine-Tuned Chat Models

Jul 18, 2023

Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, Thomas Scialom

24220

En este trabajo, desarrollamos y publicamos Llama 2, una colección de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) preentrenados y ajustados, que abarcan desde 7 mil millones hasta 70 mil millones de parámetros. Nuestros LLMs ajustados, denominados Llama 2-Chat, están optimizados para casos de uso en diálogos. Nuestros modelos superan a los modelos de chat de código abierto en la mayoría de los puntos de referencia que evaluamos, y según nuestras evaluaciones humanas de utilidad y seguridad, podrían ser un sustituto adecuado para los modelos de código cerrado. Ofrecemos una descripción detallada de nuestro enfoque para el ajuste fino y las mejoras de seguridad de Llama 2-Chat, con el fin de permitir que la comunidad construya sobre nuestro trabajo y contribuya al desarrollo responsable de los LLMs.

¿Cómo está cambiando el comportamiento de ChatGPT con el tiempo?
How is ChatGPT's behavior changing over time?

Jul 18, 2023

Lingjiao Chen, Matei Zaharia, James Zou

246

GPT-3.5 y GPT-4 son los dos servicios de modelos de lenguaje grande (LLM, por sus siglas en inglés) más utilizados. Sin embargo, cuándo y cómo se actualizan estos modelos a lo largo del tiempo es opaco. En este estudio, evaluamos las versiones de marzo de 2023 y junio de 2023 de GPT-3.5 y GPT-4 en cuatro tareas diversas: 1) resolver problemas matemáticos, 2) responder preguntas sensibles/peligrosas, 3) generar código y 4) razonamiento visual. Descubrimos que el rendimiento y el comportamiento de ambos modelos, GPT-3.5 y GPT-4, pueden variar significativamente con el tiempo. Por ejemplo, GPT-4 (marzo de 2023) era muy bueno identificando números primos (precisión del 97,6%), pero GPT-4 (junio de 2023) tuvo un desempeño muy pobre en las mismas preguntas (precisión del 2,4%). Curiosamente, GPT-3.5 (junio de 2023) fue mucho mejor que GPT-3.5 (marzo de 2023) en esta tarea. GPT-4 estuvo menos dispuesto a responder preguntas sensibles en junio que en marzo, y tanto GPT-4 como GPT-3.5 cometieron más errores de formato en la generación de código en junio que en marzo. En general, nuestros hallazgos muestran que el comportamiento del mismo servicio de LLM puede cambiar sustancialmente en un período de tiempo relativamente corto, lo que resalta la necesidad de un monitoreo continuo de la calidad de los LLM.

¿Escala la interpretabilidad del análisis de circuitos? Evidencia de capacidades de opción múltiple en Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Jul 18, 2023

Tom Lieberum, Matthew Rahtz, János Kramár, Geoffrey Irving, Rohin Shah, Vladimir Mikulik

110

El análisis de circuitos es una técnica prometedora para comprender los mecanismos internos de los modelos de lenguaje. Sin embargo, los análisis existentes se realizan en modelos pequeños, lejos del estado del arte. Para abordar esto, presentamos un estudio de caso de análisis de circuitos en el modelo Chinchilla de 70B, con el objetivo de probar la escalabilidad del análisis de circuitos. En particular, estudiamos la respuesta a preguntas de opción múltiple e investigamos la capacidad de Chinchilla para identificar la etiqueta de la respuesta correcta dado el conocimiento del texto de la respuesta correcta. Encontramos que las técnicas existentes de atribución de logits, visualización de patrones de atención y parcheo de activaciones escalan naturalmente a Chinchilla, lo que nos permite identificar y categorizar un pequeño conjunto de "nodos de salida" (cabezas de atención y MLPs). Además, estudiamos la categoría de cabezas de atención de "letra correcta" con el objetivo de comprender la semántica de sus características, con resultados mixtos. Para respuestas normales de preguntas de opción múltiple, comprimimos significativamente los subespacios de consulta, clave y valor de la cabeza sin pérdida de rendimiento al operar en las etiquetas de respuesta de preguntas de opción múltiple, y demostramos que los subespacios de consulta y clave representan, al menos en cierta medida, una característica de "N-ésimo elemento en una enumeración". Sin embargo, cuando intentamos usar esta explicación para comprender el comportamiento de las cabezas en una distribución más general que incluye etiquetas de respuesta aleatorizadas, encontramos que es solo una explicación parcial, lo que sugiere que hay más por aprender sobre el funcionamiento de las cabezas de "letra correcta" en la respuesta a preguntas de opción múltiple.

Aumentando CLIP con un Razonamiento Visio-Lingüístico Mejorado
Augmenting CLIP with Improved Visio-Linguistic Reasoning

Jul 18, 2023

Samyadeep Basu, Maziar Sanjabi, Daniela Massiceti, Shell Xu Hu, Soheil Feizi

Los modelos de contraste imagen-texto como CLIP son útiles para una variedad de aplicaciones posteriores, incluyendo clasificación zero-shot, recuperación de imágenes-texto y transferencia de aprendizaje. Sin embargo, estos modelos de visión-lenguaje entrenados de manera contrastiva a menudo fallan en tareas composicionales visio-lingüísticas como Winoground, con un rendimiento equivalente al azar. En nuestro artículo, abordamos este problema y proponemos un método ligero y eficiente en muestras llamado SDS-CLIP para mejorar las capacidades de razonamiento visio-lingüístico composicional de CLIP. La idea central de nuestro método es utilizar parametrizaciones de imágenes diferenciables para ajustar CLIP con un objetivo de destilación a partir de modelos generativos grandes de texto a imagen como Stable-Diffusion, que son relativamente buenos en tareas de razonamiento visio-lingüístico. En el desafiante benchmark de razonamiento composicional Winoground, nuestro método mejora el rendimiento visio-lingüístico absoluto de diferentes modelos CLIP hasta en un 7%, mientras que en el conjunto de datos ARO, nuestro método mejora el rendimiento visio-lingüístico hasta en un 3%. Como subproducto de inducir razonamiento visio-lingüístico en CLIP, también encontramos que el rendimiento zero-shot mejora marginalmente en una variedad de conjuntos de datos posteriores. Nuestro método refuerza que los objetivos de destilación cuidadosamente diseñados a partir de modelos generativos pueden aprovecharse para extender los modelos de contraste imagen-texto existentes con capacidades mejoradas de razonamiento visio-lingüístico.

NU-MCC: Codificación Compresiva Multivista con Decodificador de Vecindad y UDF Repulsivo
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF

Jul 18, 2023

Stefan Lionar, Xiangyu Xu, Min Lin, Gim Hee Lee

Se han logrado avances notables en la reconstrucción 3D a partir de entradas RGB-D de una sola vista. MCC es el método más avanzado actualmente en este campo, que alcanza un éxito sin precedentes al combinar Transformers de visión con entrenamiento a gran escala. Sin embargo, identificamos dos limitaciones clave de MCC: 1) El decodificador Transformer es ineficiente para manejar un gran número de puntos de consulta; 2) La representación 3D tiene dificultades para recuperar detalles de alta fidelidad. En este artículo, proponemos un nuevo enfoque llamado NU-MCC que aborda estas limitaciones. NU-MCC incluye dos innovaciones clave: un decodificador de Vecindario y una Función de Distancia Sin Signo Repulsiva (Repulsive UDF). Primero, nuestro decodificador de Vecindario introduce puntos centrales como un proxy eficiente de las características visuales de entrada, permitiendo que cada punto de consulta solo atienda a un pequeño vecindario. Este diseño no solo resulta en una velocidad de inferencia mucho más rápida, sino que también permite la explotación de características visuales a escala más fina para una mejor recuperación de texturas 3D. Segundo, nuestra Repulsive UDF es una alternativa novedosa al campo de ocupación utilizado en MCC, mejorando significativamente la calidad de la reconstrucción de objetos 3D. En comparación con las UDF estándar que sufren de agujeros en los resultados, nuestra Repulsive UDF propuesta puede lograr una reconstrucción de superficie más completa. Los resultados experimentales demuestran que NU-MCC es capaz de aprender una representación 3D sólida, avanzando significativamente el estado del arte en la reconstrucción 3D de una sola vista. En particular, supera a MCC en un 9.7% en términos de puntuación F1 en el conjunto de datos CO3D-v2 con una velocidad de ejecución más de 5 veces más rápida.

Biomaker CA: un proyecto de creación de biomas utilizando Autómatas Celulares
Biomaker CA: a Biome Maker project using Cellular Automata

Jul 18, 2023

Ettore Randazzo, Alexander Mordvintsev

Presentamos Biomaker CA: un proyecto de creación de biomas utilizando Autómatas Celulares (CA). En Biomaker CA, la morfogénesis es un elemento fundamental, donde pequeñas semillas deben desarrollarse en organismos similares a plantas para sobrevivir en un entorno con escasez de nutrientes y, eventualmente, reproducirse con variación, permitiendo que un bioma perdure durante largos períodos de tiempo. Simulamos biomas complejos mediante reglas de CA en cuadrículas 2D y paralelizamos todos los cálculos en GPU utilizando el framework Python JAX. Mostramos cómo este proyecto permite la creación de diversos tipos de entornos y leyes de 'física', junto con diferentes arquitecturas de modelos y estrategias de mutación. Además, analizamos algunas configuraciones para demostrar cómo los agentes vegetales pueden crecer, sobrevivir, reproducirse y evolucionar, formando biomas estables e inestables. Luego, demostramos cómo se puede meta-evolucionar modelos para sobrevivir en un entorno hostil, ya sea mediante meta-evolución de extremo a extremo o mediante un enfoque más quirúrgico y eficiente, denominado meta-evolución en placa de Petri. Finalmente, mostramos cómo realizar evolución interactiva, donde el usuario decide cómo evolucionar un modelo de planta de manera interactiva y luego lo despliega en un entorno más amplio. Hemos liberado el código fuente de Biomaker CA en: https://tinyurl.com/2x8yu34s.

¿Escala la interpretabilidad del análisis de circuitos? Evidencia de capacidades de opción múltiple en Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Jul 18, 2023

Tom Lieberum, Matthew Rahtz, János Kramár, Geoffrey Irving, Rohin Shah, Vladimir Mikulik

110

Papers Diarios

Llama 2: Fundamento Abierto y Modelos de Chat Ajustados Finamente
Llama 2: Open Foundation and Fine-Tuned Chat Models

¿Cómo está cambiando el comportamiento de ChatGPT con el tiempo?
How is ChatGPT's behavior changing over time?

¿Escala la interpretabilidad del análisis de circuitos? Evidencia de capacidades de opción múltiple en Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Aumentando CLIP con un Razonamiento Visio-Lingüístico Mejorado
Augmenting CLIP with Improved Visio-Linguistic Reasoning

NU-MCC: Codificación Compresiva Multivista con Decodificador de Vecindad y UDF Repulsivo
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF

Biomaker CA: un proyecto de creación de biomas utilizando Autómatas Celulares
Biomaker CA: a Biome Maker project using Cellular Automata

Support

Support

Papers Diarios

Llama 2: Fundamento Abierto y Modelos de Chat Ajustados Finamente
Llama 2: Open Foundation and Fine-Tuned Chat Models

¿Cómo está cambiando el comportamiento de ChatGPT con el tiempo?
How is ChatGPT's behavior changing over time?

¿Escala la interpretabilidad del análisis de circuitos? Evidencia de capacidades de opción múltiple en Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Aumentando CLIP con un Razonamiento Visio-Lingüístico Mejorado
Augmenting CLIP with Improved Visio-Linguistic Reasoning

NU-MCC: Codificación Compresiva Multivista con Decodificador de Vecindad y UDF Repulsivo
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF

Biomaker CA: un proyecto de creación de biomas utilizando Autómatas Celulares
Biomaker CA: a Biome Maker project using Cellular Automata