ChatPaper.aiChatPaper

La compresión representa la inteligencia de manera lineal

Compression Represents Intelligence Linearly

April 15, 2024
Autores: Yuzhen Huang, Jinghan Zhang, Zifei Shan, Junxian He
cs.AI

Resumen

Existe la creencia de que aprender a comprimir bien conducirá a la inteligencia. Recientemente, se ha demostrado que el modelado del lenguaje es equivalente a la compresión, lo que ofrece un argumento convincente para el éxito de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés): el desarrollo de modelos de lenguaje más avanzados esencialmente mejora la compresión, lo que facilita la inteligencia. A pesar de estas discusiones atractivas, hay poca evidencia empírica sobre la interacción entre la compresión y la inteligencia. En este trabajo, examinamos su relación en el contexto de los LLMs, tratando a estos como compresores de datos. Dado el concepto abstracto de "inteligencia", adoptamos las puntuaciones promedio en benchmarks de tareas posteriores como un sustituto, enfocándonos específicamente en la inteligencia relacionada con el conocimiento y el sentido común, la codificación y el razonamiento matemático. A lo largo de 12 benchmarks, nuestro estudio reúne 30 LLMs públicos que provienen de diversas organizaciones. Notablemente, encontramos que la inteligencia de los LLMs — reflejada por las puntuaciones promedio en los benchmarks — se correlaciona casi linealmente con su capacidad para comprimir corpus de texto externos. Estos resultados proporcionan evidencia concreta que respalda la creencia de que una compresión superior indica una mayor inteligencia. Además, nuestros hallazgos sugieren que la eficiencia de compresión, como una métrica no supervisada derivada de corpus de texto en bruto, sirve como una medida de evaluación confiable que está linealmente asociada con las capacidades del modelo. Hemos hecho públicos nuestros conjuntos de datos de compresión, así como nuestras canalizaciones de recopilación de datos, para facilitar que futuros investigadores evalúen la compresión de manera adecuada.
English
There is a belief that learning to compress well will lead to intelligence. Recently, language modeling has been shown to be equivalent to compression, which offers a compelling rationale for the success of large language models (LLMs): the development of more advanced language models is essentially enhancing compression which facilitates intelligence. Despite such appealing discussions, little empirical evidence is present for the interplay between compression and intelligence. In this work, we examine their relationship in the context of LLMs, treating LLMs as data compressors. Given the abstract concept of "intelligence", we adopt the average downstream benchmark scores as a surrogate, specifically targeting intelligence related to knowledge and commonsense, coding, and mathematical reasoning. Across 12 benchmarks, our study brings together 30 public LLMs that originate from diverse organizations. Remarkably, we find that LLMs' intelligence -- reflected by average benchmark scores -- almost linearly correlates with their ability to compress external text corpora. These results provide concrete evidence supporting the belief that superior compression indicates greater intelligence. Furthermore, our findings suggest that compression efficiency, as an unsupervised metric derived from raw text corpora, serves as a reliable evaluation measure that is linearly associated with the model capabilities. We open-source our compression datasets as well as our data collection pipelines to facilitate future researchers to assess compression properly.

Summary

AI-Generated Summary

PDF281December 15, 2024