ChatPaper.aiChatPaper

圧縮は知能を線形に表現する

Compression Represents Intelligence Linearly

April 15, 2024
著者: Yuzhen Huang, Jinghan Zhang, Zifei Shan, Junxian He
cs.AI

要旨

優れた圧縮を学ぶことが知能につながるという考え方がある。最近、言語モデリングが圧縮と等価であることが示され、大規模言語モデル(LLM)の成功に説得力のある根拠を提供している。より高度な言語モデルの開発は、本質的に圧縮を向上させ、それが知能を促進するというものである。このような魅力的な議論がある一方で、圧縮と知能の相互作用に関する実証的な証拠はほとんど存在しない。本研究では、LLMをデータ圧縮器として扱い、その文脈における両者の関係を検証する。「知能」という抽象的な概念を扱うにあたり、知識や常識、コーディング、数学的推論に関連する知能を対象として、平均的な下流ベンチマークスコアを代理指標として採用する。12のベンチマークにわたって、多様な組織に由来する30の公開LLMを集めた研究において、LLMの知能(平均ベンチマークスコアで反映される)が外部テキストコーパスの圧縮能力とほぼ線形に相関していることが明らかになった。これらの結果は、優れた圧縮がより高い知能を示すという考えを支持する具体的な証拠を提供する。さらに、本研究の結果は、生のテキストコーパスから導出される教師なし指標としての圧縮効率が、モデルの能力と線形に関連する信頼性の高い評価尺度として機能することを示唆している。今後の研究者が適切に圧縮を評価できるよう、圧縮データセットとデータ収集パイプラインをオープンソースとして公開する。
English
There is a belief that learning to compress well will lead to intelligence. Recently, language modeling has been shown to be equivalent to compression, which offers a compelling rationale for the success of large language models (LLMs): the development of more advanced language models is essentially enhancing compression which facilitates intelligence. Despite such appealing discussions, little empirical evidence is present for the interplay between compression and intelligence. In this work, we examine their relationship in the context of LLMs, treating LLMs as data compressors. Given the abstract concept of "intelligence", we adopt the average downstream benchmark scores as a surrogate, specifically targeting intelligence related to knowledge and commonsense, coding, and mathematical reasoning. Across 12 benchmarks, our study brings together 30 public LLMs that originate from diverse organizations. Remarkably, we find that LLMs' intelligence -- reflected by average benchmark scores -- almost linearly correlates with their ability to compress external text corpora. These results provide concrete evidence supporting the belief that superior compression indicates greater intelligence. Furthermore, our findings suggest that compression efficiency, as an unsupervised metric derived from raw text corpora, serves as a reliable evaluation measure that is linearly associated with the model capabilities. We open-source our compression datasets as well as our data collection pipelines to facilitate future researchers to assess compression properly.

Summary

AI-Generated Summary

PDF281December 15, 2024