試行錯誤による知能の評価
Evaluating Intelligence via Trial and Error
February 26, 2025
著者: Jingtao Zhan, Jiahao Zhao, Jiayu Li, Yiqun Liu, Bo Zhang, Qingyao Ai, Jiaxin Mao, Hongning Wang, Min Zhang, Shaoping Ma
cs.AI
要旨
知性とは、限られた試行錯誤の回数の中で解決策を見つけるための生物にとって重要な特性である。この考えに基づき、我々は試行錯誤プロセスにおける失敗回数に基づいて知性を評価するフレームワークとして「サバイバルゲーム」を提案する。失敗回数が少ないほど、より高い知性を示す。失敗回数の期待値と分散がともに有限である場合、それは新しい課題に対して一貫して解決策を見つける能力を示しており、我々はこれを「自律レベル」の知性と定義する。サバイバルゲームを用いて、既存のAIシステムを包括的に評価した結果、AIシステムは単純なタスクでは自律レベルを達成しているものの、視覚、検索、推薦、言語といったより複雑なタスクではまだ遠く及ばないことが明らかになった。現在のAI技術をスケールアップすることで改善が期待されるが、それには天文学的なコストがかかる。一般的なタスクにおける自律レベルを達成するためには10^{26}のパラメータが必要と予測されており、このような巨大なモデルをロードするにはH100 GPUが大量に必要で、その総価値はApple社の時価総額の10^{7}倍に相当する。ムーアの法則を考慮しても、この規模のパラメータをサポートするには70年かかる。この驚異的なコストは、人間のタスクの複雑さと現在のAI技術の不十分さを浮き彫りにしている。この現象をさらに調査するため、我々はサバイバルゲームとその実験結果について理論的な分析を行った。その結果、人間のタスクには臨界性の特性があることが示唆された。そのため、自律レベルを達成するには、タスクの根本的なメカニズムを深く理解する必要がある。しかし、現在のAIシステムはこれらのメカニズムを完全には理解しておらず、表面的な模倣に頼っているため、自律レベルに到達することが困難である。我々は、サバイバルゲームがAIの将来の発展を導くだけでなく、人間の知性に対する深い洞察を提供できると信じている。
English
Intelligence is a crucial trait for species to find solutions within a
limited number of trial-and-error attempts. Building on this idea, we introduce
Survival Game as a framework to evaluate intelligence based on the number of
failed attempts in a trial-and-error process. Fewer failures indicate higher
intelligence. When the expectation and variance of failure counts are both
finite, it signals the ability to consistently find solutions to new
challenges, which we define as the Autonomous Level of intelligence. Using
Survival Game, we comprehensively evaluate existing AI systems. Our results
show that while AI systems achieve the Autonomous Level in simple tasks, they
are still far from it in more complex tasks, such as vision, search,
recommendation, and language. While scaling current AI technologies might help,
this would come at an astronomical cost. Projections suggest that achieving the
Autonomous Level for general tasks would require 10^{26} parameters. To put
this into perspective, loading such a massive model requires so many H100 GPUs
that their total value is 10^{7} times that of Apple Inc.'s market value.
Even with Moore's Law, supporting such a parameter scale would take 70 years.
This staggering cost highlights the complexity of human tasks and the
inadequacies of current AI technologies. To further investigate this
phenomenon, we conduct a theoretical analysis of Survival Game and its
experimental results. Our findings suggest that human tasks possess a
criticality property. As a result, Autonomous Level requires a deep
understanding of the task's underlying mechanisms. Current AI systems, however,
do not fully grasp these mechanisms and instead rely on superficial mimicry,
making it difficult for them to reach an autonomous level. We believe Survival
Game can not only guide the future development of AI but also offer profound
insights into human intelligence.Summary
AI-Generated Summary