Intelligentie evalueren via trial and error

Samenvatting

Intelligentie is een cruciaal kenmerk voor soorten om oplossingen te vinden binnen een beperkt aantal trial-and-error pogingen. Op basis van dit idee introduceren we Survival Game als een raamwerk om intelligentie te evalueren op basis van het aantal mislukte pogingen in een trial-and-error proces. Minder mislukkingen duiden op een hogere intelligentie. Wanneer zowel de verwachting als de variantie van het aantal mislukkingen eindig zijn, geeft dit het vermogen aan om consistent oplossingen te vinden voor nieuwe uitdagingen, wat wij definiëren als het Autonome Niveau van intelligentie. Met behulp van Survival Game evalueren we bestaande AI-systemen uitgebreid. Onze resultaten laten zien dat hoewel AI-systemen het Autonome Niveau bereiken in eenvoudige taken, ze hier nog ver van verwijderd zijn in complexere taken, zoals visie, zoeken, aanbevelingen en taal. Hoewel het opschalen van huidige AI-technologieën zou kunnen helpen, zou dit tegen astronomische kosten gaan. Projecties suggereren dat het bereiken van het Autonome Niveau voor algemene taken 10^{26} parameters zou vereisen. Om dit in perspectief te plaatsen: het laden van zo'n enorm model vereist zoveel H100 GPU's dat hun totale waarde 10^{7} keer de marktwaarde van Apple Inc. is. Zelfs met de Wet van Moore zou het ondersteunen van zo'n parameterschaal 70 jaar duren. Deze verbijsterende kosten benadrukken de complexiteit van menselijke taken en de tekortkomingen van huidige AI-technologieën. Om dit fenomeen verder te onderzoeken, voeren we een theoretische analyse uit van Survival Game en de experimentele resultaten. Onze bevindingen suggereren dat menselijke taken een kritieke eigenschap bezitten. Als gevolg hiervan vereist het Autonome Niveau een diep begrip van de onderliggende mechanismen van de taak. Huidige AI-systemen begrijpen deze mechanismen echter niet volledig en vertrouwen in plaats daarvan op oppervlakkige nabootsing, waardoor het moeilijk voor hen is om een autonoom niveau te bereiken. Wij geloven dat Survival Game niet alleen de toekomstige ontwikkeling van AI kan sturen, maar ook diepgaande inzichten kan bieden in menselijke intelligentie.

English

Intelligence is a crucial trait for species to find solutions within a limited number of trial-and-error attempts. Building on this idea, we introduce Survival Game as a framework to evaluate intelligence based on the number of failed attempts in a trial-and-error process. Fewer failures indicate higher intelligence. When the expectation and variance of failure counts are both finite, it signals the ability to consistently find solutions to new challenges, which we define as the Autonomous Level of intelligence. Using Survival Game, we comprehensively evaluate existing AI systems. Our results show that while AI systems achieve the Autonomous Level in simple tasks, they are still far from it in more complex tasks, such as vision, search, recommendation, and language. While scaling current AI technologies might help, this would come at an astronomical cost. Projections suggest that achieving the Autonomous Level for general tasks would require 10^{26} parameters. To put this into perspective, loading such a massive model requires so many H100 GPUs that their total value is 10^{7} times that of Apple Inc.'s market value. Even with Moore's Law, supporting such a parameter scale would take 70 years. This staggering cost highlights the complexity of human tasks and the inadequacies of current AI technologies. To further investigate this phenomenon, we conduct a theoretical analysis of Survival Game and its experimental results. Our findings suggest that human tasks possess a criticality property. As a result, Autonomous Level requires a deep understanding of the task's underlying mechanisms. Current AI systems, however, do not fully grasp these mechanisms and instead rely on superficial mimicry, making it difficult for them to reach an autonomous level. We believe Survival Game can not only guide the future development of AI but also offer profound insights into human intelligence.

Intelligentie evalueren via trial and error

Evaluating Intelligence via Trial and Error

Samenvatting

Support