Intern-Atlas: Un Grafo dell'Evoluzione Metodologica come Infrastruttura di Ricerca per gli Scienziati dell'IA

Abstract

L'infrastruttura di ricerca esistente è fondamentalmente incentrata sui documenti, fornendo collegamenti citazionali tra i paper ma mancando di rappresentazioni esplicite dell'evoluzione metodologica. In particolare, non cattura le relazioni strutturate che spiegano come e perché i metodi di ricerca emergono, si adattano e si costruiscono l'uno sull'altro. Con l'ascesa degli agenti di ricerca guidati dall'IA come nuova classe di fruitori della conoscenza scientifica, questa limitazione diventa sempre più rilevante, poiché tali agenti non possono ricostruire in modo affidabile le topologie dell'evoluzione metodologica a partire da testo non strutturato. Introduciamo Intern-Atlas, un grafo dell'evoluzione metodologica che identifica automaticamente le entità a livello di metodo, inferisce le relazioni di lignaggio tra le metodologie e cattura i colli di bottiglia che guidano le transizioni tra innovazioni successive. Costruito a partire da 1.030.314 paper provenienti da conferenze di IA, riviste e preprint di arXiv, il grafo risultante comprende 9.410.201 archi con tipo semantico, ciascuno basato su evidenze testuali originali, formando una rete causale interrogabile dello sviluppo metodologico. Per rendere operativa questa struttura, proponiamo inoltre un algoritmo di ricerca ad albero temporale auto-guidato per costruire catene evolutive che tracciano la progressione dei metodi nel tempo. Valutiamo la qualità del grafo risultante confrontandolo con catene evolutive di verità fondamentale curate da esperti e osserviamo un forte allineamento. Inoltre, dimostriamo che Intern-Atlas abilita applicazioni downstream nella valutazione delle idee e nella generazione automatizzata di idee. Posizioniamo i grafi dell'evoluzione metodologica come uno strato di dati fondamentale per la nascente scoperta scientifica automatizzata.

English

Existing research infrastructure is fundamentally document-centric, providing citation links between papers but lacking explicit representations of methodological evolution. In particular, it does not capture the structured relationships that explain how and why research methods emerge, adapt, and build upon one another. With the rise of AI-driven research agents as a new class of consumers of scientific knowledge, this limitation becomes increasingly consequential, as such agents cannot reliably reconstruct method evolution topologies from unstructured text. We introduce Intern-Atlas, a methodological evolution graph that automatically identifies method-level entities, infers lineage relationships among methodologies, and captures the bottlenecks that drive transitions between successive innovations. Built from 1,030,314 papers spanning AI conferences, journals, and arXiv preprints, the resulting graph comprises 9,410,201 semantically typed edges, each grounded in verbatim source evidence, forming a queryable causal network of methodological development. To operationalize this structure, we further propose a self-guided temporal tree search algorithm for constructing evolution chains that trace the progression of methods over time. We evaluate the quality of the resulting graph against expert-curated ground-truth evolution chains and observe strong alignment. In addition, we demonstrate that Intern-Atlas enables downstream applications in idea evaluation and automated idea generation. We position methodological evolution graphs as a foundational data layer for the emerging automated scientific discovery.

Intern-Atlas: Un Grafo dell'Evoluzione Metodologica come Infrastruttura di Ricerca per gli Scienziati dell'IA

Intern-Atlas: A Methodological Evolution Graph as Research Infrastructure for AI Scientists

Abstract

Support