PARTAGE : Intelligence Artificielle en Sciences Sociales et Humaines pour la Recherche et l'Éducation

Résumé

Ce rapport technique intermédiaire présente la famille de modèles de base SHARE et l'interface utilisateur MIRROR. Les modèles SHARE constituent les premiers modèles de langage causal entièrement pré-entraînés par et pour les sciences sociales et humaines (SSH). Leur performance dans la modélisation des textes SSH est proche de celle des modèles généralistes (Phi-4) utilisant 100 fois plus de tokens, comme le démontre notre benchmark SSH Cloze personnalisé. L'interface utilisateur MIRROR est conçue pour examiner les entrées textuelles des disciplines SSH tout en préservant l'esprit critique. En prototypant une interface d'IA générative qui ne génère aucun texte, nous proposons une méthode pour exploiter les capacités des modèles SHARE sans compromettre l'intégrité des principes et normes des SSH.

English

This intermediate technical report introduces the SHARE family of base models and the MIRROR user interface. The SHARE models are the first causal language models fully pretrained by and for the social sciences and humanities (SSH). Their performance in modelling SSH texts is close to that of general purpose models (Phi-4) which use 100 times more tokens, as shown by our custom SSH Cloze benchmark. The MIRROR user interface is designed for reviewing text inputs from the SSH disciplines while preserving critical engagement. By prototyping a generative AI interface that does not generate any text, we propose a way to harness the capabilities of the SHARE models without compromising the integrity of SSH principles and norms.

PARTAGE : Intelligence Artificielle en Sciences Sociales et Humaines pour la Recherche et l'Éducation

SHARE: Social-Humanities AI for Research and Education

Résumé

Support