ChatPaper.aiChatPaper

ScheMatiQ : Du Questionnement de Recherche aux Données Structurées via la Découverte Interactive de Schémas

ScheMatiQ: From Research Question to Structured Data through Interactive Schema Discovery

April 10, 2026
Auteurs: Shahar Levy, Eliya Habba, Reshef Mintz, Barak Raveh, Renana Keydar, Gabriel Stanovsky
cs.AI

Résumé

De nombreuses disciplines formulent des questions de recherche en langage naturel sur de vastes collections de documents, dont les réponses nécessitent généralement des preuves structurées, traditionnellement obtenues en concevant manuellement un schéma d'annotation et en annotant exhaustivement le corpus – un processus lent et sujet aux erreurs. Nous présentons ScheMatiQ, qui exploite les appels à un LLM de base pour prendre une question et un corpus afin de produire un schéma et une base de données étayée, avec une interface web permettant de guider et de réviser l'extraction. En collaboration avec des experts du domaine, nous montrons que ScheMatiQ génère des résultats qui soutiennent des analyses concrètes dans les domaines du droit et de la biologie computationnelle. Nous publions ScheMatiQ en open source avec une interface web publique, et invitons les experts de toutes disciplines à l'utiliser avec leurs propres données. Toutes les ressources, y compris le site web, le code source et la vidéo de démonstration, sont disponibles à l'adresse : www.ScheMatiQ-ai.com.
English
Many disciplines pose natural-language research questions over large document collections whose answers typically require structured evidence, traditionally obtained by manually designing an annotation schema and exhaustively labeling the corpus, a slow and error-prone process. We introduce ScheMatiQ, which leverages calls to a backbone LLM to take a question and a corpus to produce a schema and a grounded database, with a web interface that lets steer and revise the extraction. In collaboration with domain experts, we show that ScheMatiQ yields outputs that support real-world analysis in law and computational biology. We release ScheMatiQ as open source with a public web interface, and invite experts across disciplines to use it with their own data. All resources, including the website, source code, and demonstration video, are available at: www.ScheMatiQ-ai.com
PDF53April 14, 2026