ScheMatiQ: Van Onderzoeksvraag naar Gestructureerde Data via Interactieve Schema-ontdekking
ScheMatiQ: From Research Question to Structured Data through Interactive Schema Discovery
April 10, 2026
Auteurs: Shahar Levy, Eliya Habba, Reshef Mintz, Barak Raveh, Renana Keydar, Gabriel Stanovsky
cs.AI
Samenvatting
Veel vakgebieden stellen onderzoeksvragen in natuurlijke taal over grote documentverzamelingen, waarvan de antwoorden doorgaans gestructureerd bewijs vereisen. Traditioneel wordt dit verkregen door handmatig een annotatieschema te ontwerpen en de corpus exhaustief te labelen, een traag en foutgevoelig proces. Wij introduceren ScheMatiQ, dat gebruikmaakt van een backbone LLM om op basis van een vraag en een corpus een schema en een gefundeerde database te produceren, met een webinterface die het mogelijk maakt de extractie te sturen en te reviseren. In samenwerking met domeinexperts tonen we aan dat ScheMatiQ resultaten oplevert die real-world analyse ondersteunen in de rechten en de computationele biologie. Wij brengen ScheMatiQ uit als open source met een openbare webinterface en nodigen experts uit alle disciplines uit om het met hun eigen data te gebruiken. Alle bronnen, inclusief de website, broncode en demonstratievideo, zijn beschikbaar op: www.ScheMatiQ-ai.com.
English
Many disciplines pose natural-language research questions over large document collections whose answers typically require structured evidence, traditionally obtained by manually designing an annotation schema and exhaustively labeling the corpus, a slow and error-prone process. We introduce ScheMatiQ, which leverages calls to a backbone LLM to take a question and a corpus to produce a schema and a grounded database, with a web interface that lets steer and revise the extraction. In collaboration with domain experts, we show that ScheMatiQ yields outputs that support real-world analysis in law and computational biology. We release ScheMatiQ as open source with a public web interface, and invite experts across disciplines to use it with their own data. All resources, including the website, source code, and demonstration video, are available at: www.ScheMatiQ-ai.com