ScheMatiQ: От исследовательского вопроса к структурированным данным через интерактивное обнаружение схемы
ScheMatiQ: From Research Question to Structured Data through Interactive Schema Discovery
April 10, 2026
Авторы: Shahar Levy, Eliya Habba, Reshef Mintz, Barak Raveh, Renana Keydar, Gabriel Stanovsky
cs.AI
Аннотация
Многие дисциплины ставят исследовательские задачи на естественном языке, требующие анализа больших коллекций документов, ответы на которые обычно нуждаются в структурированных доказательствах. Традиционно такие доказательства получают путем ручного проектирования схемы аннотирования и исчерпывающей разметки корпуса — процесса медленного и подверженного ошибкам. Мы представляем ScheMatiQ — систему, которая использует вызовы базовой большой языковой модели (LLM) для обработки вопроса и корпуса с целью создания схемы и обоснованной базы данных, а также веб-интерфейс, позволяющий направлять и корректировать извлечение. В сотрудничестве с экспертами в предметных областях мы показываем, что ScheMatiQ дает результаты, поддерживающие реальный анализ в юриспруденции и вычислительной биологии. Мы выпускаем ScheMatiQ в качестве открытого исходного кода с публичным веб-интерфейсом и приглашаем экспертов из разных дисциплин использовать его со своими данными. Все ресурсы, включая веб-сайт, исходный код и демонстрационное видео, доступны по адресу: www.ScheMatiQ-ai.com.
English
Many disciplines pose natural-language research questions over large document collections whose answers typically require structured evidence, traditionally obtained by manually designing an annotation schema and exhaustively labeling the corpus, a slow and error-prone process. We introduce ScheMatiQ, which leverages calls to a backbone LLM to take a question and a corpus to produce a schema and a grounded database, with a web interface that lets steer and revise the extraction. In collaboration with domain experts, we show that ScheMatiQ yields outputs that support real-world analysis in law and computational biology. We release ScheMatiQ as open source with a public web interface, and invite experts across disciplines to use it with their own data. All resources, including the website, source code, and demonstration video, are available at: www.ScheMatiQ-ai.com