ChatPaper.aiChatPaper

ScheMatiQ: Del Pregunta de Investigación a los Datos Estructurados mediante el Descubrimiento Interactivo de Esquemas

ScheMatiQ: From Research Question to Structured Data through Interactive Schema Discovery

April 10, 2026
Autores: Shahar Levy, Eliya Habba, Reshef Mintz, Barak Raveh, Renana Keydar, Gabriel Stanovsky
cs.AI

Resumen

Muchas disciplinas plantean preguntas de investigación en lenguaje natural sobre grandes colecciones de documentos cuyas respuestas suelen requerir evidencia estructurada, obtenida tradicionalmente mediante el diseño manual de un esquema de anotación y el etiquetado exhaustivo del corpus, un proceso lento y propenso a errores. Presentamos ScheMatiQ, que aprovecha las capacidades de un modelo de lenguaje grande (LLM) base para tomar una pregunta y un corpus y producir un esquema y una base de datos fundamentada, con una interfaz web que permite guiar y revisar la extracción. En colaboración con expertos de dominio, demostramos que ScheMatiQ genera resultados que respaldan análisis del mundo real en derecho y biología computacional. Publicamos ScheMatiQ como código abierto con una interfaz web pública e invitamos a expertos de diversas disciplinas a utilizarlo con sus propios datos. Todos los recursos, incluidos el sitio web, el código fuente y el video de demostración, están disponibles en: www.ScheMatiQ-ai.com
English
Many disciplines pose natural-language research questions over large document collections whose answers typically require structured evidence, traditionally obtained by manually designing an annotation schema and exhaustively labeling the corpus, a slow and error-prone process. We introduce ScheMatiQ, which leverages calls to a backbone LLM to take a question and a corpus to produce a schema and a grounded database, with a web interface that lets steer and revise the extraction. In collaboration with domain experts, we show that ScheMatiQ yields outputs that support real-world analysis in law and computational biology. We release ScheMatiQ as open source with a public web interface, and invite experts across disciplines to use it with their own data. All resources, including the website, source code, and demonstration video, are available at: www.ScheMatiQ-ai.com
PDF53April 14, 2026