sui-1: Sumarização de Longo Formato Fundamentada e Verificável

Resumo

Os modelos de linguagem de grande porte frequentemente geram resumos plausíveis, porém infiéis, que os usuários não conseguem verificar em relação ao texto-fonte, uma limitação crítica em domínios sensíveis à conformidade, como a análise governamental e jurídica. Apresentamos o sui-1, um modelo de 24B de parâmetros que produz resumos abstrativos com citações em linha, permitindo que os usuários rastreiem cada afirmação até a sua frase de origem. Nossa pipeline de dados sintéticos combina a técnica de *chain-of-thought* com verificação em múltiplos estágios, gerando mais de 22.000 exemplos de treinamento de alta qualidade em cinco idiomas a partir de fontes diversas, incluindo documentos parlamentares, texto da web e Wikipedia. A avaliação mostra que o sui-1 supera significativamente todas as linhas de base de pesos abertos testadas, incluindo modelos com 3 vezes mais parâmetros. Estes resultados demonstram que o treinamento específico para a tarefa supera substancialmente apenas a escala para a sumarização fundamentada em citações. Os pesos do modelo e uma demonstração interativa estão publicamente disponíveis.

English

Large language models frequently generate plausible but unfaithful summaries that users cannot verify against source text, a critical limitation in compliance-sensitive domains such as government and legal analysis. We present sui-1, a 24B parameter model that produces abstractive summaries with inline citations, enabling users to trace each claim to its source sentence. Our synthetic data pipeline combines chain-of-thought prompting with multi-stage verification, generating over 22,000 high-quality training examples across five languages from diverse sources including parliamentary documents, web text, and Wikipedia. Evaluation shows sui-1 significantly outperforms all tested open-weight baselines, including models with 3x more parameters. These results demonstrate that task-specific training substantially outperforms scale alone for citation-grounded summarization. Model weights and an interactive demo are publicly available.

sui-1: Sumarização de Longo Formato Fundamentada e Verificável

sui-1: Grounded and Verifiable Long-Form Summarization

Resumo

Support