ZelfCite: Zelftoeziende Afstemming voor Contexttoewijzing in Grote Taalmodellen

Samenvatting

We introduceren SelfCite, een innovatieve zelf-supervised aanpak die LLMs afstemt om hoogwaardige, fijnmazige, op zinsniveau citaten te genereren voor de uitspraken in hun gegenereerde antwoorden. In plaats van alleen te vertrouwen op kostbare en arbeidsintensieve annotaties, maakt SelfCite gebruik van een beloningssignaal dat wordt geleverd door de LLM zelf via contextablatie: als een citaat nodig is, zou het verwijderen van de geciteerde tekst uit de context hetzelfde antwoord moeten voorkomen; als het voldoende is, zou het behouden van alleen de geciteerde tekst hetzelfde antwoord moeten behouden. Deze beloning kan de best-of-N bemonsteringsstrategie tijdens de inferentie aanzienlijk verbeteren, evenals worden gebruikt in voorkeursoptimalisatie om de modellen rechtstreeks fijn af te stemmen voor het genereren van betere citaten. De effectiviteit van SelfCite wordt aangetoond door de citatie F1 tot 5,3 punten te verhogen op de LongBench-Cite benchmark over vijf vraag-antwoordtaken op lange formulieren.

English

We introduce SelfCite, a novel self-supervised approach that aligns LLMs to generate high-quality, fine-grained, sentence-level citations for the statements in their generated responses. Instead of only relying on costly and labor-intensive annotations, SelfCite leverages a reward signal provided by the LLM itself through context ablation: If a citation is necessary, removing the cited text from the context should prevent the same response; if sufficient, retaining the cited text alone should preserve the same response. This reward can guide the inference-time best-of-N sampling strategy to improve citation quality significantly, as well as be used in preference optimization to directly fine-tune the models for generating better citations. The effectiveness of SelfCite is demonstrated by increasing citation F1 up to 5.3 points on the LongBench-Cite benchmark across five long-form question answering tasks.

ZelfCite: Zelftoeziende Afstemming voor Contexttoewijzing in Grote Taalmodellen

SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models

Samenvatting

Support