SelfCite: Selbstüberwachtes Alignment zur Kontextzuordnung in großen Sprachmodellen

papers.abstract

Wir stellen SelfCite vor, einen innovativen selbstüberwachten Ansatz, der LLMs ausrichtet, um hochwertige, feinkörnige, auf Satzebene zitierte Aussagen in ihren generierten Antworten zu erzeugen. Anstatt nur auf kostspielige und arbeitsintensive Annotationen zu setzen, nutzt SelfCite ein Belohnungssignal, das vom LLM selbst durch Kontextablagerung bereitgestellt wird: Wenn ein Zitat erforderlich ist, sollte das Entfernen des zitierten Textes aus dem Kontext dieselbe Antwort verhindern; wenn ausreichend, sollte das Beibehalten des zitierten Textes allein dieselbe Antwort bewahren. Diese Belohnung kann die Inferenzzeit-Best-of-N-Samplingstrategie anleiten, um die Zitierqualität signifikant zu verbessern, sowie zur Präferenzoptimierung verwendet werden, um die Modelle direkt für die Generierung besserer Zitate feinzutunen. Die Wirksamkeit von SelfCite wird durch eine Steigerung des Zitier-F1-Werts um bis zu 5,3 Punkte im LongBench-Cite-Benchmark über fünf Frage-Antwort-Aufgaben auf Langformbasis demonstriert.

English

We introduce SelfCite, a novel self-supervised approach that aligns LLMs to generate high-quality, fine-grained, sentence-level citations for the statements in their generated responses. Instead of only relying on costly and labor-intensive annotations, SelfCite leverages a reward signal provided by the LLM itself through context ablation: If a citation is necessary, removing the cited text from the context should prevent the same response; if sufficient, retaining the cited text alone should preserve the same response. This reward can guide the inference-time best-of-N sampling strategy to improve citation quality significantly, as well as be used in preference optimization to directly fine-tune the models for generating better citations. The effectiveness of SelfCite is demonstrated by increasing citation F1 up to 5.3 points on the LongBench-Cite benchmark across five long-form question answering tasks.

SelfCite: Selbstüberwachtes Alignment zur Kontextzuordnung in großen Sprachmodellen

SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models

papers.abstract

Support