SelfCite: Allineamento Auto-supervisionato per l'Attribuzione del Contesto in Grandi Modelli Linguistici
SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models
February 13, 2025
Autori: Yung-Sung Chuang, Benjamin Cohen-Wang, Shannon Zejiang Shen, Zhaofeng Wu, Hu Xu, Xi Victoria Lin, James Glass, Shang-Wen Li, Wen-tau Yih
cs.AI
Abstract
Introduciamo SelfCite, un innovativo approccio auto-supervisionato che allinea LLM per generare citazioni di alta qualità, dettagliate a livello di frase, per le affermazioni presenti nelle loro risposte generate. Invece di basarsi solo su costose e laboriose annotazioni, SelfCite sfrutta un segnale di ricompensa fornito dal LLM stesso attraverso l'ablatore di contesto: se una citazione è necessaria, rimuovere il testo citato dal contesto dovrebbe impedire la stessa risposta; se sufficiente, mantenere solo il testo citato dovrebbe preservare la stessa risposta. Questa ricompensa può guidare la strategia di campionamento best-of-N al momento dell'inferenza per migliorare significativamente la qualità delle citazioni, nonché essere utilizzata nell'ottimizzazione delle preferenze per indirizzare direttamente il raffinamento dei modelli per generare citazioni migliori. L'efficacia di SelfCite è dimostrata dall'aumento del punteggio F1 delle citazioni fino a 5,3 punti sul benchmark LongBench-Cite in cinque compiti di risposta a domande a lungo formato.
English
We introduce SelfCite, a novel self-supervised approach that aligns LLMs to
generate high-quality, fine-grained, sentence-level citations for the
statements in their generated responses. Instead of only relying on costly and
labor-intensive annotations, SelfCite leverages a reward signal provided by the
LLM itself through context ablation: If a citation is necessary, removing the
cited text from the context should prevent the same response; if sufficient,
retaining the cited text alone should preserve the same response. This reward
can guide the inference-time best-of-N sampling strategy to improve citation
quality significantly, as well as be used in preference optimization to
directly fine-tune the models for generating better citations. The
effectiveness of SelfCite is demonstrated by increasing citation F1 up to 5.3
points on the LongBench-Cite benchmark across five long-form question answering
tasks.