F-GRPO: Gefactoriseerde Groepsrelatieve Beleidsoptimalisatie voor Geünificeerde Kandidaatgeneratie en Rangschikking

Samenvatting

Traditionele retrievalpijplijnen optimaliseren het nut via stadia van kandidaatretrieval en herrangschikking, waarbij de rangschikking werkt over een vooraf gedefinieerde kandidaatset. Grote Taalmodellen (LLM's) verbreden dit tot een generatief proces: gegeven een kandidatenpool kan een LLM een subset genereren en deze ordenen in één autoregressieve doorgang. Deze flexibiliteit introduceert echter een nieuwe optimalisatie-uitdaging: het model moet een combinatorische uitvoerruimte doorzoeken, terwijl het pas nutsfunctie-feedback ontvangt nadat de volledige gerangschikte lijst is gegenereerd. Omdat deze feedback is gedefinieerd over de voltooide sequentie, kan deze niet onderscheiden of een slecht resultaat voortkomt uit het niet genereren van een relevante subset of uit het niet correct rangschikken van die subset. Deze kloof in credittoewijzing maakt end-to-end optimalisatie instabiel en sample-inefficiënt. Bestaande systemen pakken dit vaak aan door kandidaatgeneratie te scheiden van rangschikking. Een dergelijke ontkoppeling blijft echter niet afgestemd op het downstream nut, omdat de rangschikking wordt beperkt door de kandidaatset die zij ontvangt. Om deze kloof te overbruggen, stellen we een uniform raamwerk voor dat beide uitvoert binnen een enkele autoregressieve rollout en ze end-to-end optimaliseert via gefactoriseerde groepsrelatieve beleidsoptimalisatie (F-GRPO). Ons raamwerk factoriseert het beleid in kandidaatgeneratie en rangschikking, terwijl het één enkele LLM-backbone deelt, en traint ze gezamenlijk met een volgorde-invariante dekkingsbeloning en een positiebewuste nutsfunctiebeloning. Om het resulterende fase-specifieke credittoewijzingsprobleem aan te pakken, gebruiken we afzonderlijke groepsrelatieve voordelen voor generatie en rangschikking binnen een tweefasig sequentieniveau-doel. Op benchmarks voor sequentiële aanbevelingen en multi-hop vraagbeantwoording verbetert F-GRPO de best gerangschikte prestaties ten opzichte van GRPO en ontkoppelde baselines, presteert het beter dan gesuperviseerde alternatieven en blijft het concurrerend met sterke zero-shot herrangschikkers, zonder architecturale wijzigingen tijdens de inferentie.

English

Traditional retrieval pipelines optimize utility through stages of candidate retrieval and reranking, where ranking operates over a predefined candidate set. Large Language Models (LLMs) broaden this into a generative process: given a candidate pool, an LLM can generate a subset and order it within a single autoregressive pass. However, this flexibility introduces a new optimization challenge: the model must search a combinatorial output space while receiving utility feedback only after the full ranked list is generated. Because this feedback is defined over the completed sequence, it cannot distinguish whether a poor result arises from failing to generate a relevant subset or from failing to rank that subset correctly. This credit assignment gap makes end-to-end optimization unstable and sample-inefficient. Existing systems often address this by separating candidate generation from ranking. However, such decoupling remains misaligned with downstream utility because ranking is limited by the candidate set it receives. To bridge this gap, we propose a unified framework that performs both within a single autoregressive rollout and optimizes them end-to-end via factorized group-relative policy optimization (F-GRPO). Our framework factorizes the policy into candidate generation and ranking while sharing a single LLM backbone, and jointly trains them with an order-invariant coverage reward and a position-aware utility reward. To address the resulting phase-specific credit assignment problem, we use separate group-relative advantages for generation and ranking within a two-phase sequence-level objective. Across sequential recommendation and multi-hop question answering benchmarks, F-GRPO improves top-ranked performance over GRPO and decoupled baselines, outperforms supervised alternatives, and remains competitive with strong zero-shot rerankers, with no architectural changes at inference time.