Streaming-Strukturierte Inferenz mit Flash-SemiCRF
Streaming Structured Inference with Flash-SemiCRF
April 20, 2026
Autoren: Benjamin K. Johnson, Thomas Goralski, Ayush Semwal, Hui Shen, H. Josh Jang
cs.AI
Zusammenfassung
Semi-Markov Conditional Random Fields (semi-CRFs) weisen Segmenten einer Sequenz Labels zu, anstatt einzelnen Positionen, was eine exakte Inferenz über Segmentmerkmale und fundierte Unsicherheitsschätzungen an deren Grenzen ermöglicht. Bisherige Implementierungen müssen jedoch ein großes Kantenpotentialtensor materialisieren, dessen Größe mit der Sequenzlänge, der maximalen Segmentlänge und der Anzahl der Labels wächst. Dies wird für Zustandsräume in Sprachverarbeitungs-Maßstäben prohibitiv und ist auf genomischen Skalen, wo Sequenzen über 100.000 Positionen überschreiten können, nicht handhabbar. Dieser Speicher-Engpass hat die Anwendung exakter Inferenz auf Segmentebene für lange Sequenzen und große Labelsets eingeschränkt. Wir identifizieren, dass die zentrale Ineffizienz in der Materialisierung von Kantenpotentialen liegt, die stattdessen on-the-fly aus einem kompakten Präfix-Summen-Array berechnet werden können, und nehmen mehrere Verbesserungen vor. Erstens reduziert der Ersatz des gespeicherten Kantentensors durch eine Präfix-Summen-Abfrage den Speicherbedarf um einen Faktor proportional zum Produkt aus Segmentlänge und Labelanzahl. Zweitens hält ein Streaming-Vorwärts-Rückwärts-Durchlauf mit Checkpoint-Grenznormalisierung den Arbeitspeicherbedarf sublinear zur Sequenzlänge, bei gleichzeitiger Bewahrung exakter Gradienten. Drittens kontrollieren nullzentrierte kumulative Scores die numerische Drift und induzieren eine adaptive Dauer-Prior unter Label-Ungleichgewicht. Wir integrieren diese Ideen in Flash-SemiCRF, einen fusionierten Triton-Kernel, der exakte semi-CRF-Inferenz für bisher nicht handhabbare Problemgrößen ermöglicht. Verfügbar unter https://github.com/biobenkj/flash-semicrf.
English
Semi-Markov Conditional Random Fields (semi-CRFs) assign labels to segments of a sequence rather than to individual positions, enabling exact inference over segment-level features and principled uncertainty estimates at their boundaries. However, existing implementations must materialize a large edge potential tensor whose size grows with sequence length, maximum segment length, and label count, becoming prohibitive for speech-scale state spaces and intractable at genomic scales where sequences can exceed 100,000 positions. This memory bottleneck has limited the adoption of exact segment-level inference for long sequences and large label sets. We identify that the core inefficiency is materializing edge potentials that can instead be evaluated on-the-fly from a compact prefix-sum array, and make several improvements. First, replacing the stored edge tensor with prefix-sum lookup reduces the memory footprint by a factor proportional to the product of segment length and label count. Second, a streaming forward-backward pass with checkpoint-boundary normalization keeps working memory sublinear in sequence length while preserving exact gradients. Third, zero-centered cumulative scores control numerical drift and induce an adaptive duration prior under label imbalance. We integrate these ideas into Flash-SemiCRF, a fused Triton kernel that enables exact semi-CRF inference on previously intractable problem sizes. Available at https://github.com/biobenkj/flash-semicrf.