AMBEDKAR – Eine mehrstufige Bias-Eliminierung durch einen Dekodierungsansatz mit Wissensanreicherung für eine robuste verfassungsgemäße Ausrichtung von Sprachmodellen
AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models
September 2, 2025
papers.authors: Snehasis Mukhopadhyay, Aryan Kasat, Shivam Dubey, Rahul Karthikeyan, Dhruv Sood, Vinija Jain, Aman Chadha, Amitava Das
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) können unbeabsichtigt gesellschaftliche Vorurteile widerspiegeln, die in ihren Trainingsdaten vorhanden sind, was zu schädlichen oder voreingenommenen Ausgaben führt. Im indischen Kontext zeigen unsere empirischen Auswertungen über eine Reihe von Modellen, dass Vorurteile in Bezug auf Kaste und Religion besonders ausgeprägt sind. Dennoch sind die meisten bestehenden Strategien zur Minderung dieser Vorurteile westlich geprägt und berücksichtigen diese lokalen Nuancen nicht. Wir schlagen AMBEDKAR vor, ein Rahmenwerk, das von der egalitären Vision von Dr. B. R. Ambedkar, dem Architekten der indischen Verfassung, inspiriert ist, um die Ausgaben von LLMs in Richtung Fairness, Neutralität und Inklusion gemäß den Artikeln 14 bis 17 zu lenken. Unser Ansatz führt eine verfassungsbewusste Dekodierungsschicht ein, die von der KI-Verfassung Indiens geleitet wird und nur zur Inferenzzeit angewendet wird, ohne dass Parameter des Basismodells aktualisiert werden. Wir integrieren einen spekulativen Dekodierungsalgorithmus, der kastenbezogene und gemeinschaftliche Vorurteile während der Generierung proaktiv reduziert. Diese Minderungsschicht arbeitet direkt innerhalb des Dekodierungsprozesses, vermeidet Änderungen an den Modellinterna und senkt die mit dem erneuten Training verbundenen Rechen- und Infrastrukturkosten. Wir interpretieren spekulative Dekodierung nicht nur als Effizienzwerkzeug, sondern als Mechanismus für Fairness. In diesem Rahmenwerk fungiert ein kleines Sprachmodell (SLM) als potenziell voreingenommener Generator, während ein verfassungsgeleitetes großes Sprachmodell (LLM) als Prüfer dient. Anstatt die Generierung zu beschleunigen, erzwingt das LLM vorurteilsresistente Trajektorien in den Ausgaben des SLM. Diese Rollenumkehr führt zu einem Paradigma der Fairness durch Spekulation. Unser Ansatz führt zu einer absoluten Reduktion der Vorurteile um bis zu 26,41 Prozent im Vergleich zur Basislinie. Unser Quellcode, Datensätze und Ergebnisse sind verfügbar unter https://anonymous.4open.science/r/AMBEDKAR-983B/.
English
Large Language Models (LLMs) can inadvertently reflect societal biases
present in their training data, leading to harmful or prejudiced outputs. In
the Indian context, our empirical evaluations across a suite of models reveal
that biases around caste and religion are particularly salient. Yet, most
existing mitigation strategies are Western-centric and fail to address these
local nuances. We propose AMBEDKAR, a framework inspired by the egalitarian
vision of Dr B. R. Ambedkar, architect of the Indian Constitution, to guide LLM
outputs toward fairness, neutrality, and inclusion in line with Articles 14 to
17. Our approach introduces a Constitution-Aware Decoding Layer, guided by the
AI Constitution of India and applied only at inference time, without any
parameter updates to the base model. We incorporate a speculative decoding
algorithm that proactively reduces casteist and communal bias during
generation. This mitigation layer operates directly within the decoding
process, avoiding changes to model internals and lowering the computational and
infrastructural costs associated with retraining. We reinterpret speculative
decoding not merely as an efficiency tool but as a mechanism for fairness. In
this framework, a Small Language Model (SLM) acts as a potentially biased
generator, while a constitutionally guided Large Language Model (LLM) serves as
the verifier. Rather than accelerating generation, the LLM enforces bias-robust
trajectories in the SLM outputs. This inversion of roles gives rise to a
fairness-by-speculation paradigm. Our approach yields an absolute reduction of
bias up to 26.41 percent compared to baseline. Our source code, datasets, and
results are available at https://anonymous.4open.science/r/AMBEDKAR-983B/