AMBEDKAR - Un Approccio Multilivello per l'Eliminazione del Bias attraverso una Strategia di Decodifica con Aumento della Conoscenza per un Allineamento Costituzionale Robusto dei Modelli Linguistici
AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models
September 2, 2025
Autori: Snehasis Mukhopadhyay, Aryan Kasat, Shivam Dubey, Rahul Karthikeyan, Dhruv Sood, Vinija Jain, Aman Chadha, Amitava Das
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) possono riflettere involontariamente i pregiudizi sociali presenti nei loro dati di addestramento, portando a output dannosi o discriminatori. Nel contesto indiano, le nostre valutazioni empiriche su una serie di modelli rivelano che i pregiudizi legati a casta e religione sono particolarmente evidenti. Tuttavia, la maggior parte delle strategie di mitigazione esistenti sono centrate sul mondo occidentale e non affrontano queste sfumature locali. Proponiamo AMBEDKAR, un framework ispirato alla visione egualitaria del Dr. B. R. Ambedkar, architetto della Costituzione indiana, per guidare gli output degli LLM verso equità, neutralità e inclusione in linea con gli articoli 14-17. Il nostro approccio introduce un livello di decodifica consapevole della Costituzione, guidato dalla Costituzione AI dell'India e applicato solo al momento dell'inferenza, senza aggiornamenti ai parametri del modello di base. Incorporiamo un algoritmo di decodifica speculativa che riduce proattivamente i pregiudizi castali e comunitari durante la generazione. Questo livello di mitigazione opera direttamente nel processo di decodifica, evitando modifiche interne al modello e riducendo i costi computazionali e infrastrutturali associati al riaddestramento. Reinterpretiamo la decodifica speculativa non solo come uno strumento di efficienza, ma come un meccanismo per l'equità. In questo framework, un modello linguistico di piccole dimensioni (SLM) agisce come generatore potenzialmente pregiudizievole, mentre un LLM guidato dalla Costituzione funge da verificatore. Piuttosto che accelerare la generazione, l'LLM impone traiettorie robuste ai pregiudizi negli output dell'SLM. Questa inversione di ruoli dà vita a un paradigma di equità tramite speculazione. Il nostro approccio produce una riduzione assoluta dei pregiudizi fino al 26,41% rispetto alla baseline. Il nostro codice sorgente, dataset e risultati sono disponibili su https://anonymous.4open.science/r/AMBEDKAR-983B/.
English
Large Language Models (LLMs) can inadvertently reflect societal biases
present in their training data, leading to harmful or prejudiced outputs. In
the Indian context, our empirical evaluations across a suite of models reveal
that biases around caste and religion are particularly salient. Yet, most
existing mitigation strategies are Western-centric and fail to address these
local nuances. We propose AMBEDKAR, a framework inspired by the egalitarian
vision of Dr B. R. Ambedkar, architect of the Indian Constitution, to guide LLM
outputs toward fairness, neutrality, and inclusion in line with Articles 14 to
17. Our approach introduces a Constitution-Aware Decoding Layer, guided by the
AI Constitution of India and applied only at inference time, without any
parameter updates to the base model. We incorporate a speculative decoding
algorithm that proactively reduces casteist and communal bias during
generation. This mitigation layer operates directly within the decoding
process, avoiding changes to model internals and lowering the computational and
infrastructural costs associated with retraining. We reinterpret speculative
decoding not merely as an efficiency tool but as a mechanism for fairness. In
this framework, a Small Language Model (SLM) acts as a potentially biased
generator, while a constitutionally guided Large Language Model (LLM) serves as
the verifier. Rather than accelerating generation, the LLM enforces bias-robust
trajectories in the SLM outputs. This inversion of roles gives rise to a
fairness-by-speculation paradigm. Our approach yields an absolute reduction of
bias up to 26.41 percent compared to baseline. Our source code, datasets, and
results are available at https://anonymous.4open.science/r/AMBEDKAR-983B/