AMBEDKAR - Une approche multi-niveaux d'élimination des biais par décodage avec augmentation des connaissances pour un alignement constitutionnel robuste des modèles de langage
AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models
September 2, 2025
papers.authors: Snehasis Mukhopadhyay, Aryan Kasat, Shivam Dubey, Rahul Karthikeyan, Dhruv Sood, Vinija Jain, Aman Chadha, Amitava Das
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLMs) peuvent refléter involontairement les biais sociétaux présents dans leurs données d'entraînement, conduisant à des sorties nuisibles ou préjudiciables. Dans le contexte indien, nos évaluations empiriques sur une série de modèles révèlent que les biais liés à la caste et à la religion sont particulièrement marqués. Pourtant, la plupart des stratégies de mitigation existantes sont centrées sur l'Occident et ne parviennent pas à prendre en compte ces nuances locales. Nous proposons AMBEDKAR, un cadre inspiré par la vision égalitaire du Dr B. R. Ambedkar, architecte de la Constitution indienne, pour orienter les sorties des LLMs vers l'équité, la neutralité et l'inclusion conformément aux articles 14 à 17. Notre approche introduit une couche de décodage consciente de la Constitution, guidée par la Constitution de l'IA de l'Inde et appliquée uniquement au moment de l'inférence, sans aucune mise à jour des paramètres du modèle de base. Nous intégrons un algorithme de décodage spéculatif qui réduit de manière proactive les biais liés à la caste et à la communauté lors de la génération. Cette couche de mitigation opère directement dans le processus de décodage, évitant les modifications internes du modèle et réduisant les coûts computationnels et infrastructurels associés au réentraînement. Nous réinterprétons le décodage spéculatif non seulement comme un outil d'efficacité, mais aussi comme un mécanisme d'équité. Dans ce cadre, un modèle de langage de petite taille (SLM) agit comme un générateur potentiellement biaisé, tandis qu'un modèle de langage de grande taille (LLM) guidé par la Constitution sert de vérificateur. Plutôt que d'accélérer la génération, le LLM impose des trajectoires robustes aux biais dans les sorties du SLM. Cette inversion des rôles donne naissance à un paradigme d'équité par spéculation. Notre approche permet une réduction absolue des biais allant jusqu'à 26,41 % par rapport à la ligne de base. Notre code source, nos ensembles de données et nos résultats sont disponibles à l'adresse suivante : https://anonymous.4open.science/r/AMBEDKAR-983B/
English
Large Language Models (LLMs) can inadvertently reflect societal biases
present in their training data, leading to harmful or prejudiced outputs. In
the Indian context, our empirical evaluations across a suite of models reveal
that biases around caste and religion are particularly salient. Yet, most
existing mitigation strategies are Western-centric and fail to address these
local nuances. We propose AMBEDKAR, a framework inspired by the egalitarian
vision of Dr B. R. Ambedkar, architect of the Indian Constitution, to guide LLM
outputs toward fairness, neutrality, and inclusion in line with Articles 14 to
17. Our approach introduces a Constitution-Aware Decoding Layer, guided by the
AI Constitution of India and applied only at inference time, without any
parameter updates to the base model. We incorporate a speculative decoding
algorithm that proactively reduces casteist and communal bias during
generation. This mitigation layer operates directly within the decoding
process, avoiding changes to model internals and lowering the computational and
infrastructural costs associated with retraining. We reinterpret speculative
decoding not merely as an efficiency tool but as a mechanism for fairness. In
this framework, a Small Language Model (SLM) acts as a potentially biased
generator, while a constitutionally guided Large Language Model (LLM) serves as
the verifier. Rather than accelerating generation, the LLM enforces bias-robust
trajectories in the SLM outputs. This inversion of roles gives rise to a
fairness-by-speculation paradigm. Our approach yields an absolute reduction of
bias up to 26.41 percent compared to baseline. Our source code, datasets, and
results are available at https://anonymous.4open.science/r/AMBEDKAR-983B/