AMBEDKAR - Uma Eliminação de Viés Multinível por meio de uma Abordagem de Decodificação com Aumento de Conhecimento para o Alinhamento Constitucional Robusto de Modelos de Linguagem
AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models
September 2, 2025
Autores: Snehasis Mukhopadhyay, Aryan Kasat, Shivam Dubey, Rahul Karthikeyan, Dhruv Sood, Vinija Jain, Aman Chadha, Amitava Das
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) podem refletir inadvertidamente os vieses sociais presentes em seus dados de treinamento, levando a saídas prejudiciais ou preconceituosas. No contexto indiano, nossas avaliações empíricas em uma série de modelos revelam que os vieses relacionados a casta e religião são particularmente salientes. No entanto, a maioria das estratégias de mitigação existentes são centradas no Ocidente e falham em abordar essas nuances locais. Propomos AMBEDKAR, um framework inspirado na visão igualitária do Dr. B. R. Ambedkar, arquiteto da Constituição Indiana, para orientar as saídas dos LLMs em direção à justiça, neutralidade e inclusão, alinhadas com os Artigos 14 a 17. Nossa abordagem introduz uma Camada de Decodificação Consciente da Constituição, guiada pela Constituição de IA da Índia e aplicada apenas no momento da inferência, sem atualizações de parâmetros no modelo base. Incorporamos um algoritmo de decodificação especulativa que reduz proativamente o viés de casta e comunal durante a geração. Essa camada de mitigação opera diretamente dentro do processo de decodificação, evitando alterações nos internos do modelo e reduzindo os custos computacionais e de infraestrutura associados ao retreinamento. Reinterpretamos a decodificação especulativa não apenas como uma ferramenta de eficiência, mas como um mecanismo para justiça. Neste framework, um Modelo de Linguagem Pequeno (SLM) atua como um gerador potencialmente tendencioso, enquanto um Modelo de Linguagem de Grande Escala (LLM) guiado constitucionalmente serve como verificador. Em vez de acelerar a geração, o LLM impõe trajetórias robustas contra vieses nas saídas do SLM. Essa inversão de papéis dá origem a um paradigma de justiça por especulação. Nossa abordagem resulta em uma redução absoluta de viés de até 26,41% em comparação com a linha de base. Nosso código-fonte, conjuntos de dados e resultados estão disponíveis em https://anonymous.4open.science/r/AMBEDKAR-983B/.
English
Large Language Models (LLMs) can inadvertently reflect societal biases
present in their training data, leading to harmful or prejudiced outputs. In
the Indian context, our empirical evaluations across a suite of models reveal
that biases around caste and religion are particularly salient. Yet, most
existing mitigation strategies are Western-centric and fail to address these
local nuances. We propose AMBEDKAR, a framework inspired by the egalitarian
vision of Dr B. R. Ambedkar, architect of the Indian Constitution, to guide LLM
outputs toward fairness, neutrality, and inclusion in line with Articles 14 to
17. Our approach introduces a Constitution-Aware Decoding Layer, guided by the
AI Constitution of India and applied only at inference time, without any
parameter updates to the base model. We incorporate a speculative decoding
algorithm that proactively reduces casteist and communal bias during
generation. This mitigation layer operates directly within the decoding
process, avoiding changes to model internals and lowering the computational and
infrastructural costs associated with retraining. We reinterpret speculative
decoding not merely as an efficiency tool but as a mechanism for fairness. In
this framework, a Small Language Model (SLM) acts as a potentially biased
generator, while a constitutionally guided Large Language Model (LLM) serves as
the verifier. Rather than accelerating generation, the LLM enforces bias-robust
trajectories in the SLM outputs. This inversion of roles gives rise to a
fairness-by-speculation paradigm. Our approach yields an absolute reduction of
bias up to 26.41 percent compared to baseline. Our source code, datasets, and
results are available at https://anonymous.4open.science/r/AMBEDKAR-983B/