ChatPaper.aiChatPaper

AMBEDKAR - 知識拡張を伴うデコーディングアプローチによる多層バイアス除去:言語モデルの堅牢な憲法整合化のための手法

AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models

September 2, 2025
著者: Snehasis Mukhopadhyay, Aryan Kasat, Shivam Dubey, Rahul Karthikeyan, Dhruv Sood, Vinija Jain, Aman Chadha, Amitava Das
cs.AI

要旨

大規模言語モデル(LLM)は、その訓練データに存在する社会的バイアスを無意識に反映し、有害または偏見のある出力を生み出す可能性があります。インドの文脈において、我々の一連のモデルにわたる実証的評価では、カーストや宗教に関するバイアスが特に顕著であることが明らかになりました。しかし、既存の緩和策のほとんどは西洋中心であり、これらの地域特有のニュアンスに対応できていません。我々は、インド憲法の設計者であるB. R. アンベードカール博士の平等主義的ビジョンにインスパイアされたフレームワーク「AMBEDKAR」を提案し、第14条から第17条に沿った公平性、中立性、包括性をLLMの出力に導きます。我々のアプローチでは、インドのAI憲法に基づく「憲法認識デコーディング層」を導入し、推論時にのみ適用し、ベースモデルのパラメータを更新することなく使用します。生成中にカーストやコミュナル(宗教的共同体)のバイアスを積極的に低減する投機的デコーディングアルゴリズムを組み込んでいます。この緩和層はデコーディングプロセス内で直接動作し、モデルの内部構造を変更せず、再訓練に関連する計算コストやインフラコストを削減します。我々は、投機的デコーディングを単なる効率化ツールではなく、公平性を実現するメカニズムとして再解釈します。このフレームワークでは、小型言語モデル(SLM)が潜在的にバイアスを持つ生成器として機能し、憲法に基づいて導かれた大規模言語モデル(LLM)が検証器としての役割を果たします。LLMは生成を加速するのではなく、SLMの出力においてバイアスに強い軌道を強制します。この役割の逆転により、「公平性を投機的に実現する」パラダイムが生まれます。我々のアプローチは、ベースラインと比較して最大26.41%のバイアス絶対低減をもたらします。ソースコード、データセット、結果はhttps://anonymous.4open.science/r/AMBEDKAR-983B/で公開されています。
English
Large Language Models (LLMs) can inadvertently reflect societal biases present in their training data, leading to harmful or prejudiced outputs. In the Indian context, our empirical evaluations across a suite of models reveal that biases around caste and religion are particularly salient. Yet, most existing mitigation strategies are Western-centric and fail to address these local nuances. We propose AMBEDKAR, a framework inspired by the egalitarian vision of Dr B. R. Ambedkar, architect of the Indian Constitution, to guide LLM outputs toward fairness, neutrality, and inclusion in line with Articles 14 to 17. Our approach introduces a Constitution-Aware Decoding Layer, guided by the AI Constitution of India and applied only at inference time, without any parameter updates to the base model. We incorporate a speculative decoding algorithm that proactively reduces casteist and communal bias during generation. This mitigation layer operates directly within the decoding process, avoiding changes to model internals and lowering the computational and infrastructural costs associated with retraining. We reinterpret speculative decoding not merely as an efficiency tool but as a mechanism for fairness. In this framework, a Small Language Model (SLM) acts as a potentially biased generator, while a constitutionally guided Large Language Model (LLM) serves as the verifier. Rather than accelerating generation, the LLM enforces bias-robust trajectories in the SLM outputs. This inversion of roles gives rise to a fairness-by-speculation paradigm. Our approach yields an absolute reduction of bias up to 26.41 percent compared to baseline. Our source code, datasets, and results are available at https://anonymous.4open.science/r/AMBEDKAR-983B/
PDF21September 3, 2025