AMBEDKAR — Многоуровневое устранение смещений через подход декодирования с усилением знаний для устойчивого конституционного согласования языковых моделей
AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models
September 2, 2025
Авторы: Snehasis Mukhopadhyay, Aryan Kasat, Shivam Dubey, Rahul Karthikeyan, Dhruv Sood, Vinija Jain, Aman Chadha, Amitava Das
cs.AI
Аннотация
Крупные языковые модели (LLM) могут непреднамеренно отражать социальные предубеждения, присутствующие в их обучающих данных, что приводит к вредным или предвзятым результатам. В индийском контексте наши эмпирические оценки ряда моделей показывают, что предубеждения, связанные с кастой и религией, особенно заметны. Однако большинство существующих стратегий смягчения этих предубеждений ориентированы на западный контекст и не учитывают местные особенности. Мы предлагаем AMBEDKAR — фреймворк, вдохновлённый эгалитарным видением доктора Б. Р. Амбедкара, архитектора Конституции Индии, который направляет выводы LLM в сторону справедливости, нейтральности и инклюзивности в соответствии со статьями 14–17. Наш подход включает слой декодирования, учитывающий Конституцию, который руководствуется Искусственной Конституцией Индии и применяется только на этапе вывода, без обновления параметров базовой модели. Мы используем алгоритм спекулятивного декодирования, который активно снижает кастовые и религиозные предубеждения в процессе генерации. Этот слой смягчения работает непосредственно в процессе декодирования, избегая изменений внутренней структуры модели и снижая вычислительные и инфраструктурные затраты, связанные с повторным обучением. Мы переосмысливаем спекулятивное декодирование не только как инструмент повышения эффективности, но и как механизм обеспечения справедливости. В этом фреймворке Малая языковая модель (SLM) выступает в роли потенциально предвзятого генератора, а конституционно направляемая Крупная языковая модель (LLM) служит верификатором. Вместо ускорения генерации LLM обеспечивает траектории, устойчивые к предубеждениям, в выводах SLM. Такая инверсия ролей порождает парадигму «справедливость через спекуляцию». Наш подход позволяет достичь абсолютного снижения предубеждений до 26,41% по сравнению с базовым уровнем. Наш исходный код, наборы данных и результаты доступны по адресу: https://anonymous.4open.science/r/AMBEDKAR-983B/
English
Large Language Models (LLMs) can inadvertently reflect societal biases
present in their training data, leading to harmful or prejudiced outputs. In
the Indian context, our empirical evaluations across a suite of models reveal
that biases around caste and religion are particularly salient. Yet, most
existing mitigation strategies are Western-centric and fail to address these
local nuances. We propose AMBEDKAR, a framework inspired by the egalitarian
vision of Dr B. R. Ambedkar, architect of the Indian Constitution, to guide LLM
outputs toward fairness, neutrality, and inclusion in line with Articles 14 to
17. Our approach introduces a Constitution-Aware Decoding Layer, guided by the
AI Constitution of India and applied only at inference time, without any
parameter updates to the base model. We incorporate a speculative decoding
algorithm that proactively reduces casteist and communal bias during
generation. This mitigation layer operates directly within the decoding
process, avoiding changes to model internals and lowering the computational and
infrastructural costs associated with retraining. We reinterpret speculative
decoding not merely as an efficiency tool but as a mechanism for fairness. In
this framework, a Small Language Model (SLM) acts as a potentially biased
generator, while a constitutionally guided Large Language Model (LLM) serves as
the verifier. Rather than accelerating generation, the LLM enforces bias-robust
trajectories in the SLM outputs. This inversion of roles gives rise to a
fairness-by-speculation paradigm. Our approach yields an absolute reduction of
bias up to 26.41 percent compared to baseline. Our source code, datasets, and
results are available at https://anonymous.4open.science/r/AMBEDKAR-983B/