ChatPaper.aiChatPaper

AMBEDKAR: Un Enfoque Multinivel para la Eliminación de Sesgos mediante una Estrategia de Decodificación con Aumento de Conocimiento para la Alineación Constitucional Robusta de Modelos de Lenguaje

AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models

September 2, 2025
Autores: Snehasis Mukhopadhyay, Aryan Kasat, Shivam Dubey, Rahul Karthikeyan, Dhruv Sood, Vinija Jain, Aman Chadha, Amitava Das
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) pueden reflejar inadvertidamente los sesgos sociales presentes en sus datos de entrenamiento, lo que conduce a resultados perjudiciales o prejuiciosos. En el contexto indio, nuestras evaluaciones empíricas en un conjunto de modelos revelan que los sesgos relacionados con la casta y la religión son particularmente destacados. Sin embargo, la mayoría de las estrategias de mitigación existentes están centradas en Occidente y no abordan estos matices locales. Proponemos AMBEDKAR, un marco inspirado en la visión igualitaria del Dr. B. R. Ambedkar, arquitecto de la Constitución de la India, para guiar los resultados de los LLMs hacia la equidad, neutralidad e inclusión en línea con los Artículos 14 al 17. Nuestro enfoque introduce una Capa de Decodificación Consciente de la Constitución, guiada por la Constitución de la IA de la India y aplicada únicamente en tiempo de inferencia, sin actualizaciones de parámetros en el modelo base. Incorporamos un algoritmo de decodificación especulativa que reduce proactivamente los sesgos de casta y comunales durante la generación. Esta capa de mitigación opera directamente dentro del proceso de decodificación, evitando cambios en los internos del modelo y reduciendo los costos computacionales e infraestructurales asociados con el reentrenamiento. Reinterpretamos la decodificación especulativa no solo como una herramienta de eficiencia, sino como un mecanismo para la equidad. En este marco, un Modelo de Lenguaje Pequeño (SLM) actúa como un generador potencialmente sesgado, mientras que un Modelo de Lenguaje de Gran Escala (LLM) guiado constitucionalmente sirve como verificador. En lugar de acelerar la generación, el LLM impone trayectorias robustas contra sesgos en los resultados del SLM. Esta inversión de roles da lugar a un paradigma de equidad por especulación. Nuestro enfoque logra una reducción absoluta de sesgos de hasta un 26.41 por ciento en comparación con la línea base. Nuestro código fuente, conjuntos de datos y resultados están disponibles en https://anonymous.4open.science/r/AMBEDKAR-983B/.
English
Large Language Models (LLMs) can inadvertently reflect societal biases present in their training data, leading to harmful or prejudiced outputs. In the Indian context, our empirical evaluations across a suite of models reveal that biases around caste and religion are particularly salient. Yet, most existing mitigation strategies are Western-centric and fail to address these local nuances. We propose AMBEDKAR, a framework inspired by the egalitarian vision of Dr B. R. Ambedkar, architect of the Indian Constitution, to guide LLM outputs toward fairness, neutrality, and inclusion in line with Articles 14 to 17. Our approach introduces a Constitution-Aware Decoding Layer, guided by the AI Constitution of India and applied only at inference time, without any parameter updates to the base model. We incorporate a speculative decoding algorithm that proactively reduces casteist and communal bias during generation. This mitigation layer operates directly within the decoding process, avoiding changes to model internals and lowering the computational and infrastructural costs associated with retraining. We reinterpret speculative decoding not merely as an efficiency tool but as a mechanism for fairness. In this framework, a Small Language Model (SLM) acts as a potentially biased generator, while a constitutionally guided Large Language Model (LLM) serves as the verifier. Rather than accelerating generation, the LLM enforces bias-robust trajectories in the SLM outputs. This inversion of roles gives rise to a fairness-by-speculation paradigm. Our approach yields an absolute reduction of bias up to 26.41 percent compared to baseline. Our source code, datasets, and results are available at https://anonymous.4open.science/r/AMBEDKAR-983B/
PDF21September 3, 2025