Alignment Studio: Alinhando Grandes Modelos de Linguagem a Regulações Contextuais Específicas
Alignment Studio: Aligning Large Language Models to Particular Contextual Regulations
March 8, 2024
Autores: Swapnaja Achintalwar, Ioana Baldini, Djallel Bouneffouf, Joan Byamugisha, Maria Chang, Pierre Dognin, Eitan Farchi, Ndivhuwo Makondo, Aleksandra Mojsilovic, Manish Nagireddy, Karthikeyan Natesan Ramamurthy, Inkit Padhi, Orna Raz, Jesus Rios, Prasanna Sattigeri, Moninder Singh, Siphiwe Thwala, Rosario A. Uceda-Sosa, Kush R. Varshney
cs.AI
Resumo
O alinhamento de grandes modelos de linguagem é geralmente realizado pelos provedores de modelos para adicionar ou controlar comportamentos que são comuns ou universalmente compreendidos em diferentes casos de uso e contextos. Em contraste, neste artigo, apresentamos uma abordagem e arquitetura que capacita desenvolvedores de aplicações a ajustar um modelo aos seus valores específicos, normas sociais, leis e outras regulamentações, além de orquestrar entre requisitos potencialmente conflitantes em contexto. Descrevemos três componentes principais dessa arquitetura de Estúdio de Alinhamento: Moldadores, Instrutores e Auditores, que trabalham em conjunto para controlar o comportamento de um modelo de linguagem. Ilustramos essa abordagem com um exemplo contínuo de alinhamento de um chatbot interno de uma empresa às suas diretrizes de conduta empresarial.
English
The alignment of large language models is usually done by model providers to
add or control behaviors that are common or universally understood across use
cases and contexts. In contrast, in this article, we present an approach and
architecture that empowers application developers to tune a model to their
particular values, social norms, laws and other regulations, and orchestrate
between potentially conflicting requirements in context. We lay out three main
components of such an Alignment Studio architecture: Framers, Instructors, and
Auditors that work in concert to control the behavior of a language model. We
illustrate this approach with a running example of aligning a company's
internal-facing enterprise chatbot to its business conduct guidelines.