Artigos de pesquisa em IA selecionados diariamente com traduções
Neste artigo, introduzimos o Instruction Following Score (IFS), uma métrica que detecta a capacidade dos modelos de linguagem em seguir instruções. A métrica tem um duplo propósito. Primeiro, o IFS pode ser usado para distinguir entre modelos base e modelos de instrução. Avaliamos modelos base e de instrução disponíveis publicamente e mostramos que a proporção de respostas bem formatadas para frases parciais e completas pode ser uma medida eficaz entre essas duas classes de modelos. Em segundo lugar, a métrica pode ser usada como critério de parada antecipada para o ajuste fino de instruções. Calculamos o IFS para o Ajuste Fino Supervisionado (SFT) de modelos LLaMA de 7B e 13B, mostrando que os modelos aprendem a seguir instruções relativamente cedo no processo de treinamento, e que o ajuste fino adicional pode resultar em mudanças na semântica do modelo base subjacente. Como exemplo de mudança semântica, mostramos a objetividade das previsões do modelo, conforme definido por uma métrica auxiliar, o ObjecQA. Mostramos que, neste caso particular, as mudanças semânticas são mais acentuadas quando o IFS tende a estabilizar. Esperamos que a decomposição do ajuste fino de instruções em fatores de IFS e semântica inicie uma nova tendência em ajustes finos de instrução mais controláveis e abra possibilidades para a criação de interfaces mínimas de instrução para consultar modelos fundamentais.
Grandes modelos de linguagem como o GPT-4 exibem capacidades emergentes em tarefas de propósito geral, como aritmética básica, quando treinados em extensos conjuntos de dados textuais, mesmo que essas tarefas não sejam explicitamente codificadas pelo objetivo não supervisionado de previsão do próximo token. Este estudo investiga como pequenos transformadores, treinados a partir de inicialização aleatória, podem aprender eficientemente operações aritméticas como adição, multiplicação e funções elementares como raiz quadrada, utilizando o objetivo de previsão do próximo token. Primeiro, demonstramos que os dados de treinamento convencionais não são os mais eficazes para o aprendizado de aritmética, e que simples mudanças na formatação podem melhorar significativamente a precisão. Isso leva a transições de fase abruptas em função da escala dos dados de treinamento, que, em alguns casos, podem ser explicadas por conexões com a completação de matrizes de baixo posto. Baseando-se em trabalhos anteriores, em seguida treinamos com dados no estilo de cadeia de pensamento que incluem resultados de etapas intermediárias. Mesmo na completa ausência de pré-treinamento, essa abordagem melhora significativamente e simultaneamente a precisão, a complexidade amostral e a velocidade de convergência. Também estudamos a interação entre dados aritméticos e textuais durante o treinamento e examinamos os efeitos de prompts de poucos exemplos, pré-treinamento e escala do modelo. Além disso, discutimos os desafios de generalização de comprimento. Nosso trabalho destaca a importância de dados de alta qualidade e instrutivos que consideram as características particulares do objetivo de previsão da próxima palavra para elicitar rapidamente capacidades aritméticas.
As operações da cadeia de suprimentos tradicionalmente envolvem uma variedade de problemas complexos de tomada de decisão. Nas últimas décadas, as cadeias de suprimentos se beneficiaram significativamente dos avanços na computação, o que permitiu a transição do processamento manual para a automação e a otimização de custos. No entanto, os operadores de negócios ainda precisam dedicar esforços consideráveis para explicar e interpretar os resultados da otimização para as partes interessadas. Motivados pelos recentes avanços nos Modelos de Linguagem de Grande Escala (LLMs), estudamos como essa tecnologia disruptiva pode ajudar a preencher a lacuna entre a automação da cadeia de suprimentos e a compreensão e confiança humana nela. Projetamos um framework que aceita como entrada consultas em texto simples e gera insights sobre os resultados subjacentes da otimização. Nosso framework não descarta a tecnologia de otimização combinatória de ponta, mas a utiliza para responder quantitativamente a cenários hipotéticos (por exemplo, como o custo mudaria se usássemos o fornecedor B em vez do fornecedor A para uma determinada demanda?). Importante destacar que nosso design não requer o envio de dados proprietários para os LLMs, o que pode ser uma preocupação de privacidade em algumas circunstâncias. Demonstramos a eficácia do nosso framework em um cenário real de posicionamento de servidores na cadeia de suprimentos de nuvem da Microsoft. Ao longo do processo, desenvolvemos um benchmark de avaliação geral, que pode ser usado para avaliar a precisão da saída do LLM em outros cenários.
O ajuste por instrução de grandes modelos de linguagem (LLMs) em pares de imagem-texto alcançou habilidades multimodais visão-linguagem sem precedentes. No entanto, seus alinhamentos visão-linguagem são construídos apenas em nível de imagem, e a falta de alinhamento em nível de região limita seus avanços para uma compreensão multimodal mais refinada. Neste artigo, propomos o ajuste por instrução em regiões de interesse. O design principal é reformular a caixa delimitadora como o formato de instrução espacial. As sequências intercaladas de características visuais extraídas pela instrução espacial e o embedding de linguagem são inseridos no LLM e treinados em dados de região-texto transformados no formato de ajuste por instrução. Nosso modelo visão-linguagem em nível de região, denominado GPT4RoI, traz uma experiência conversacional e interativa totalmente nova, indo além da compreensão em nível de imagem. (1) Controlabilidade: Os usuários podem interagir com nosso modelo tanto por linguagem quanto por instruções espaciais para ajustar flexivelmente o nível de detalhe da pergunta. (2) Capacidades: Nosso modelo suporta não apenas instruções espaciais de região única, mas também de múltiplas regiões. Isso desbloqueia mais capacidades multimodais em nível de região, como legendas detalhadas de regiões e raciocínios complexos sobre regiões. (3) Composição: Qualquer detector de objetos disponível pode ser um provedor de instruções espaciais para extrair atributos informativos de objetos de nosso modelo, como cor, forma, material, ação, relação com outros objetos, etc. O código, dados e demonstração podem ser encontrados em https://github.com/jshilong/GPT4RoI.
Um grande número de pessoas é forçado a usar a Web em um idioma no qual possui baixa proficiência devido a assimetrias tecnológicas. Textos escritos no segundo idioma (L2) por esses usuários frequentemente contêm um grande número de erros influenciados por seu idioma nativo (L1). Propomos um método para identificar confusões de fonemas (sons no L2 que um falante de L1 tende a confundir) para pares de L1 e L2. Essas confusões são então integradas a um modelo generativo (Bi-Phone) para produzir sinteticamente textos corrompidos em L2. Por meio de avaliações humanas, mostramos que o Bi-Phone gera corrupções plausíveis que variam entre diferentes L1s e também possuem ampla cobertura na Web. Também corrompemos o popular benchmark de compreensão de linguagem SuperGLUE com nossa técnica (FunGLUE, ou GLUE com Ruído Fonético) e demonstramos que os modelos state-of-the-art (SoTA) de compreensão de linguagem têm desempenho ruim. Além disso, introduzimos uma nova tarefa de pré-treinamento de previsão de fonemas que ajuda modelos baseados em bytes a recuperar um desempenho próximo ao do SuperGLUE. Por fim, também disponibilizamos o benchmark FunGLUE para promover mais pesquisas em modelos de linguagem foneticamente robustos. Até onde sabemos, o FunGLUE é o primeiro benchmark a introduzir interações L1-L2 em textos.
O que torna a generalização difícil para o aprendizado por imitação na manipulação robótica visual? Essa questão é difícil de abordar de forma direta, mas o ambiente, do ponto de vista de um robô, pode frequentemente ser decomposto em fatores enumeráveis de variação, como as condições de iluminação ou a posição da câmera. Empiricamente, a generalização para alguns desses fatores tem se mostrado um obstáculo maior do que para outros, mas trabalhos existentes lançam pouca luz sobre exatamente quanto cada fator contribui para a lacuna de generalização. Em busca de uma resposta para essa questão, estudamos políticas de aprendizado por imitação em simulação e em uma tarefa de manipulação condicionada por linguagem em um robô real, para quantificar a dificuldade de generalização para diferentes (conjuntos de) fatores. Também projetamos um novo benchmark simulado com 19 tarefas e 11 fatores de variação para facilitar avaliações mais controladas da generalização. A partir do nosso estudo, determinamos uma ordenação dos fatores com base na dificuldade de generalização, que é consistente entre a simulação e nossa configuração de robô real.
Graças ao surgimento dos modelos de base, os grandes modelos de linguagem e visão foram integrados para adquirir a capacidade multimodal de legendagem visual, diálogo, resposta a perguntas, etc. Embora os modelos multimodais existentes apresentem um desempenho impressionante em compreensão e raciocínio visual, seus limites ainda são amplamente inexplorados devido à escassez de dados de ajuste fino de instruções de alta qualidade. Para expandir os limites da capacidade multimodal, nós ampliamos o Ajuste Fino de Instrução Visual (SVIT) construindo um conjunto de dados de 3,2 milhões de dados de ajuste fino de instrução visual, incluindo 1,6 milhão de pares de perguntas e respostas (QA) de conversação, 1,6 milhão de pares de QA de raciocínio complexo e 106 mil descrições detalhadas de imagens. Além do volume, o conjunto de dados proposto também se destaca pela alta qualidade e rica diversidade, gerados ao solicitar ao GPT-4 as abundantes anotações manuais de imagens. Verificamos empiricamente que o treinamento de modelos multimodais no SVIT pode melhorar significativamente o desempenho multimodal em termos de percepção visual, raciocínio e planejamento.
Trabalhos recentes analisaram empiricamente o aprendizado em contexto e demonstraram que transformadores treinados em tarefas sintéticas de regressão linear podem aprender a implementar a regressão ridge, que é o preditor ótimo de Bayes, dada capacidade suficiente [Akyürek et al., 2023], enquanto transformadores de uma camada com auto-atenção linear e sem camada MLP aprenderão a implementar um passo de gradiente descendente (GD) em um objetivo de regressão linear de mínimos quadrados [von Oswald et al., 2022]. No entanto, a teoria por trás dessas observações ainda é pouco compreendida. Estudamos teoricamente transformadores com uma única camada de auto-atenção linear, treinados em dados sintéticos de regressão linear ruidosa. Primeiro, mostramos matematicamente que, quando as covariáveis são extraídas de uma distribuição gaussiana padrão, o transformador de uma camada que minimiza a perda de pré-treinamento implementará um único passo de GD no objetivo de regressão linear de mínimos quadrados. Em seguida, descobrimos que alterar a distribuição das covariáveis e do vetor de pesos para uma distribuição gaussiana não isotrópica tem um forte impacto no algoritmo aprendido: o minimizador global da perda de pré-treinamento agora implementa um único passo de GD pré-condicionado. No entanto, se apenas a distribuição das respostas for alterada, isso não terá um grande efeito no algoritmo aprendido: mesmo quando a resposta vem de uma família mais geral de funções não lineares, o minimizador global da perda de pré-treinamento ainda implementa um único passo de GD em um objetivo de regressão linear de mínimos quadrados.
Modelos avançados de IA prometem benefícios extraordinários para a humanidade, mas a sociedade precisa gerenciar proativamente os riscos associados. Neste artigo, focamos no que chamamos de modelos de "IA de fronteira": modelos base altamente capazes que podem possuir habilidades perigosas suficientes para representar riscos graves à segurança pública. Os modelos de IA de fronteira apresentam um desafio regulatório distinto: habilidades perigosas podem surgir de forma inesperada; é difícil prevenir de forma robusta o uso indevido de um modelo implantado; e é difícil impedir que as capacidades de um modelo se proliferem amplamente. Para enfrentar esses desafios, são necessários pelo menos três pilares para a regulamentação de modelos de fronteira: (1) processos de estabelecimento de padrões para identificar requisitos apropriados para desenvolvedores de IA de fronteira, (2) requisitos de registro e relatórios para fornecer visibilidade aos reguladores sobre os processos de desenvolvimento de IA de fronteira, e (3) mecanismos para garantir o cumprimento de padrões de segurança no desenvolvimento e implantação de modelos de IA de fronteira. A autorregulação da indústria é um primeiro passo importante. No entanto, discussões sociais mais amplas e intervenção governamental serão necessárias para criar padrões e garantir seu cumprimento. Consideramos várias opções para esse fim, incluindo a concessão de poderes de fiscalização a autoridades supervisoras e regimes de licenciamento para modelos de IA de fronteira. Por fim, propomos um conjunto inicial de padrões de segurança. Estes incluem a realização de avaliações de risco antes da implantação; escrutínio externo do comportamento do modelo; uso de avaliações de risco para informar decisões de implantação; e monitoramento e resposta a novas informações sobre as capacidades e usos do modelo após a implantação. Esperamos que esta discussão contribua para o diálogo mais amplo sobre como equilibrar os riscos à segurança pública e os benefícios da inovação provenientes dos avanços na fronteira do desenvolvimento de IA.