Artigos de pesquisa em IA selecionados diariamente com traduções
O Aprendizado por Reforço a partir de Feedback Humano (RLHF, na sigla em inglês) surgiu como um paradigma popular para alinhar modelos com a intenção humana. Tipicamente, os algoritmos de RLHF operam em duas fases: primeiro, utilizam preferências humanas para aprender uma função de recompensa e, segundo, alinham o modelo otimizando a recompensa aprendida por meio de aprendizado por reforço (RL). Esse paradigma assume que as preferências humanas são distribuídas de acordo com a recompensa, mas trabalhos recentes sugerem que, em vez disso, elas seguem o arrependimento sob a política ótima do usuário. Assim, aprender uma função de recompensa a partir do feedback não apenas se baseia em uma suposição falha sobre a preferência humana, mas também leva a desafios de otimização complexos que surgem de gradientes de política ou bootstrapping na fase de RL. Devido a esses desafios de otimização, os métodos contemporâneos de RLHF restringem-se a configurações de bandit contextual (por exemplo, em modelos de linguagem de grande escala) ou limitam a dimensionalidade das observações (por exemplo, em robótica baseada em estados). Superamos essas limitações ao introduzir uma nova família de algoritmos para otimizar comportamentos a partir de feedback humano utilizando o modelo de preferências humanas baseado em arrependimento. Usando o princípio da entropia máxima, derivamos o Aprendizado de Preferência Contrastiva (CPL, na sigla em inglês), um algoritmo para aprender políticas ótimas a partir de preferências sem aprender funções de recompensa, contornando a necessidade de RL. O CPL é completamente off-policy, utiliza apenas um objetivo contrastivo simples e pode ser aplicado a MDPs (Processos de Decisão Markovianos) arbitrários. Isso permite que o CPL escale elegantemente para problemas de RLHF sequenciais e de alta dimensionalidade, sendo mais simples do que métodos anteriores.
*A Síntese de Dados* é uma abordagem promissora para treinar um modelo pequeno com pouquíssimos dados rotulados. Uma estratégia para a síntese de dados é aproveitar o conhecimento rico de modelos de linguagem grandes para sintetizar exemplos de treinamento pseudo-rotulados para modelos pequenos, tornando possível alcançar eficiência tanto em dados quanto em computação ao mesmo tempo. No entanto, um desafio crucial na síntese de dados é que o conjunto de dados sintetizado frequentemente sofre de uma grande discrepância distribucional em relação à distribuição de dados da *tarefa real*. Assim, neste artigo, propomos *Synthesis Step by Step* (**S3**), um framework de síntese de dados que reduz essa lacuna distribucional ao extrapolar iterativamente os erros cometidos por um modelo pequeno treinado no conjunto de dados sintetizado, utilizando um pequeno conjunto de validação do mundo real e um modelo de linguagem grande. Experimentos extensivos em múltiplas tarefas de NLP mostram que nossa abordagem melhora o desempenho de um modelo pequeno ao reduzir a lacuna entre o conjunto de dados sintético e os dados reais, resultando em uma melhoria significativa em comparação com várias baselines: 9,48% de melhoria em relação ao ZeroGen e 2,73% em relação ao GoldGen, e até 15,17% de melhoria em comparação com o modelo pequeno treinado em dados anotados por humanos.
Modelos probabilísticos de difusão (DPMs) têm demonstrado excelente desempenho na geração de imagens de alta fidelidade, embora sofram com amostragem ineficiente. Trabalhos recentes aceleram o procedimento de amostragem propondo solucionadores rápidos de EDOs que aproveitam a forma específica de EDO dos DPMs. No entanto, eles dependem fortemente de parametrizações específicas durante a inferência (como predição de ruído/dados), o que pode não ser a escolha ideal. Neste trabalho, propomos uma nova formulação em direção à parametrização ótima durante a amostragem que minimiza o erro de discretização de primeira ordem da solução da EDO. Com base nessa formulação, propomos o DPM-Solver-v3, um novo solucionador rápido de EDOs para DPMs, introduzindo vários coeficientes eficientemente calculados no modelo pré-treinado, que chamamos de estatísticas empíricas do modelo. Além disso, incorporamos métodos de múltiplos passos e uma estrutura preditor-corretor, e propomos algumas técnicas para melhorar a qualidade da amostra com um número reduzido de avaliações de função (NFE) ou escalas de orientação grandes. Experimentos mostram que o DPM-Solver-v3 alcança consistentemente desempenho melhor ou comparável tanto na amostragem incondicional quanto na condicional, com DPMs tanto no espaço de pixels quanto no espaço latente, especialmente em 5 a 10 NFEs. Alcançamos FIDs de 12,21 (5 NFE) e 2,51 (10 NFE) no CIFAR10 incondicional, e MSE de 0,55 (5 NFE, escala de orientação 7,5) no Stable Diffusion, proporcionando uma aceleração de 15% a 30% em comparação com os melhores métodos state-of-the-art sem treinamento. O código está disponível em https://github.com/thu-ml/DPM-Solver-v3.
A audição é, sem dúvida, uma habilidade essencial para agentes de inteligência artificial (IA) no mundo físico, referindo-se à percepção e compreensão de informações auditivas gerais que consistem em pelo menos três tipos de sons: fala, eventos de áudio e música. Neste artigo, propomos o SALMONN, uma rede neural aberta de fala, áudio, linguagem e música, construída pela integração de um modelo de linguagem grande (LLM) pré-treinado baseado em texto com codificadores de fala e áudio em um único modelo multimodal. O SALMONN permite que o LLM processe e compreenda diretamente entradas de áudio gerais e alcance desempenhos competitivos em várias tarefas de fala e áudio usadas no treinamento, como reconhecimento automático de fala e tradução, resposta a perguntas baseadas em informações auditivas, reconhecimento de emoções, verificação de locutor e legendagem de música e áudio, entre outras. O SALMONN também possui um conjunto diversificado de habilidades emergentes não vistas durante o treinamento, que incluem, mas não se limitam a, tradução de fala para idiomas não treinados, preenchimento de slots baseado em fala, resposta a perguntas baseadas em consultas faladas, narração de histórias baseada em áudio e raciocínio conjunto de fala e áudio, entre outras. A presença dessas habilidades emergentes intermodais é estudada, e uma nova abordagem de ajuste de ativação few-shot é proposta para ativar tais habilidades do SALMONN. Até onde sabemos, o SALMONN é o primeiro modelo desse tipo e pode ser considerado um passo em direção à IA com habilidades auditivas genéricas. Uma demonstração interativa do SALMONN está disponível em \url{https://github.com/bytedance/SALMONN}, e o código de treinamento e os checkpoints do modelo serão liberados após a aceitação.
Grandes modelos de linguagem (LLMs) exibem habilidades emergentes impressionantes no processamento de linguagem natural, mas sua democratização é dificultada devido aos enormes requisitos de computação e à natureza de código fechado. Pesquisas recentes sobre o avanço de LLMs menores e de código aberto, por meio da destilação de conhecimento de LLMs de caixa preta, obtiveram resultados promissores na capacidade de seguir instruções. No entanto, a capacidade de raciocínio, que é mais desafiadora de desenvolver, é relativamente pouco explorada. Neste artigo, propomos uma abordagem de aprendizado personalizada para destilar essa capacidade de raciocínio para LLMs menores, a fim de facilitar a democratização dessa habilidade exclusiva. Em contraste com o uso meramente do LLM como um anotador de dados, exploramos o potencial do LLM como um professor de raciocínio, construindo um paradigma de aprendizado interativo e multi-rodadas. Esse paradigma permite que o aluno exponha suas deficiências ao professor de caixa preta, que então pode fornecer dados de treinamento personalizados em troca. Além disso, para explorar o potencial de raciocínio do LLM menor, propomos o aprendizado por autorreflexão, incentivando o aluno a aprender com seus próprios erros. O aprendizado por autorreflexão e o LLM são todos adaptados ao status de aprendizado do aluno, graças à integração perfeita com o paradigma de aprendizado multi-rodadas. Experimentos abrangentes e análises em tarefas de raciocínio matemático e de senso comum demonstram a eficácia do nosso método. O código estará disponível em https://github.com/Raibows/Learn-to-Reason.
Modelos de linguagem de grande escala (LLMs) têm demonstrado poderosas capacidades de tomada de decisão e planejamento na resolução de problemas complexos do mundo real. Agentes autônomos baseados em LLMs podem interagir com diversas ferramentas (por exemplo, APIs funcionais) e gerar planos de solução que executam uma série de chamadas de funções de API de maneira passo a passo. A multiplicidade de chamadas de funções de API candidatas expande significativamente o espaço de ação, ampliando a necessidade crítica de uma navegação eficiente nesse espaço. No entanto, os métodos existentes ou lutam com uma exploração unidirecional em espaços de ação expansivos, ficando presos em uma solução localmente ótima, ou sofrem com a travessia exaustiva de todas as ações potenciais, resultando em uma navegação ineficiente. Para resolver esses problemas, propomos o ToolChain*, um algoritmo de planejamento baseado em busca em árvore eficiente para agentes baseados em LLMs. Ele formula todo o espaço de ação como uma árvore de decisão, onde cada nó representa uma possível chamada de função de API envolvida em um plano de solução. Ao incorporar o algoritmo de busca A* com um design de função de custo específico para a tarefa, ele poda eficientemente ramos de alto custo que podem envolver ações incorretas, identificando o caminho válido de menor custo como a solução. Experimentos extensivos em múltiplas tarefas de uso de ferramentas e raciocínio demonstram que o ToolChain* equilibra eficientemente a exploração e a exploração dentro de um espaço de ação expansivo. Ele supera os baselines state-of-the-art em tarefas de planejamento e raciocínio em 3,1% e 3,5% em média, enquanto requer 7,35x e 2,31x menos tempo, respectivamente.
Métodos baseados em difusão têm alcançado sucesso notável na geração de mídias 2D. No entanto, atingir proficiências semelhantes para texturização de malhas em nível de cena em aplicações espaciais 3D, como XR/VR, ainda é limitado, principalmente devido à natureza complexa da geometria 3D e à necessidade de renderização imersiva de pontos de vista livres. Neste artigo, propomos uma nova estrutura de texturização de cenas internas, que oferece geração de texturas orientada por texto com detalhes encantadores e coerência espacial autêntica. A ideia principal é primeiro imaginar uma textura panorâmica estilizada de 360° a partir do ponto de vista central da cena e, em seguida, propagá-la para as demais áreas com técnicas de preenchimento e imitação. Para garantir texturas significativas e alinhadas à cena, desenvolvemos uma nova abordagem de geração de texturas panorâmicas de grosseiro a refinado com alinhamento duplo de texturas, que considera tanto a geometria quanto as pistas de textura das cenas capturadas. Para lidar com geometrias desordenadas durante a propagação de texturas, projetamos uma estratégia separada, que realiza o preenchimento de texturas em regiões confidenciais e, em seguida, aprende uma rede de imitação implícita para sintetizar texturas em áreas ocluídas e de estruturas pequenas. Experimentos extensivos e a aplicação imersiva de VR em cenas internas do mundo real demonstram a alta qualidade das texturas geradas e a experiência envolvente em headsets de VR. Página do projeto: https://ybbbbt.com/publication/dreamspace
Modelos de linguagem de grande escala (LLMs) podem executar uma ampla gama de tarefas seguindo instruções em linguagem natural, sem a necessidade de ajuste fino específico para cada tarefa. Infelizmente, o desempenho dos LLMs é fortemente influenciado pela qualidade dessas instruções, e a escrita manual de instruções eficazes para cada tarefa é um processo trabalhoso e subjetivo. Neste artigo, apresentamos o Auto-Instruct, um método inovador para melhorar automaticamente a qualidade das instruções fornecidas aos LLMs. Nosso método aproveita a capacidade inerente de geração dos LLMs para produzir diversas instruções candidatas para uma determinada tarefa e, em seguida, as classifica usando um modelo de pontuação treinado em uma variedade de 575 tarefas existentes de PLN. Em experimentos com 118 tarefas fora do domínio, o Auto-Instruct supera tanto as instruções escritas por humanos quanto as linhas de base existentes de instruções geradas por LLMs. Além disso, nosso método exibe uma generalização notável, mesmo com outros LLMs que não foram incorporados ao seu processo de treinamento.
A capacidade de autoaperfeiçoamento dos grandes modelos de linguagem (LLMs), possibilitada por instruí-los a analisar e revisar suas próprias saídas, tem atraído um interesse significativo em pesquisas recentes. No entanto, essa capacidade tem se mostrado ausente e difícil de ser aprendida por modelos menores, ampliando assim a lacuna de desempenho entre os LLMs de última geração e aqueles mais econômicos e rápidos. Para reduzir essa lacuna, apresentamos o TriPosT, um algoritmo de treinamento que confere a modelos menores essa capacidade de autoaperfeiçoamento, e demonstramos que nossa abordagem pode melhorar o desempenho de um LLaMA-7b em tarefas de matemática e raciocínio em até 7,13%. Diferentemente de trabalhos anteriores, alcançamos isso fazendo com que o modelo menor interaja com LLMs para coletar feedback e melhorias em suas próprias gerações. Em seguida, reproduzimos essa experiência para treinar o modelo menor. Nossos experimentos em quatro conjuntos de dados de matemática e raciocínio mostram que a experiência interativa de aprender com e corrigir seus próprios erros é crucial para que modelos menores melhorem seu desempenho.
O uso de ferramentas é uma marca registrada da inteligência avançada, exemplificada tanto no comportamento animal quanto nas capacidades robóticas. Este artigo investiga a viabilidade de dotar robôs com a capacidade de usar ferramentas de forma criativa em tarefas que envolvem restrições físicas implícitas e planejamento de longo prazo. Aproveitando os Modelos de Linguagem de Grande Escala (LLMs), desenvolvemos o RoboTool, um sistema que aceita instruções em linguagem natural e gera código executável para controlar robôs em ambientes simulados e no mundo real. O RoboTool incorpora quatro componentes fundamentais: (i) um "Analisador" que interpreta a linguagem natural para discernir conceitos-chave relacionados à tarefa, (ii) um "Planejador" que gera estratégias abrangentes com base na entrada de linguagem e nos conceitos-chave, (iii) um "Calculador" que computa parâmetros para cada habilidade, e (iv) um "Codificador" que traduz esses planos em código Python executável. Nossos resultados mostram que o RoboTool não apenas compreende restrições físicas explícitas ou implícitas e fatores ambientais, mas também demonstra o uso criativo de ferramentas. Diferente dos métodos tradicionais de Planejamento de Tarefas e Movimentos (TAMP) que dependem de otimização explícita, nosso sistema baseado em LLM oferece uma solução mais flexível, eficiente e amigável para tarefas robóticas complexas. Através de extensos experimentos, validamos que o RoboTool é proficiente em lidar com tarefas que seriam inviáveis sem o uso criativo de ferramentas, expandindo assim as capacidades dos sistemas robóticos. Demonstrações estão disponíveis em nossa página do projeto: https://creative-robotool.github.io/.
O ajuste fino de instruções em modelos de linguagem de grande escala (LLMs) de código aberto, como o LLaMA, utilizando saídas diretas de LLMs mais poderosos, como o Instruct-GPT e o GPT-4, mostrou-se uma maneira eficiente em termos de custo para alinhar os comportamentos dos modelos com as preferências humanas. No entanto, o modelo ajustado por instruções viu apenas uma resposta por instrução, carecendo do conhecimento de respostas potencialmente melhores. Neste artigo, propomos o ajuste fino de um LLM ajustado por instruções utilizando nossas novas abordagens de classificação probabilística e classificação contextual para aumentar a probabilidade de gerar respostas melhores. A classificação probabilística permite que o modelo ajustado por instruções herde as classificações relativas de respostas de alta e baixa qualidade do LLM professor. Por outro lado, o aprendizado com classificação contextual permite que o modelo refine sua própria distribuição de respostas utilizando a capacidade de compreensão contextual de LLMs mais fortes. Além disso, aplicamos a classificação probabilística e a classificação contextual sequencialmente ao LLM ajustado por instruções. O modelo resultante, que chamamos de Tuna, melhora consistentemente o desempenho em Super Natural Instructions (119 tarefas de teste), LMentry (25 tarefas de teste), Vicuna QA, e pode até obter resultados melhores do que várias linhas de base fortes de aprendizado por reforço. Nosso código e dados estão disponíveis em https://github.com/microsoft/LMOps.
Os Modelos de Linguagem de Grande Escala (LLMs) representam uma revolução na IA. No entanto, eles também apresentam muitos riscos significativos, como a presença de textos tendenciosos, privados, protegidos por direitos autorais ou prejudiciais. Por esse motivo, precisamos de soluções abertas, transparentes e seguras. Apresentamos um ecossistema completo de código aberto para o desenvolvimento e teste de LLMs. O objetivo deste projeto é impulsionar alternativas abertas às abordagens de código fechado. Lançamos o h2oGPT, uma família de LLMs ajustados com precisão, variando de 7 a 70 bilhões de parâmetros. Também introduzimos o H2O LLM Studio, uma estrutura e interface gráfica sem código projetada para o ajuste fino, avaliação e implantação eficientes de LLMs, utilizando as técnicas mais recentes e avançadas. Nosso código e modelos são licenciados sob licenças totalmente permissivas Apache 2.0. Acreditamos que os modelos de linguagem de código aberto ajudam a impulsionar o desenvolvimento da IA, tornando-a mais acessível e confiável. A demonstração está disponível em: https://gpt.h2o.ai/
O pré-treinamento de imagem-texto em conjuntos de dados de legendas de imagens em escala da web tornou-se a abordagem padrão para modelos de classificação e recuperação de vocabulário aberto, graças ao sucesso do CLIP e suas variantes. Vários trabalhos também utilizaram características do CLIP para tarefas de predição densa e demonstraram o surgimento de habilidades de conjunto aberto. No entanto, o objetivo contrastivo foca apenas no alinhamento imagem-texto e não incentiva o aprendizado de características de imagem para tarefas de predição densa. Neste trabalho, propomos a simples adição de aprendizado de correspondência local-global por auto-distilação como um objetivo adicional para o pré-treinamento contrastivo, apresentando o SILC. Mostramos que a destilação de características locais de imagem a partir de um modelo professor de média móvel exponencial (EMA) melhora significativamente o desempenho do modelo em várias tarefas de visão computacional, incluindo classificação, recuperação e, especialmente, segmentação. Além disso, demonstramos que o SILC escala melhor com a mesma duração de treinamento em comparação com as linhas de base. Nosso modelo SILC estabelece um novo estado da arte para classificação zero-shot, classificação com poucos exemplos, recuperação de imagem e texto, segmentação zero-shot e segmentação de vocabulário aberto.
O aprendizado por reforço com feedback humano (RLHF) é uma técnica popular para treinar assistentes de IA de alta qualidade. No entanto, o RLHF também pode incentivar respostas do modelo que se alinham às crenças do usuário em vez de respostas verdadeiras, um comportamento conhecido como sicofância. Investigamos a prevalência da sicofância em modelos treinados com RLHF e se os julgamentos de preferência humana são responsáveis por isso. Primeiro, demonstramos que cinco assistentes de IA de última geração exibem consistentemente comportamento sicofântico em quatro tarefas variadas de geração de texto livre. Para entender se as preferências humanas impulsionam esse comportamento amplamente observado em modelos RLHF, analisamos dados existentes de preferência humana. Descobrimos que, quando uma resposta corresponde às visões de um usuário, é mais provável que seja preferida. Além disso, tanto humanos quanto modelos de preferência (PMs) preferem respostas sicofânticas convincentemente escritas em vez de respostas corretas em uma fração insignificante do tempo. Otimizar as saídas do modelo contra PMs também às vezes sacrifica a veracidade em favor da sicofância. No geral, nossos resultados indicam que a sicofância é um comportamento geral dos modelos RLHF, provavelmente impulsionado em parte por julgamentos de preferência humana que favorecem respostas sicofânticas.
Nos modelos de difusão, a UNet é a arquitetura de rede mais popular, pois suas conexões de salto longo (LSCs, do inglês Long Skip Connects) que ligam blocos distantes da rede podem agregar informações de longa distância e aliviar o problema do gradiente que desaparece. Infelizmente, a UNet frequentemente sofre com instabilidade durante o treinamento em modelos de difusão, o que pode ser mitigado ao reduzir os coeficientes das LSCs. No entanto, ainda faltam entendimentos teóricos sobre a instabilidade da UNet em modelos de difusão e também sobre a melhoria de desempenho proporcionada pelo ajuste dos coeficientes das LSCs. Para resolver esse problema, demonstramos teoricamente que os coeficientes das LSCs na UNet têm um grande impacto na estabilidade da propagação direta e reversa, bem como na robustez da UNet. Especificamente, as características ocultas e o gradiente da UNet em qualquer camada podem oscilar, e suas faixas de oscilação são, na verdade, amplas, o que explica a instabilidade do treinamento da UNet. Além disso, a UNet também é comprovadamente sensível a entradas perturbadas e prevê uma saída distante da saída desejada, resultando em perda oscilatória e, consequentemente, em gradiente oscilatório. Além disso, também observamos os benefícios teóricos do ajuste dos coeficientes das LSCs da UNet na estabilidade das características ocultas, do gradiente e também na robustez. Por fim, inspirados por nossa teoria, propomos uma estrutura eficaz de ajuste de coeficientes chamada ScaleLong, que ajusta os coeficientes das LSCs na UNet e melhora a estabilidade do treinamento da UNet. Resultados experimentais em quatro conjuntos de dados famosos mostram que nossos métodos são superiores para estabilizar o treinamento e proporcionam uma aceleração de cerca de 1,5x no treinamento em diferentes modelos de difusão com backbones UNet ou UViT. Código: https://github.com/sail-sg/ScaleLong