Artigos de pesquisa em IA selecionados diariamente com traduções
A geração de texto para 3D, que visa sintetizar objetos 3D vívidos a partir de prompts de texto, tem atraído muita atenção da comunidade de visão computacional. Embora vários trabalhos existentes tenham alcançado resultados impressionantes para essa tarefa, eles dependem principalmente de um paradigma de otimização demorado. Especificamente, esses métodos otimizam um campo neural do zero para cada prompt de texto, levando aproximadamente uma hora ou mais para gerar um objeto. Esse custo pesado e repetitivo de treinamento impede sua implantação prática. Neste artigo, propomos uma nova estrutura para geração rápida de texto para 3D, chamada Instant3D. Uma vez treinado, o Instant3D é capaz de criar um objeto 3D para um prompt de texto não visto em menos de um segundo com uma única execução de uma rede feedforward. Alcançamos essa velocidade notável ao projetar uma nova rede que constrói diretamente um triplano 3D a partir de um prompt de texto. A inovação central do nosso Instant3D reside na nossa exploração de estratégias para injetar efetivamente condições de texto na rede. Além disso, propomos uma função de ativação simples, porém eficaz, a sigmoide escalonada, para substituir a função sigmoide original, o que acelera a convergência do treinamento em mais de dez vezes. Por fim, para abordar o problema de Janus (multi-cabeça) na geração 3D, propomos um algoritmo Perp-Neg adaptativo que pode ajustar dinamicamente suas escalas de negação de conceito de acordo com a gravidade do problema de Janus durante o treinamento, reduzindo efetivamente o efeito multi-cabeça. Experimentos extensos em uma ampla variedade de conjuntos de dados de referência demonstram que o algoritmo proposto se sai favoravelmente em comparação com os métodos state-of-the-art tanto qualitativa quanto quantitativamente, enquanto alcança uma eficiência significativamente melhor. A página do projeto está em https://ming1993li.github.io/Instant3DProj.
Os recentes avanços na geração de objetos 3D em mundos abertos têm sido notáveis, com métodos de imagem-para-3D oferecendo um controle refinado superior em comparação com suas contrapartes texto-para-3D. No entanto, a maioria dos modelos existentes não consegue fornecer simultaneamente velocidades rápidas de geração e alta fidelidade às imagens de entrada - duas características essenciais para aplicações práticas. Neste artigo, apresentamos o One-2-3-45++, um método inovador que transforma uma única imagem em uma malha 3D texturizada detalhada em aproximadamente um minuto. Nossa abordagem visa aproveitar ao máximo o conhecimento extensivo incorporado em modelos de difusão 2D e prioridades de dados 3D valiosos, porém limitados. Isso é alcançado inicialmente ajustando um modelo de difusão 2D para a geração consistente de imagens multi-visão, seguido pela elevação dessas imagens para 3D com a ajuda de modelos de difusão 3D nativos condicionados por multi-visão. Avaliações experimentais extensivas demonstram que nosso método pode produzir ativos 3D de alta qualidade e diversificados que espelham de perto a imagem de entrada original. Nossa página do projeto: https://sudo-ai-3d.github.io/One2345plus_page.
A fluência e criatividade dos grandes modelos de linguagem pré-treinados (LLMs) levaram ao seu uso generalizado, às vezes até como substitutos para os mecanismos de busca tradicionais. No entanto, os modelos de linguagem tendem a fazer afirmações convincentes, mas factualmente imprecisas, frequentemente chamadas de 'alucinações'. Esses erros podem, inadvertidamente, espalhar desinformação ou perpetuar concepções errôneas de forma prejudicial. Além disso, a verificação manual de fatos nas respostas dos modelos é um processo demorado, tornando os rótulos de factualidade humana caros de obter. Neste trabalho, ajustamos modelos de linguagem para serem mais factuais, sem a necessidade de rotulagem humana e visando configurações de geração mais abertas do que trabalhos anteriores. Para isso, aproveitamos duas inovações recentes fundamentais em PLN. Primeiro, vários trabalhos recentes propuseram métodos para julgar a factualidade de textos abertos, medindo a consistência com uma base de conhecimento externa ou simplesmente as pontuações de confiança de um modelo grande. Segundo, o algoritmo de otimização de preferência direta permite o ajuste fino direto de modelos de linguagem em objetivos que não sejam a imitação supervisionada, utilizando uma classificação de preferência sobre possíveis respostas do modelo. Mostramos que aprender a partir de classificações de preferência de factualidade geradas automaticamente, seja por meio de sistemas de recuperação existentes ou de nossa nova abordagem sem recuperação, melhora significativamente a factualidade (percentual de afirmações geradas que estão corretas) do Llama-2 em tópicos retidos, em comparação com RLHF ou estratégias de decodificação voltadas para factualidade. Em escala de 7B, em comparação com o Llama-2-chat, observamos uma redução de 58% e 40% na taxa de erros factuais ao gerar biografias e responder a perguntas médicas, respectivamente.
Neste trabalho, realizamos uma revisão sistemática dos avanços recentes no processamento de código com modelos de linguagem, abrangendo mais de 50 modelos, 30 tarefas de avaliação e 500 trabalhos relacionados. Dividimos os modelos de processamento de código em modelos de linguagem geral, representados pela família GPT, e modelos especializados que são pré-treinados especificamente em código, frequentemente com objetivos personalizados. Discutimos as relações e diferenças entre esses modelos e destacamos a transição histórica da modelagem de código, desde modelos estatísticos e RNNs até Transformers pré-treinados e LLMs, seguindo exatamente o mesmo caminho que foi adotado pelo NLP. Também abordamos características específicas de código, como AST, CFG e testes unitários, juntamente com sua aplicação no treinamento de modelos de linguagem para código, e identificamos os principais desafios e direções futuras potenciais nesse domínio. Mantemos a pesquisa aberta e atualizada no repositório GitHub em https://github.com/codefuse-ai/Awesome-Code-LLM.
Uma capacidade central dos Modelos de Linguagem de Grande Escala (LLMs) é seguir instruções em linguagem natural. No entanto, a avaliação dessas habilidades não é padronizada: avaliações humanas são caras, lentas e não são objetivamente reproduzíveis, enquanto a autoavaliação baseada em LLMs é potencialmente tendenciosa ou limitada pela capacidade do LLM avaliador. Para superar esses problemas, introduzimos o Instruction-Following Eval (IFEval) para modelos de linguagem de grande escala. O IFEval é um benchmark de avaliação direto e fácil de reproduzir. Ele se concentra em um conjunto de "instruções verificáveis", como "escreva em mais de 400 palavras" e "mencione a palavra-chave de IA pelo menos 3 vezes". Identificamos 25 tipos dessas instruções verificáveis e construímos cerca de 500 prompts, com cada prompt contendo uma ou mais instruções verificáveis. Mostramos os resultados da avaliação de dois LLMs amplamente disponíveis no mercado. Nosso código e dados podem ser encontrados em https://github.com/google-research/google-research/tree/master/instruction_following_eval.
Demonstramos uma situação em que Modelos de Linguagem de Grande Escala, treinados para serem úteis, inofensivos e honestos, podem exibir comportamentos desalinhados e enganar estrategicamente seus usuários sobre esse comportamento sem serem instruídos a fazê-lo. Concretamente, implantamos o GPT-4 como um agente em um ambiente realista e simulado, onde ele assume o papel de um agente autônomo de negociação de ações. Dentro desse ambiente, o modelo obtém uma informação privilegiada sobre uma negociação de ações lucrativa e age com base nela, apesar de saber que o uso de informações privilegiadas é desaprovado pela administração da empresa. Ao reportar ao seu gerente, o modelo consistentemente oculta as razões genuínas por trás de sua decisão de negociação. Realizamos uma breve investigação de como esse comportamento varia sob mudanças no cenário, como remover o acesso do modelo a um bloco de notas para raciocínio, tentar prevenir o comportamento desalinhado alterando as instruções do sistema, mudar o nível de pressão sob o qual o modelo está, variar o risco percebido de ser pego e fazer outras alterações simples no ambiente. Até onde sabemos, esta é a primeira demonstração de Modelos de Linguagem de Grande Escala treinados para serem úteis, inofensivos e honestos, enganando estrategicamente seus usuários em uma situação realista sem instruções ou treinamento direto para enganar.
Neste trabalho, propomos o FastCoT, um framework independente de modelo baseado em decodificação paralela, sem a necessidade de treinamento adicional de um modelo auxiliar ou modificações no próprio LLM. O FastCoT utiliza uma janela de contexto de tamanho variável, cujo tamanho muda conforme a posição, para realizar decodificação paralela e decodificação autorregressiva simultaneamente, aproveitando ao máximo os recursos de computação da GPU. No FastCoT, a parte de decodificação paralela oferece ao LLM uma visão rápida do futuro composta por tokens aproximados, o que pode levar a respostas mais rápidas em comparação com a decodificação autorregressiva regular usada por transformadores causais. Também fornecemos uma implementação de decodificação paralela dentro do LLM, que suporta a geração de cache KV e processamento em lote. Por meio de experimentos extensivos, demonstramos que o FastCoT economiza quase 20% do tempo de inferência, com apenas uma queda de desempenho insignificante em comparação com a abordagem regular. Além disso, mostramos que o tamanho da janela de contexto exibe uma robustez considerável para diferentes tarefas.
Modelos de linguagem de grande escala (LLM) tornaram-se um componente crítico em muitas aplicações de aprendizado de máquina. No entanto, as abordagens padrão para treinar LLMs exigem um grande número de aceleradores fortemente interconectados, com dispositivos trocando gradientes e outros estados intermediários a cada etapa de otimização. Embora seja difícil construir e manter um único cluster de computação que hospede muitos aceleradores, pode ser mais fácil encontrar vários clusters de computação, cada um hospedando um número menor de dispositivos. Neste trabalho, propomos um algoritmo de otimização distribuído, Distributed Low-Communication (DiLoCo), que permite o treinamento de modelos de linguagem em ilhas de dispositivos mal conectados. A abordagem é uma variante da média federada, onde o número de passos internos é grande, o otimizador interno é o AdamW e o otimizador externo é o momento de Nesterov. No amplamente utilizado conjunto de dados C4, mostramos que o DiLoCo em 8 trabalhadores tem um desempenho tão bom quanto a otimização totalmente síncrona, enquanto se comunica 500 vezes menos. O DiLoCo exibe grande robustez à distribuição de dados de cada trabalhador. Ele também é robusto a recursos que se tornam indisponíveis ao longo do tempo e, inversamente, pode aproveitar de forma contínua recursos que se tornam disponíveis durante o treinamento.
Nos últimos anos, os Modelos de Linguagem de Grande Escala (LLMs) demonstraram habilidades generativas notáveis, mas será que podem julgar a qualidade de suas próprias gerações? Um conceito popular, conhecido como autorrefinamento, postula que os LLMs são capazes de detectar e corrigir erros em suas gerações quando solicitados. No entanto, evidências empíricas recentes apontam na direção oposta, sugerindo que os LLMs frequentemente têm dificuldade em identificar erros com precisão quando o raciocínio está envolvido. Para abordar essa questão, propomos um objetivo de raciocínio com refinamento chamado ART: Perguntar, Refinar e Confiar, que faz as perguntas necessárias para decidir quando um LLM deve refinar sua saída, e afirma ou retém a confiança em seu refinamento ao classificar o refinamento e a previsão inicial. Em duas tarefas de raciocínio em múltiplas etapas envolvendo problemas matemáticos (GSM8K) e respostas a perguntas (StrategyQA), o ART alcança um ganho de desempenho de +5 pontos em relação às linhas de base de autorrefinamento, enquanto utiliza um modelo muito menor como tomador de decisão. Também demonstramos o benefício de usar modelos menores para tomar decisões de refinamento como uma alternativa econômica ao ajuste fino de um modelo maior.
Recentemente, modelos de áudio-linguagem que seguem instruções têm recebido ampla atenção para interação de áudio com humanos. No entanto, a ausência de modelos de áudio pré-treinados capazes de lidar com diversos tipos de áudio e tarefas tem dificultado o progresso nesse campo. Consequentemente, a maioria dos trabalhos existentes só conseguiu suportar um conjunto limitado de capacidades de interação. Neste artigo, desenvolvemos o modelo Qwen-Audio e abordamos essa limitação ao escalonar o pré-treinamento de áudio-linguagem para cobrir mais de 30 tarefas e vários tipos de áudio, como fala humana, sons naturais, música e canções, para facilitar habilidades universais de compreensão de áudio. No entanto, o co-treinamento direto de todas as tarefas e conjuntos de dados pode levar a problemas de interferência, pois os rótulos textuais associados a diferentes conjuntos de dados exibem variações consideráveis devido a diferenças no foco da tarefa, idioma, granularidade da anotação e estrutura do texto. Para superar a interferência de um-para-muitos, projetamos cuidadosamente uma estrutura de treinamento multitarefa, condicionando uma sequência de tags hierárquicas ao decodificador para incentivar o compartilhamento de conhecimento e evitar interferências por meio de tags compartilhadas e especificadas, respectivamente. Notavelmente, o Qwen-Audio alcança desempenho impressionante em diversas tarefas de benchmark sem exigir ajuste fino específico para cada tarefa, superando seus concorrentes. Com base nas capacidades do Qwen-Audio, desenvolvemos ainda o Qwen-Audio-Chat, que permite a entrada de vários áudios e textos, possibilitando diálogos de múltiplas voltas e suportando diversos cenários centrados em áudio.
O red-teaming é uma prática comum para mitigar comportamentos inseguros em Modelos de Linguagem de Grande Escala (LLMs), que envolve avaliar minuciosamente os LLMs para identificar possíveis falhas e abordá-las com respostas responsáveis e precisas. Embora eficaz, o red-teaming manual é custoso, e o red-teaming automático existente normalmente descobre riscos de segurança sem resolvê-los. Neste artigo, propomos um método de Red-Teaming Automático Multi-Rodadas (MART), que incorpora tanto a escrita automática de prompts adversariais quanto a geração de respostas seguras, aumentando significativamente a escalabilidade do red-teaming e a segurança do LLM alvo. Especificamente, um LLM adversário e um LLM alvo interagem entre si de forma iterativa, onde o LLM adversário visa gerar prompts desafiadores que eliciam respostas inseguras do LLM alvo, enquanto o LLM alvo é ajustado com dados alinhados à segurança sobre esses prompts adversariais. Em cada rodada, o LLM adversário cria ataques melhores no LLM alvo atualizado, enquanto o LLM alvo também se aprimora por meio do ajuste fino de segurança. Em benchmarks de prompts adversariais, a taxa de violação de um LLM com alinhamento de segurança limitado reduz até 84,7% após 4 rodadas de MART, alcançando desempenho comparável a LLMs com extensa escrita de prompts adversariais. Notavelmente, a utilidade do modelo em prompts não adversariais permanece estável ao longo das iterações, indicando que o LLM alvo mantém um forte desempenho no seguimento de instruções.