Artigos de pesquisa em IA selecionados diariamente com traduções
A avaliação de Modelos de Linguagem de Grande Escala (LLMs) em cenários de resposta aberta é desafiadora, pois os benchmarks e métricas existentes não conseguem medi-los de forma abrangente. Para resolver esse problema, propomos ajustar finamente LLMs como juízes escaláveis (JudgeLM) para avaliar LLMs de maneira eficiente e eficaz em benchmarks de resposta aberta. Primeiro, propomos um conjunto de dados abrangente, em larga escala e de alta qualidade, contendo sementes de tarefas, respostas geradas por LLMs e julgamentos gerados pelo GPT-4 para ajustar finamente juízes de alto desempenho, além de um novo benchmark para avaliar os juízes. Treinamos o JudgeLM em diferentes escalas, de 7B, 13B a 33B parâmetros, e realizamos uma análise sistemática de suas capacidades e comportamentos. Em seguida, analisamos os principais vieses ao ajustar finamente um LLM como juiz, considerando-os como viés de posição, viés de conhecimento e viés de formato. Para abordar esses problemas, o JudgeLM introduz um conjunto de técnicas, incluindo aumento por troca, suporte de referência e remoção de referência, que claramente melhoram o desempenho do juiz. O JudgeLM obtém o desempenho de juiz mais avançado tanto no benchmark existente PandaLM quanto no nosso novo benchmark proposto. Nosso JudgeLM é eficiente, e o JudgeLM-7B precisa de apenas 3 minutos para julgar 5K amostras com 8 GPUs A100. O JudgeLM obtém alta concordância com o juiz professor, alcançando uma concordância superior a 90%, que até supera a concordância humano-humano. O JudgeLM também demonstra capacidades estendidas ao atuar como juiz de resposta única, modelos multimodais, múltiplas respostas e chat de múltiplos turnos.
Apresentamos o HyperFields, um método para gerar Campos de Radiação Neural (NeRFs) condicionados por texto com uma única passagem direta e (opcionalmente) algum ajuste fino. A chave da nossa abordagem são: (i) um hiperdinâmico, que aprende um mapeamento suave de embeddings de tokens de texto para o espaço de NeRFs; (ii) o treinamento de destilação de NeRF, que destila cenas codificadas em NeRFs individuais em um único hiperdinâmico. Essas técnicas permitem que uma única rede se ajuste a mais de cem cenas únicas. Demonstramos ainda que o HyperFields aprende um mapeamento mais geral entre texto e NeRFs e, consequentemente, é capaz de prever cenas novas dentro e fora da distribuição — seja de forma zero-shot ou com alguns passos de ajuste fino. O ajuste fino do HyperFields beneficia-se de uma convergência acelerada graças ao mapeamento geral aprendido e é capaz de sintetizar cenas novas de 5 a 10 vezes mais rápido do que os métodos existentes baseados em otimização neural. Nossos experimentos de ablação mostram que tanto a arquitetura dinâmica quanto a destilação de NeRF são críticas para a expressividade do HyperFields.
Propomos o decodificação controlada (CD, do inglês "controlled decoding"), um novo método de aprendizado por reforço off-policy para controlar a geração autoregressiva de modelos de linguagem em direção a resultados de alta recompensa. O CD resolve um problema de aprendizado por reforço off-policy por meio de uma função de valor para a recompensa, que chamamos de avaliador de prefixo. O avaliador de prefixo é utilizado no momento da inferência para direcionar a geração em direção a resultados de maior recompensa. Mostramos que o avaliador de prefixo pode ser treinado com dados (possivelmente) off-policy para prever a recompensa esperada quando a decodificação é continuada a partir de uma resposta parcialmente decodificada. Demonstramos empiricamente que o CD é eficaz como mecanismo de controle no corpus de conversas do Reddit. Também mostramos que a modularidade do design do CD torna possível controlar múltiplas recompensas, resolvendo efetivamente um problema de aprendizado por reforço multiobjetivo sem complexidade adicional. Por fim, mostramos que o CD pode ser aplicado de forma inovadora em blocos durante a inferência, novamente sem a necessidade de alterações no treinamento, essencialmente preenchendo a lacuna entre a popular estratégia best-of-K e o aprendizado por reforço em nível de token. Isso torna o CD uma abordagem promissora para o alinhamento de modelos de linguagem.
Modelos de linguagem de grande escala (LLMs) com centenas de bilhões de parâmetros têm impulsionado uma nova onda de aplicações empolgantes de IA. No entanto, eles são computacionalmente caros no momento da inferência. A esparsidade é uma abordagem natural para reduzir esse custo, mas os métodos existentes ou exigem um retreinamento dispendioso, ou precisam abrir mão da capacidade de aprendizado contextual dos LLMs, ou não resultam em aceleração do tempo real em hardware moderno. Nós hipotetizamos que a esparsidade contextual, que são conjuntos pequenos e dependentes da entrada de cabeças de atenção e parâmetros MLP que produzem aproximadamente a mesma saída que o modelo denso para uma determinada entrada, pode resolver esses problemas. Mostramos que a esparsidade contextual existe, que pode ser prevista com precisão, e que podemos explorá-la para acelerar a inferência de LLMs em tempo real sem comprometer a qualidade ou a capacidade de aprendizado contextual dos LLMs. Com base nessas descobertas, propomos o DejaVu, um sistema que utiliza um algoritmo de baixo custo para prever a esparsidade contextual em tempo real, dado as entradas para cada camada, juntamente com uma implementação assíncrona e consciente do hardware que acelera a inferência de LLMs. Validamos que o DejaVu pode reduzir a latência de inferência do OPT-175B em mais de 2X em comparação com o FasterTransformer, estado da arte, e em mais de 6X em comparação com a implementação amplamente utilizada do Hugging Face, sem comprometer a qualidade do modelo. O código está disponível em https://github.com/FMInference/DejaVu.