Artigos de pesquisa em IA selecionados diariamente com traduções
À medida que os modelos de linguagem de grande escala avançam, há um interesse crescente em técnicas que aproveitam as capacidades desses modelos para refinar suas próprias saídas. Neste trabalho, apresentamos o Shepherd, um modelo de linguagem especificamente ajustado para criticar respostas e sugerir refinamentos, indo além das capacidades de um modelo não ajustado para identificar diversos erros e fornecer sugestões para corrigi-los. No centro de nossa abordagem está um conjunto de dados de feedback de alta qualidade, que curamos a partir de feedback da comunidade e anotações humanas. Embora o Shepherd seja pequeno (7 bilhões de parâmetros), suas críticas são equivalentes ou preferidas em relação às de modelos estabelecidos, incluindo o ChatGPT. Usando o GPT-4 para avaliação, o Shepherd alcança uma taxa média de vitória de 53-87% em comparação com alternativas competitivas. Na avaliação humana, o Shepherd supera estritamente outros modelos e, em média, fica muito próximo do ChatGPT.
A geração de música tem atraído interesse crescente com o avanço dos modelos generativos profundos. No entanto, gerar música condicionada a descrições textuais, conhecida como texto-para-música, continua sendo um desafio devido à complexidade das estruturas musicais e aos requisitos de alta taxa de amostragem. Apesar da importância da tarefa, os modelos generativos predominantes apresentam limitações em qualidade musical, eficiência computacional e generalização. Este artigo apresenta o JEN-1, um modelo universal de alta fidelidade para geração de texto-para-música. O JEN-1 é um modelo de difusão que incorpora treinamento tanto autoregressivo quanto não autoregressivo. Por meio de aprendizado em contexto, o JEN-1 realiza várias tarefas de geração, incluindo geração de música guiada por texto, preenchimento de música e continuação. As avaliações demonstram o desempenho superior do JEN-1 em relação aos métodos mais avançados em alinhamento texto-música e qualidade musical, mantendo a eficiência computacional. Nossas demonstrações estão disponíveis em http://futureverse.com/research/jen/demos/jen1.
Os recentes avanços com modelos de linguagem de grande escala (LLM) ilustram suas diversas capacidades. Propomos um novo algoritmo, a decodificação especulativa em estágios, para acelerar a inferência de LLM em cenários de pequenos lotes e em dispositivos locais. Abordamos a baixa intensidade aritmética da inferência em pequenos lotes aprimorando trabalhos anteriores em decodificação especulativa. Primeiro, reestruturamos o lote especulativo como uma árvore, o que reduz os custos de geração e aumenta o número esperado de tokens por lote. Segundo, adicionamos um segundo estágio de decodificação especulativa. Em conjunto, reduzimos a latência de decodificação de um único lote em 3,16x com um modelo GPT-2-L de 762M de parâmetros, preservando perfeitamente a qualidade da saída.
Falsos negativos (FN) na detecção de objetos 3D, {\em por exemplo}, previsões ausentes de pedestres, veículos ou outros obstáculos, podem levar a situações potencialmente perigosas na condução autônoma. Embora seja um problema crítico, ele é pouco estudado em muitos métodos atuais de detecção 3D. Neste trabalho, propomos o Hard Instance Probing (HIP), um pipeline geral que identifica FN de maneira multiestágio e orienta os modelos a se concentrarem na extração de instâncias difíceis. Para a detecção de objetos 3D, instanciamos esse método como FocalFormer3D, um detector simples, porém eficaz, que se destaca na extração de objetos difíceis e na melhoria da taxa de recall das previsões. O FocalFormer3D apresenta uma geração de consultas multiestágio para descobrir objetos difíceis e um decodificador transformer em nível de caixa para distinguir eficientemente objetos de um grande número de candidatos. Resultados experimentais nos conjuntos de dados nuScenes e Waymo validam o desempenho superior do FocalFormer3D. Essa vantagem resulta em um forte desempenho tanto na detecção quanto no rastreamento, tanto em configurações LiDAR quanto multimodais. Notavelmente, o FocalFormer3D alcança 70,5 mAP e 73,9 NDS no benchmark de detecção do nuScenes, enquanto o benchmark de rastreamento do nuScenes mostra 72,1 AMOTA, ambos ocupando o 1º lugar no leaderboard LiDAR do nuScenes. Nosso código está disponível em https://github.com/NVlabs/FocalFormer3D.