Artigos de pesquisa em IA selecionados diariamente com traduções
Imagine um desenvolvedor que só pode alterar a última linha de código que escreveu. Com que frequência ele precisaria começar a escrever uma função do zero antes de acertá-la? Modelos autorregressivos para geração de código a partir de linguagem natural têm uma limitação semelhante: eles não permitem reconsiderar facilmente os tokens gerados anteriormente. Apresentamos o CodeFusion, um modelo de geração de código baseado em difusão pré-treinado que aborda essa limitação ao desnudar iterativamente um programa completo condicionado à linguagem natural codificada. Avaliamos o CodeFusion na tarefa de geração de código a partir de linguagem natural para Bash, Python e regras de formatação condicional (CF) do Microsoft Excel. Os experimentos mostram que o CodeFusion (75 milhões de parâmetros) tem desempenho equivalente aos sistemas autorregressivos de última geração (350 milhões a 175 bilhões de parâmetros) em precisão top-1 e os supera em precisão top-3 e top-5 devido ao seu melhor equilíbrio entre diversidade e qualidade.
Neste artigo, exploramos formatos de dados de baixa precisão FP8 para o treinamento eficiente de modelos de linguagem de grande escala (LLMs). Nossa principal percepção é que a maioria das variáveis, como gradientes e estados do otimizador, no treinamento de LLMs pode empregar formatos de dados de baixa precisão sem comprometer a precisão do modelo e sem exigir alterações nos hiperparâmetros. Especificamente, propomos um novo framework de precisão mista automática FP8 para treinamento de LLMs. Este framework oferece três níveis de utilização de FP8 para simplificar o treinamento de precisão mista e paralelo distribuído para LLMs. Ele incorpora gradualmente gradientes de 8 bits, estados do otimizador e aprendizado distribuído de maneira incremental. Os resultados dos experimentos mostram que, durante o treinamento do modelo GPT-175B na plataforma GPU H100, nosso framework de treinamento de precisão mista FP8 não apenas alcançou uma redução notável de 42% no uso real de memória, mas também foi 64% mais rápido do que o amplamente adotado framework BF16 (ou seja, Megatron-LM), superando a velocidade do Nvidia Transformer Engine em 17%. Isso reduz substancialmente os custos de treinamento para grandes modelos de base. Além disso, nossa metodologia de treinamento de precisão mista FP8 é genérica. Ela pode ser aplicada de forma contínua a outras tarefas, como ajuste fino de instruções de LLMs e aprendizado por reforço com feedback humano, oferecendo economia nos custos de ajuste fino. Nosso framework de treinamento de baixa precisão FP8 está disponível em código aberto em {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
Apresentamos o ControlLLM, uma nova estrutura que permite que modelos de linguagem de grande escala (LLMs) utilizem ferramentas multimodais para resolver tarefas complexas do mundo real. Apesar do desempenho notável dos LLMs, eles ainda enfrentam dificuldades com a invocação de ferramentas devido a prompts de usuário ambíguos, seleção e parametrização imprecisa de ferramentas e agendamento ineficiente de ferramentas. Para superar esses desafios, nossa estrutura é composta por três componentes principais: (1) um decompositor de tarefas que divide uma tarefa complexa em subtarefas claras com entradas e saídas bem definidas; (2) um paradigma de Pensamentos-em-Grafo (ToG) que busca o caminho de solução ótimo em um grafo de ferramentas pré-construído, o qual especifica as relações de parâmetros e dependências entre diferentes ferramentas; e (3) um motor de execução com uma caixa de ferramentas rica que interpreta o caminho de solução e executa as ferramentas de forma eficiente em diferentes dispositivos computacionais. Avaliamos nossa estrutura em diversas tarefas envolvendo processamento de imagens, áudio e vídeo, demonstrando sua superioridade em precisão, eficiência e versatilidade em comparação com métodos existentes.
O aprendizado no dispositivo e o ajuste fino eficiente permitem a personalização contínua e preservadora de privacidade (por exemplo, ajustar localmente grandes modelos de linguagem em dados personalizados). No entanto, os frameworks de treinamento existentes são projetados para servidores em nuvem com aceleradores poderosos (por exemplo, GPUs, TPUs) e carecem de otimizações para o aprendizado na borda, que enfrenta desafios de limitações de recursos e diversidade de hardware de borda. Apresentamos o PockEngine: um motor pequeno, esparso e eficiente para permitir o ajuste fino em diversos dispositivos de borda. O PockEngine suporta retropropagação esparsa: ele poda o grafo de retropropagação e atualiza esparsamente o modelo com economia de memória e redução de latência medidas, mantendo a qualidade do modelo. Em segundo lugar, o PockEngine é orientado para compilação: todo o grafo de treinamento (incluindo passos de propagação direta, retropropagação e otimização) é derivado em tempo de compilação, o que reduz a sobrecarga de tempo de execução e traz oportunidades para transformações de grafo. O PockEngine também integra um conjunto rico de otimizações de grafo de treinamento, podendo assim acelerar ainda mais o custo de treinamento, incluindo reordenação de operadores e troca de backends. O PockEngine suporta diversas aplicações, frontends e backends de hardware: ele compila e ajusta modelos definidos em PyTorch/TensorFlow/Jax de forma flexível e implanta binários em CPUs/GPUs/DSPs móveis. Avaliamos o PockEngine tanto em modelos de visão quanto em grandes modelos de linguagem. O PockEngine alcança até 15 vezes mais velocidade em comparação com o TensorFlow padrão (Raspberry Pi) e 5,6 vezes mais economia de memória na retropropagação (Jetson AGX Orin). Notavelmente, o PockEngine permite ajustar o LLaMav2-7B no NVIDIA Jetson AGX Orin a 550 tokens/s, 7,9 vezes mais rápido que o PyTorch.
Modelos de linguagem de grande escala (LLMs) mostram potencial para tarefas de processamento de linguagem natural, mas enfrentam dificuldades quando aplicados diretamente a domínios complexos como finanças. Os LLMs têm dificuldade em raciocinar e integrar todas as informações relevantes. Propomos uma abordagem centrada em dados para permitir que os LLMs lidem melhor com tarefas financeiras. Nossa principal percepção é que, em vez de sobrecarregar o LLM com tudo de uma vez, é mais eficaz pré-processar e pré-compreender os dados. Criamos um LLM financeiro (FLLM) usando ajuste fino baseado em prompts multitarefa para alcançar o pré-processamento e pré-compreensão dos dados. No entanto, dados rotulados são escassos para cada tarefa. Para superar os custos de anotação manual, empregamos o raciocínio de aumento abdutivo (AAR) para gerar automaticamente dados de treinamento, modificando os rótulos pseudo a partir das próprias saídas do FLLM. Experimentos mostram que nosso FLLM centrado em dados com AAR supera substancialmente os LLMs financeiros de linha de base projetados para texto bruto, alcançando o estado da arte em tarefas de análise e interpretação financeira. Também disponibilizamos publicamente um novo benchmark para análise e interpretação financeira. Nossa metodologia oferece um caminho promissor para desbloquear o potencial dos LLMs em domínios complexos do mundo real.
Apresentamos um framework para a medição automatizada de métricas de IA responsável (RAI) para modelos de linguagem de grande escala (LLMs) e produtos e serviços associados. Nosso framework para medir automaticamente os danos causados por LLMs se baseia em conhecimentos técnicos e sociotécnicos existentes e aproveita as capacidades de LLMs de última geração, como o GPT-4. Utilizamos esse framework para conduzir vários estudos de caso que investigam como diferentes LLMs podem violar uma variedade de princípios relacionados à RAI. O framework pode ser empregado em conjunto com expertise sociotécnica específica de domínio para criar medições de novas áreas de dano no futuro. Ao implementar esse framework, nosso objetivo é permitir esforços mais avançados de medição de danos e promover o uso responsável de LLMs.
Apresentamos o ZeroNVS, um modelo de difusão 3D para síntese de novas visões a partir de uma única imagem em cenas do mundo real. Enquanto os métodos existentes são projetados para objetos individuais com fundos mascarados, propomos novas técnicas para abordar os desafios introduzidos por cenas do mundo real com múltiplos objetos e fundos complexos. Especificamente, treinamos um prior generativo em uma mistura de fontes de dados que capturam cenas centradas em objetos, ambientes internos e externos. Para resolver problemas decorrentes da mistura de dados, como ambiguidade na escala de profundidade, propomos uma nova parametrização de condicionamento de câmera e um esquema de normalização. Além disso, observamos que a Amostragem por Destilação de Pontuação (SDS) tende a truncar a distribuição de fundos complexos durante a destilação de cenas de 360 graus, e propomos a "ancoragem SDS" para melhorar a diversidade das novas visões sintetizadas. Nosso modelo estabelece um novo estado da arte em LPIPS no conjunto de dados DTU na configuração zero-shot, superando até mesmo métodos treinados especificamente no DTU. Adaptamos ainda o desafiador conjunto de dados Mip-NeRF 360 como um novo benchmark para síntese de novas visões a partir de uma única imagem, e demonstramos um desempenho robusto nesse cenário. Nosso código e dados estão disponíveis em http://kylesargent.github.io/zeronvs/.
Neural Radiance Fields (NeRFs) têm se mostrado representações 3D poderosas, capazes de sintetizar novas visões de alta qualidade em cenas complexas. Embora os NeRFs tenham sido aplicados em gráficos, visão e robótica, problemas com a lentidão na renderização e artefatos visuais característicos impedem sua adoção em muitos casos de uso. Neste trabalho, investigamos a combinação de um autoencoder (AE) com um NeRF, no qual características latentes (em vez de cores) são renderizadas e então decodificadas de forma convolucional. O NeRF no espaço latente resultante pode produzir novas visões com qualidade superior aos NeRFs padrão no espaço de cores, já que o AE pode corrigir certos artefatos visuais, enquanto renderiza mais de três vezes mais rápido. Nosso trabalho é ortogonal a outras técnicas para melhorar a eficiência dos NeRFs. Além disso, podemos controlar a relação entre eficiência e qualidade da imagem ao reduzir a arquitetura do AE, alcançando uma renderização mais de 13 vezes mais rápida com apenas uma pequena queda no desempenho. Esperamos que nossa abordagem possa formar a base de uma representação 3D eficiente, porém de alta fidelidade, para tarefas subsequentes, especialmente quando a retenção da diferenciabilidade é útil, como em muitos cenários de robótica que exigem aprendizado contínuo.
Demonstramos que grandes modelos de linguagem (LLMs, do inglês Large Language Models) podem ser adaptados para se tornarem políticas generalizáveis para tarefas visuais corporificadas. Nossa abordagem, denominada Large LAnguage model Reinforcement Learning Policy (LLaRP), adapta um LLM pré-treinado e congelado para receber como entrada instruções textuais e observações visuais egocêntricas, e gerar ações diretamente no ambiente. Utilizando aprendizado por reforço, treinamos o LLaRP para ver e agir exclusivamente por meio de interações ambientais. Mostramos que o LLaRP é robusto a paráfrases complexas de instruções de tarefas e pode generalizar para novas tarefas que exigem comportamentos ótimos inéditos. Em particular, em 1.000 tarefas não vistas, ele alcança uma taxa de sucesso de 42%, 1,7 vezes a taxa de sucesso de outras abordagens comuns de aprendizado ou aplicações zero-shot de LLMs. Por fim, para auxiliar a comunidade no estudo de problemas de IA corporificada, condicionada por linguagem e de múltiplas tarefas, lançamos um novo benchmark, chamado Language Rearrangement, composto por 150.000 tarefas de treinamento e 1.000 tarefas de teste para rearranjo condicionado por linguagem. Exemplos em vídeo do LLaRP em instruções não vistas do Language Rearrangement estão disponíveis em https://llm-rl.github.io.
Modelos de Linguagem de Grande Escala (LLMs) são treinados em vastas quantidades de texto da internet, que contêm tanto informações factuais quanto enganosas sobre o mundo. Será que os modelos de linguagem conseguem discernir a verdade da falsidade nesses dados contraditórios? Expandindo a visão de que os LLMs podem modelar diferentes agentes que produzem os corpora, nós hipotetizamos que eles podem agrupar textos verdadeiros ao modelar uma persona verídica: um grupo de agentes que têm maior probabilidade de produzir textos verdadeiros e compartilham características semelhantes. Por exemplo, fontes confiáveis como a Wikipedia e a Science geralmente usam estilos de escrita formal e fazem afirmações consistentes. Ao modelar essa persona, os LLMs podem generalizar a veracidade além dos contextos específicos em que cada agente gerou o texto de treinamento. Por exemplo, o modelo pode inferir que o agente "Wikipedia" se comportará de maneira verídica em tópicos que foram gerados apenas pela "Science", pois eles compartilham uma persona. Primeiro, mostramos evidências para a hipótese da persona por meio de duas observações: (1) podemos sondar se a resposta de um modelo será verdadeira antes de ela ser gerada; (2) ajustar um modelo em um conjunto de fatos melhora sua veracidade em tópicos não vistos. Em seguida, usando aritmética como um ambiente sintético, mostramos que os modelos de linguagem conseguem separar afirmações verdadeiras e falsas e generalizar a veracidade entre agentes; mas apenas se os agentes nos dados de treinamento compartilharem um processo gerativo verídico que permita a criação de uma persona verídica. No geral, nossas descobertas sugerem que os modelos podem explorar estruturas hierárquicas nos dados para aprender conceitos abstratos como a veracidade.