Artigos de pesquisa em IA selecionados diariamente com traduções
À medida que os Modelos de Linguagem de Grande Escala (LLMs) se tornam cada vez mais importantes em diversos domínios, os seguintes desafios ainda permanecem sem solução na aceleração da inferência de LLMs: (1) Atualização sincronizada de softmax parcial. A operação de softmax requer uma atualização sincronizada entre cada resultado parcial de softmax, resultando em uma sobrecarga de ~20% para o cálculo de atenção em LLMs. (2) Subutilização da computação de GEMM plana. A forma das matrizes que realizam GEMM na inferência de LLMs é plana, levando à subutilização da computação e a uma perda de desempenho superior a 50% após o preenchimento com zeros em projetos anteriores. (3) Perda de desempenho devido ao fluxo de dados estático. O desempenho do kernel em LLMs depende de diversas características dos dados de entrada, configurações de hardware, etc. Um fluxo de dados único e estático pode levar a uma perda de desempenho de 50,25% para GEMMs de diferentes formas na inferência de LLMs. Apresentamos o FlashDecoding++, um motor de inferência de LLMs rápido que suporta LLMs mainstream e back-ends de hardware. Para enfrentar os desafios mencionados, o FlashDecoding++ propõe de forma criativa: (1) Softmax assíncrono com valor máximo unificado. O FlashDecoding++ introduz uma técnica de valor máximo unificado para diferentes cálculos parciais de softmax, evitando a sincronização. (2) Otimização de GEMM plana com duplo buffer. O FlashDecoding++ aponta que GEMMs planas com diferentes formas enfrentam gargalos variados. Em seguida, técnicas como o duplo buffer são introduzidas. (3) Fluxo de dados heurístico com adaptação de recursos de hardware. O FlashDecoding++ otimiza heuristicamente o fluxo de dados utilizando diferentes recursos de hardware, considerando a dinâmica da entrada. Devido à versatilidade das otimizações no FlashDecoding++, ele pode alcançar acelerações de até 4,86x e 2,18x em GPUs NVIDIA e AMD, respectivamente, em comparação com as implementações do Hugging Face. O FlashDecoding++ também alcança uma aceleração média de 1,37x em relação aos motores de inferência de LLMs state-of-the-art em LLMs mainstream.
Apresentamos o RoboGen, um agente robótico generativo que aprende automaticamente diversas habilidades robóticas em escala por meio de simulação generativa. O RoboGen aproveita os avanços mais recentes em modelos de base e generativos. Em vez de usar ou adaptar diretamente esses modelos para produzir políticas ou ações de baixo nível, defendemos um esquema generativo, que utiliza esses modelos para gerar automaticamente tarefas, cenários e supervisões de treinamento diversificados, escalando assim o aprendizado de habilidades robóticas com supervisão humana mínima. Nossa abordagem equipa um agente robótico com um ciclo autoguiado de propor-gerar-aprender: o agente primeiro propõe tarefas e habilidades interessantes para desenvolver e, em seguida, gera ambientes de simulação correspondentes, populando objetos e ativos pertinentes com configurações espaciais adequadas. Posteriormente, o agente decompõe a tarefa de alto nível proposta em sub-tarefas, seleciona a abordagem de aprendizado ideal (aprendizado por reforço, planejamento de movimento ou otimização de trajetória), gera a supervisão de treinamento necessária e, em seguida, aprende políticas para adquirir a habilidade proposta. Nosso trabalho tenta extrair o conhecimento extenso e versátil incorporado em modelos de grande escala e transferi-los para o campo da robótica. Nosso pipeline totalmente generativo pode ser consultado repetidamente, produzindo um fluxo interminável de demonstrações de habilidades associadas a diversas tarefas e ambientes.
Propomos uma nova abordagem para modelagem generativa baseada no treinamento de uma rede neural para ser idempotente. Um operador idempotente é aquele que pode ser aplicado sequencialmente sem alterar o resultado além da aplicação inicial, ou seja, f(f(z))=f(z). O modelo proposto f é treinado para mapear uma distribuição de origem (por exemplo, ruído gaussiano) para uma distribuição alvo (por exemplo, imagens realistas) usando os seguintes objetivos: (1) Instâncias da distribuição alvo devem mapear para si mesmas, ou seja, f(x)=x. Definimos a variedade alvo como o conjunto de todas as instâncias que f mapeia para si mesmas. (2) Instâncias que compõem a distribuição de origem devem mapear para a variedade alvo definida. Isso é alcançado otimizando o termo de idempotência, f(f(z))=f(z), que incentiva o alcance de f(z) a estar na variedade alvo. Sob suposições ideais, tal processo converge comprovadamente para a distribuição alvo. Essa estratégia resulta em um modelo capaz de gerar uma saída em um único passo, mantendo um espaço latente consistente, ao mesmo tempo em que permite aplicações sequenciais para refinamento. Além disso, descobrimos que, ao processar entradas de ambas as distribuições, alvo e de origem, o modelo projeta habilmente dados corrompidos ou modificados de volta para a variedade alvo. Este trabalho é um primeiro passo em direção a um "projetor global" que permite projetar qualquer entrada em uma distribuição de dados alvo.
Propomos o Easy End-to-End Diffusion-based Text to Speech (E3 TTS), um modelo simples e eficiente de conversão de texto em fala baseado em difusão e de ponta a ponta. O E3 TTS recebe diretamente texto simples como entrada e gera uma forma de onda de áudio por meio de um processo iterativo de refinamento. Diferente de muitos trabalhos anteriores, o E3 TTS não depende de representações intermediárias, como características de espectrograma ou informações de alinhamento. Em vez disso, o E3 TTS modela a estrutura temporal da forma de onda por meio do processo de difusão. Sem depender de informações de condicionamento adicionais, o E3 TTS pode suportar uma estrutura latente flexível dentro do áudio fornecido. Isso permite que o E3 TTS seja facilmente adaptado para tarefas de zero-shot, como edição, sem qualquer treinamento adicional. Experimentos mostram que o E3 TTS pode gerar áudio de alta fidelidade, aproximando-se do desempenho de um sistema neural de TTS state-of-the-art. Amostras de áudio estão disponíveis em https://e3tts.github.io.
A mudança distribucional é um desafio central na implantação de modelos de aprendizado de máquina, pois eles podem estar mal preparados para dados do mundo real. Isso é particularmente evidente na geração de áudio a partir de texto, onde as representações codificadas são facilmente comprometidas por prompts não vistos, o que leva à degradação do áudio gerado — o conjunto limitado de pares texto-áudio permanece inadequado para a geração condicional de áudio em cenários reais, já que os prompts dos usuários são subespecificados. Em particular, observamos uma degradação consistente na qualidade do áudio em amostras geradas com prompts de usuários, em contraste com prompts do conjunto de treinamento. Para isso, apresentamos uma estrutura de edição de prompts baseada em recuperação e contexto, que utiliza as legendas de treinamento como exemplos demonstrativos para revisar os prompts dos usuários. Demonstramos que essa estrutura melhorou a qualidade do áudio em um conjunto de prompts de usuários coletados, que foram editados com referência às legendas de treinamento como exemplos.
Apresentamos um esquema escalável, de baixo para cima e intrinsecamente diverso para coleta de dados que pode ser utilizado para raciocínio de alto nível com horizontes de médio e longo prazo e que possui uma taxa de processamento 2,2 vezes maior em comparação com métodos tradicionais de coleta passo a passo, estreitos e de cima para baixo. Coletamos dados realistas ao executar qualquer solicitação de usuários em três edifícios de escritórios completos, utilizando múltiplas instâncias de robôs e humanos. Com esses dados, demonstramos que modelos treinados com todas as instâncias apresentam desempenho superior aos treinados apenas com dados de robôs, mesmo quando avaliados exclusivamente em episódios envolvendo robôs. Descobrimos que, para um orçamento fixo de coleta, é vantajoso aproveitar a coleta humana, mais barata, juntamente com a coleta robótica. Lançamos um grande e altamente diversificado conjunto de dados (29.520 instruções únicas) chamado RoboVQA, contendo 829.502 pares (vídeo, texto) para tarefas de resposta visual a perguntas (VQA) focadas em robótica. Também demonstramos como a avaliação de experimentos reais com robôs, utilizando um mecanismo de intervenção, permite a execução de tarefas até a conclusão, tornando-o implantável com supervisão humana mesmo que imperfeito, ao mesmo tempo em que fornece uma única métrica de desempenho. Demonstramos um único modelo condicionado a vídeo, chamado RoboVQA-VideoCoCa, treinado em nosso conjunto de dados, capaz de realizar uma variedade de tarefas de raciocínio de alto nível fundamentadas em ambientes realistas amplos, com uma taxa de intervenção cognitiva 46% menor do que o estado da arte em modelos de linguagem visual (VLM) de linha de base zero-shot, e que é capaz de guiar robôs reais em tarefas de longo prazo. A lacuna de desempenho em relação aos modelos zero-shot de ponta indica que ainda há muitos dados fundamentados a serem coletados para implantação no mundo real, enfatizando a necessidade crítica de abordagens escaláveis de coleta de dados. Por fim, mostramos que VLMs baseados em vídeo superam significativamente VLMs baseados em imagens únicas, com uma redução média na taxa de erro de 19% em todas as tarefas de VQA. Dados e vídeos disponíveis em https://robovqa.github.io.