Artigos de pesquisa em IA selecionados diariamente com traduções
O modelo de consistência (CM) tem recentemente feito progressos significativos na aceleração da geração de modelos de difusão. No entanto, sua aplicação na geração de imagens de alta resolução condicionadas por texto no espaço latente (conhecido como LCM) ainda é insatisfatória. Neste artigo, identificamos três falhas principais no design atual do LCM. Investigamos as razões por trás dessas limitações e propomos o Modelo de Consistência Faseado (PCM), que generaliza o espaço de design e aborda todas as limitações identificadas. Nossas avaliações demonstram que o PCM supera significativamente o LCM em configurações de geração de 1 a 16 passos. Embora o PCM seja especificamente projetado para refinamento em múltiplos passos, ele alcança resultados de geração em 1 passo superiores ou comparáveis aos métodos de última geração projetados especificamente para 1 passo. Além disso, mostramos que a metodologia do PCM é versátil e aplicável à geração de vídeos, permitindo-nos treinar o gerador de texto para vídeo de última geração com poucos passos. Mais detalhes estão disponíveis em https://g-u-n.github.io/projects/pcm/.
À medida que as Redes Neurais Profundas (DNNs) aumentam em tamanho e complexidade, elas frequentemente excedem a capacidade de memória de um único acelerador, exigindo o particionamento dos parâmetros do modelo em vários aceleradores. O paralelismo em pipeline é uma estratégia de particionamento comumente usada para treinar DNNs grandes. No entanto, as implementações atuais de paralelismo em pipeline estão sendo involuntariamente limitadas pelas ferramentas de diferenciação automática fornecidas pelos frameworks de aprendizado de máquina. Este artigo introduz a retropropagação em 2 estágios (2BP). Ao dividir o passo de propagação reversa em dois estágios separados, podemos reduzir o tempo ocioso de computação. Testamos o 2BP em várias arquiteturas de modelo e cronogramas de pipeline, alcançando aumentos de taxa de transferência em todos os casos. Usando o 2BP, conseguimos um aumento de 1,70x na taxa de transferência em comparação com métodos tradicionais ao treinar um transformador semelhante ao LLaMa com 7 bilhões de parâmetros em 4 GPUs.
Os recentes avanços na edição de texto para música, que empregam consultas de texto para modificar músicas (por exemplo, alterando seu estilo ou ajustando componentes instrumentais), apresentam desafios e oportunidades únicos para a criação de música assistida por IA. As abordagens anteriores nesse domínio foram limitadas pela necessidade de treinar modelos específicos de edição do zero, o que é tanto intensivo em recursos quanto ineficiente; outras pesquisas utilizam modelos de linguagem de grande escala para prever músicas editadas, resultando em uma reconstrução de áudio imprecisa. Para combinar os pontos fortes e abordar essas limitações, introduzimos o Instruct-MusicGen, uma nova abordagem que ajusta um modelo MusicGen pré-treinado para seguir eficientemente instruções de edição, como adicionar, remover ou separar stems. Nossa abordagem envolve uma modificação da arquitetura original do MusicGen, incorporando um módulo de fusão de texto e um módulo de fusão de áudio, que permitem que o modelo processe textos de instrução e entradas de áudio simultaneamente e produza a música editada desejada. Notavelmente, o Instruct-MusicGen introduz apenas 8% de novos parâmetros ao modelo MusicGen original e é treinado por apenas 5K passos, mas alcança desempenho superior em todas as tarefas em comparação com as baselines existentes e demonstra desempenho comparável aos modelos treinados para tarefas específicas. Esse avanço não apenas aumenta a eficiência da edição de texto para música, mas também amplia a aplicabilidade dos modelos de linguagem musical em ambientes dinâmicos de produção musical.
O Yuan 2.0-M32, com uma arquitetura base semelhante ao Yuan-2.0 2B, utiliza uma arquitetura de mistura de especialistas (Mixture of Experts) com 32 especialistas, dos quais 2 estão ativos. Um novo mecanismo de roteamento, o Attention Router, foi proposto e adotado para uma seleção mais eficiente de especialistas, o que aumentou a precisão em 3,8% em comparação com o modelo que utiliza o mecanismo de roteamento clássico. O Yuan 2.0-M32 foi treinado com 2000 bilhões de tokens a partir do zero, e o consumo computacional de treinamento foi de apenas 9,25% de um modelo denso na mesma escala de parâmetros. O Yuan 2.0-M32 demonstra capacidade competitiva em codificação, matemática e diversos domínios de especialização, com apenas 3,7 bilhões de parâmetros ativos de um total de 40 bilhões, e 7,4 GFlops de computação direta por token, ambos representando apenas 1/19 do Llama3-70B. O Yuan 2.0-M32 supera o Llama3-70B nos benchmarks MATH e ARC-Challenge, com precisões de 55,89 e 95,8, respectivamente. Os modelos e códigos-fonte do Yuan 2.0-M32 estão disponíveis no Github.
As habilidades dos modernos modelos de linguagem de grande escala (LLMs) na resolução de tarefas como processamento de linguagem natural, raciocínio complexo, análise de sentimentos e outras têm sido extraordinárias, o que levou à sua ampla adoção. Infelizmente, essas habilidades vêm com custos muito altos de memória e computação, o que impede o uso de LLMs na maioria das plataformas de hardware. Para mitigar isso, propomos um método eficaz de encontrar arquiteturas de rede Pareto-ótimas baseadas no LLaMA2-7B usando NAS (Neural Architecture Search) de uma única vez. Em particular, ajustamos o LLaMA2-7B apenas uma vez e, em seguida, aplicamos uma busca baseada em algoritmo genético para encontrar arquiteturas de rede menores e menos complexas computacionalmente. Mostramos que, para certas tarefas de benchmark padrão, a rede pré-treinada LLaMA2-7B é desnecessariamente grande e complexa. Mais especificamente, demonstramos uma redução de 1,5x no tamanho do modelo e um aumento de 1,3x na taxa de transferência para certas tarefas, com uma queda insignificante na precisão. Além de encontrar arquiteturas de rede menores e de maior desempenho, nosso método faz isso de forma mais eficaz e eficiente do que certas técnicas de poda ou esparsificação. Por fim, demonstramos como a quantização é complementar ao nosso método e que o tamanho e a complexidade das redes que encontramos podem ser ainda mais reduzidos usando quantização. Acreditamos que nosso trabalho fornece uma maneira de criar automaticamente LLMs que podem ser usados em plataformas de hardware mais baratas e amplamente disponíveis.
Reconstruir cenas 4D a partir de entradas de vídeo é uma tarefa crucial, porém desafiadora. Métodos convencionais geralmente dependem de suposições como entradas de vídeo multi-visão, parâmetros de câmera conhecidos ou cenas estáticas, todas as quais normalmente estão ausentes em cenários do mundo real. Neste artigo, relaxamos todas essas restrições e abordamos uma tarefa altamente ambiciosa, porém prática, que denominamos AnyV4D: assumimos que apenas um vídeo monocular está disponível, sem qualquer parâmetro de câmera como entrada, e nosso objetivo é recuperar o mundo 4D dinâmico juntamente com as poses da câmera. Para isso, introduzimos o GFlow, um novo framework que utiliza apenas priors 2D (profundidade e fluxo óptico) para elevar um vídeo (3D) a uma representação explícita 4D, envolvendo um fluxo de splatting Gaussiano através do espaço e do tempo. O GFlow primeiro agrupa a cena em partes estáticas e móveis, em seguida, aplica um processo de otimização sequencial que otimiza as poses da câmera e a dinâmica dos pontos Gaussianos 3D com base nos priors 2D e no agrupamento da cena, garantindo fidelidade entre pontos vizinhos e movimento suave entre os quadros. Como cenas dinâmicas sempre introduzem novos conteúdos, também propomos uma nova estratégia de densificação pixel a pixel para pontos Gaussianos, a fim de integrar novos conteúdos visuais. Além disso, o GFlow transcende os limites da mera reconstrução 4D; ele também permite o rastreamento de qualquer ponto ao longo dos quadros sem a necessidade de treinamento prévio e segmenta objetos em movimento da cena de forma não supervisionada. Adicionalmente, as poses da câmera de cada quadro podem ser derivadas do GFlow, permitindo a renderização de novas visões de uma cena de vídeo através da alteração da pose da câmera. Ao empregar a representação explícita, podemos facilmente realizar edições em nível de cena ou de objeto conforme desejado, destacando sua versatilidade e poder. Visite nosso site do projeto em: https://littlepure2333.github.io/GFlow
Modelos de linguagem de grande escala (LLMs) surgiram recentemente como ferramentas poderosas para abordar diversas tarefas de processamento de linguagem. Apesar do seu sucesso, o treinamento e o ajuste fino desses modelos ainda são extremamente intensivos em termos computacionais e de memória. Neste artigo, identificamos e caracterizamos os componentes importantes necessários para a convergência eficaz do modelo usando gradiente descendente. Ao fazer isso, descobrimos que as ativações intermediárias usadas para implementar a retropropagação podem ser excessivamente comprimidas sem causar qualquer degradação no desempenho. Esse resultado nos leva a um algoritmo barato e eficiente em termos de memória para ajuste fino e pré-treinamento de LLMs. O algoritmo proposto simplesmente divide os tokens em sub-tokens menores antes de projetá-los em um subespaço unidimensional fixo durante a passagem direta. Essas características são então reconstruídas de forma grosseira durante a passagem reversa para implementar as regras de atualização. Confirmamos a eficácia do nosso algoritmo como complementar a muitos métodos PEFT de última geração no benchmark de ajuste fino VTAB-1k. Além disso, superamos o QLoRA no ajuste fino do LLaMA e mostramos desempenho competitivo contra outros métodos de pré-treinamento eficientes em memória no grande conjunto de dados C4.
A edição de imagens de cenas é crucial para entretenimento, fotografia e design publicitário. Os métodos existentes focam exclusivamente na edição de objetos individuais em 2D ou na edição global de cenas em 3D. Isso resulta na falta de uma abordagem unificada para controlar e manipular efetivamente cenas no nível 3D com diferentes níveis de granularidade. Neste trabalho, propomos o 3DitScene, uma nova e unificada estrutura de edição de cenas que utiliza o Splatting Gaussiano desacoplado guiado por linguagem, permitindo uma edição contínua de 2D para 3D e um controle preciso sobre a composição da cena e objetos individuais. Primeiro, incorporamos Gaussianas 3D que são refinadas por meio de priors generativos e técnicas de otimização. Em seguida, características de linguagem do CLIP introduzem semântica na geometria 3D para o desacoplamento de objetos. Com as Gaussianas desacopladas, o 3DitScene permite manipulações tanto no nível global quanto no nível individual, revolucionando a expressão criativa e oferecendo controle sobre cenas e objetos. Resultados experimentais demonstram a eficácia e versatilidade do 3DitScene na edição de imagens de cenas. O código e uma demonstração online podem ser encontrados na página do nosso projeto: https://zqh0253.github.io/3DitScene/.