Artigos de pesquisa em IA selecionados diariamente com traduções
Postulamos que, para alcançar agentes super-humanos, modelos futuros exigem feedback super-humano a fim de fornecer um sinal de treinamento adequado. As abordagens atuais comumente treinam modelos de recompensa a partir de preferências humanas, que podem então ser limitadas pelo nível de desempenho humano, e, em segundo lugar, esses modelos de recompensa separados e congelados não podem aprender a melhorar durante o treinamento de LLMs. Neste trabalho, estudamos Modelos de Linguagem de Auto-Recompensa, onde o próprio modelo de linguagem é utilizado por meio de prompts LLM-as-a-Judge para fornecer suas próprias recompensas durante o treinamento. Demonstramos que, durante o treinamento Iterativo de DPO, não apenas a capacidade de seguir instruções melhora, mas também a habilidade de fornecer recompensas de alta qualidade para si mesmo. O ajuste fino do Llama 2 70B em três iterações da nossa abordagem resulta em um modelo que supera muitos sistemas existentes no ranking AlpacaEval 2.0, incluindo Claude 2, Gemini Pro e GPT-4 0613. Embora seja apenas um estudo preliminar, este trabalho abre a porta para a possibilidade de modelos que podem melhorar continuamente em ambos os eixos.
Recentemente, os modelos de espaço de estados (SSMs) com designs eficientes e conscientes de hardware, como o Mamba, têm demonstrado grande potencial para a modelagem de sequências longas. Construir backbones visuais eficientes e genéricos baseados exclusivamente em SSMs é uma direção atraente. No entanto, representar dados visuais é desafiador para os SSMs devido à sensibilidade à posição dos dados visuais e à necessidade de contexto global para a compreensão visual. Neste artigo, mostramos que a dependência do aprendizado de representação visual na auto-atenção não é necessária e propomos um novo backbone visual genérico com blocos bidirecionais de Mamba (Vim), que marca as sequências de imagens com embeddings de posição e comprime a representação visual com modelos de espaço de estados bidirecionais. Em tarefas de classificação no ImageNet, detecção de objetos no COCO e segmentação semântica no ADE20k, o Vim alcança desempenho superior comparado a transformers visuais bem estabelecidos como o DeiT, além de demonstrar uma eficiência significativamente melhorada em termos de computação e memória. Por exemplo, o Vim é 2,8 vezes mais rápido que o DeiT e economiza 86,8% da memória da GPU ao realizar inferência em lote para extrair características de imagens com resolução de 1248x1248. Os resultados demonstram que o Vim é capaz de superar as restrições de computação e memória ao realizar compreensão no estilo Transformer para imagens de alta resolução e tem grande potencial para se tornar o backbone de próxima geração para modelos de fundação visual. O código está disponível em https://github.com/hustvl/Vim.
Neste trabalho, apresentamos o ChatQA, uma família de modelos de questionamento e resposta conversacional (QA, do inglês Question Answering) que alcançam níveis de precisão comparáveis ao GPT-4. Especificamente, propomos um método de ajuste fino em duas etapas que pode melhorar significativamente os resultados de QA conversacional em cenários de zero-shot em modelos de linguagem de grande escala (LLMs, do inglês Large Language Models). Para lidar com a recuperação de informações em QA conversacional, ajustamos finamente um recuperador denso em um conjunto de dados de QA multi-turn, o que fornece resultados comparáveis ao uso do modelo de reescrita de consultas state-of-the-art, ao mesmo tempo em que reduz substancialmente os custos de implantação. Notavelmente, nosso ChatQA-70B pode superar o GPT-4 em termos de pontuação média em 10 conjuntos de dados de QA conversacional (54,14 vs. 53,90), sem depender de quaisquer dados sintéticos dos modelos GPT da OpenAI.
Uma maneira de aprimorar a capacidade de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs) é realizar o Ajuste Fino Supervisionado (SFT) utilizando anotações de Cadeia de Pensamento (CoT). No entanto, essa abordagem não demonstra uma capacidade de generalização suficientemente forte, pois o treinamento depende apenas dos dados CoT fornecidos. Na resolução de problemas matemáticos, por exemplo, geralmente há apenas um caminho de raciocínio anotado para cada questão nos dados de treinamento. Intuitivamente, seria melhor para o algoritmo aprender a partir de múltiplos caminhos de raciocínio anotados para uma mesma questão. Para abordar essa questão, propomos uma abordagem simples, porém eficaz, chamada Ajuste Fino Reforçado (ReFT), para aprimorar a generalização do aprendizado de LLMs para raciocínio, utilizando a resolução de problemas matemáticos como exemplo. O ReFT primeiro aquece o modelo com SFT e, em seguida, emprega o aprendizado por reforço on-line, especificamente o algoritmo PPO neste artigo, para ajustar ainda mais o modelo, onde uma abundância de caminhos de raciocínio é automaticamente amostrada para cada questão e as recompensas são naturalmente derivadas das respostas corretas. Experimentos extensivos nos conjuntos de dados GSM8K, MathQA e SVAMP mostram que o ReFT supera significativamente o SFT, e o desempenho pode ser potencialmente ainda mais impulsionado ao combinar estratégias de inferência, como votação majoritária e reclassificação. É importante notar que o ReFT obtém a melhoria aprendendo a partir das mesmas questões de treinamento que o SFT, sem depender de questões de treinamento extras ou aumentadas. Isso indica uma capacidade de generalização superior para o ReFT.
A fundamentação visão-linguagem 3D, que se concentra em alinhar a linguagem com o ambiente físico 3D, constitui um pilar fundamental no desenvolvimento de agentes corporificados. Em comparação com os avanços recentes no domínio 2D, a fundamentação da linguagem em cenas 3D enfrenta vários desafios significativos: (i) a complexidade inerente das cenas 3D devido às diversas configurações de objetos, seus atributos ricos e relações intrincadas; (ii) a escassez de dados pareados visão-linguagem 3D para apoiar o aprendizado fundamentado; e (iii) a ausência de uma estrutura de aprendizado unificada para destilar conhecimento a partir de dados 3D fundamentados. Neste trabalho, buscamos abordar esses três principais desafios na visão-linguagem 3D, examinando o potencial de escalonar sistematicamente o aprendizado visão-linguagem 3D em ambientes internos. Introduzimos o primeiro conjunto de dados em escala milionária para visão-linguagem 3D, o SceneVerse, abrangendo cerca de 68 mil cenas 3D internas e composto por 2,5 milhões de pares visão-linguagem derivados tanto de anotações humanas quanto de nossa abordagem escalável de geração baseada em grafos de cena. Demonstramos que esse escalonamento permite uma estrutura de pré-treinamento unificada, o Pré-treinamento Fundamentado para Cenas (GPS), para o aprendizado visão-linguagem 3D. Por meio de extensos experimentos, destacamos a eficácia do GPS ao alcançar desempenho de ponta em todos os benchmarks existentes de fundamentação visual 3D. O vasto potencial do SceneVerse e do GPS é revelado por meio de experimentos de transferência zero-shot em tarefas desafiadoras de visão-linguagem 3D. Site do projeto: https://scene-verse.github.io.
O agrupamento é inerentemente ambíguo devido aos múltiplos níveis de granularidade em que uma cena pode ser decomposta — as rodas de uma escavadeira devem ser consideradas separadas ou parte do todo? Apresentamos o Group Anything with Radiance Fields (GARField), uma abordagem para decompor cenas 3D em uma hierarquia de grupos semanticamente significativos a partir de imagens com pose conhecida. Para isso, abraçamos a ambiguidade do agrupamento por meio da escala física: ao otimizar um campo de características de afinidade 3D condicionado por escala, um ponto no mundo pode pertencer a diferentes grupos de diferentes tamanhos. Otimizamos esse campo a partir de um conjunto de máscaras 2D fornecidas pelo Segment Anything (SAM), de forma a respeitar uma hierarquia de granularidade grossa para fina, usando a escala para fundir consistentemente máscaras conflitantes de diferentes pontos de vista. A partir desse campo, podemos derivar uma hierarquia de possíveis agrupamentos por meio de construção automática de árvore ou interação do usuário. Avaliamos o GARField em uma variedade de cenas do mundo real e descobrimos que ele extrai efetivamente grupos em vários níveis: aglomerados de objetos, objetos e várias subpartes. O GARField representa inerentemente agrupamentos consistentes em múltiplas visões e produz grupos com maior fidelidade do que as máscaras de entrada do SAM. O agrupamento hierárquico do GARField pode ter aplicações emocionantes, como extração de ativos 3D ou compreensão dinâmica de cenas. Consulte o site do projeto em https://www.garfield.studio/.
Os modelos de mundo desempenham um papel crucial na compreensão e previsão das dinâmicas do mundo, o que é essencial para a geração de vídeos. No entanto, os modelos de mundo existentes estão restritos a cenários específicos, como jogos ou direção, limitando sua capacidade de capturar a complexidade de ambientes dinâmicos gerais do mundo. Portanto, apresentamos o WorldDreamer, um modelo de mundo pioneiro para promover uma compreensão abrangente da física e dos movimentos gerais do mundo, o que melhora significativamente as capacidades de geração de vídeos. Inspirados pelo sucesso dos grandes modelos de linguagem, o WorldDreamer enquadra a modelagem de mundo como um desafio de modelagem de sequências visuais não supervisionadas. Isso é alcançado mapeando entradas visuais para tokens discretos e prevendo os tokens mascarados. Durante esse processo, incorporamos prompts multimodais para facilitar a interação dentro do modelo de mundo. Nossos experimentos mostram que o WorldDreamer se destaca na geração de vídeos em diferentes cenários, incluindo cenas naturais e ambientes de direção. O WorldDreamer demonstra versatilidade na execução de tarefas como conversão de texto para vídeo, síntese de imagem para vídeo e edição de vídeo. Esses resultados destacam a eficácia do WorldDreamer em capturar elementos dinâmicos em diversos ambientes gerais do mundo.
A geração de vídeos baseada em difusão tem recebido ampla atenção e alcançado considerável sucesso tanto na comunidade acadêmica quanto na indústria. No entanto, os esforços atuais estão principalmente concentrados na geração de vídeos com objetivo único ou tarefa única, como geração impulsionada por texto, por imagem ou por uma combinação de texto e imagem. Isso não atende plenamente às necessidades dos cenários de aplicação do mundo real, pois os usuários provavelmente inserirão condições de imagem e texto de maneira flexível, individualmente ou em combinação. Para resolver isso, propomos um sistema de Geração de Vídeo Unimodal que é capaz de lidar com múltiplas tarefas de geração de vídeo em modalidades de texto e imagem. Para isso, revisitamos as diversas tarefas de geração de vídeo dentro do nosso sistema sob a perspectiva da liberdade generativa e as classificamos em categorias de geração de vídeo de alta liberdade e baixa liberdade. Para a geração de vídeo de alta liberdade, empregamos a Atenção Cruzada Multicondicional para gerar vídeos que se alinham com a semântica das imagens ou textos de entrada. Para a geração de vídeo de baixa liberdade, introduzimos o Ruído Gaussiano Tendencioso para substituir o Ruído Gaussiano puramente aleatório, o que ajuda a preservar melhor o conteúdo das condições de entrada. Nosso método alcança a menor Distância de Vídeo Fréchet (FVD) no benchmark acadêmico público MSR-VTT, supera os métodos atuais de código aberto em avaliações humanas e está em pé de igualdade com o método atual de código fechado Gen2. Para mais exemplos, visite https://univg-baidu.github.io.
A implantação e escalonamento de grandes modelos de linguagem (LLMs) tornaram-se críticos à medida que permeiam diversas aplicações, exigindo sistemas de serviço de alta taxa de transferência e baixa latência. Os frameworks existentes lutam para equilibrar esses requisitos, especialmente para cargas de trabalho com prompts longos. Este artigo apresenta o DeepSpeed-FastGen, um sistema que emprega o Dynamic SplitFuse, uma nova estratégia de composição de prompts e geração, para oferecer até 2,3x maior taxa de transferência efetiva, 2x menor latência em média e até 3,7x menor latência de cauda (em nível de token), em comparação com sistemas state-of-the-art como o vLLM. Aproveitamos uma combinação sinérgica de DeepSpeed-MII e DeepSpeed-Inference para fornecer um sistema de serviço eficiente e fácil de usar para LLMs. A implementação avançada do DeepSpeed-FastGen suporta uma variedade de modelos e oferece opções de implantação não persistentes e persistentes, atendendo a diversos cenários de usuários, desde sessões interativas até aplicações de longa duração. Apresentamos uma metodologia detalhada de benchmarking, analisamos o desempenho por meio de curvas de latência-taxa de transferência e investigamos a escalabilidade via balanceamento de carga. Nossas avaliações demonstram melhorias substanciais na taxa de transferência e latência em vários modelos e configurações de hardware. Discutimos nosso roteiro para futuras melhorias, incluindo suporte a mais modelos e novos backends de hardware. O código do DeepSpeed-FastGen está prontamente disponível para engajamento e contribuição da comunidade.
A geração de texto para vídeo tem como objetivo produzir um vídeo com base em um prompt fornecido. Recentemente, vários modelos comerciais de vídeo conseguiram gerar vídeos plausíveis com ruído mínimo, detalhes excelentes e altas pontuações estéticas. No entanto, esses modelos dependem de vídeos em grande escala, bem filtrados e de alta qualidade que não estão acessíveis à comunidade. Muitos trabalhos de pesquisa existentes, que treinam modelos usando o conjunto de dados WebVid-10M de baixa qualidade, lutam para gerar vídeos de alta qualidade porque os modelos são otimizados para se ajustar ao WebVid-10M. Neste trabalho, exploramos o esquema de treinamento de modelos de vídeo estendidos a partir do Stable Diffusion e investigamos a viabilidade de aproveitar vídeos de baixa qualidade e imagens sintetizadas de alta qualidade para obter um modelo de vídeo de alta qualidade. Primeiro, analisamos a conexão entre os módulos espaciais e temporais dos modelos de vídeo e a mudança de distribuição para vídeos de baixa qualidade. Observamos que o treinamento completo de todos os módulos resulta em um acoplamento mais forte entre os módulos espaciais e temporais do que apenas o treinamento dos módulos temporais. Com base nesse acoplamento mais forte, mudamos a distribuição para uma qualidade superior sem degradação de movimento, ajustando os módulos espaciais com imagens de alta qualidade, resultando em um modelo de vídeo genérico de alta qualidade. Avaliações são realizadas para demonstrar a superioridade do método proposto, particularmente em qualidade de imagem, movimento e composição de conceitos.
Apresentamos os Transformadores Interpolantes Escaláveis (SiT), uma família de modelos generativos construídos sobre a estrutura dos Transformadores de Difusão (DiT). O framework interpolante, que permite conectar duas distribuições de maneira mais flexível do que os modelos de difusão padrão, possibilita um estudo modular de várias escolhas de design que impactam modelos generativos baseados em transporte dinâmico: utilizar aprendizado em tempo discreto versus contínuo, decidir o objetivo que o modelo deve aprender, escolher o interpolante que conecta as distribuições e implementar um amostrador determinístico ou estocástico. Ao introduzir cuidadosamente os elementos mencionados, o SiT supera o DiT de forma uniforme em todos os tamanhos de modelos no benchmark condicional ImageNet 256x256, utilizando exatamente a mesma estrutura, número de parâmetros e GFLOPs. Ao explorar diversos coeficientes de difusão, que podem ser ajustados separadamente do aprendizado, o SiT alcança um score FID-50K de 2,06.
O gradiente descendente estocástico local (Local-SGD), também conhecido como média federada, é uma abordagem de otimização distribuída na qual cada dispositivo realiza mais de uma atualização de SGD por comunicação. Este trabalho apresenta um estudo empírico do Local-SGD {\it assíncrono} para o treinamento de modelos de linguagem; ou seja, cada trabalhador atualiza os parâmetros globais assim que conclui suas etapas de SGD. Realizamos uma investigação abrangente examinando como a heterogeneidade de hardware dos trabalhadores, o tamanho do modelo, o número de trabalhadores e o otimizador podem impactar o desempenho de aprendizado. Descobrimos que, com implementações ingênuas, o Local-SGD assíncrono leva mais iterações para convergir do que sua contraparte síncrona, apesar de atualizar os parâmetros (globais) do modelo com mais frequência. Identificamos a aceleração de momento nos parâmetros globais quando os gradientes dos trabalhadores estão desatualizados como um desafio fundamental. Propomos um método inovador que utiliza uma atualização de momento de Nesterov atrasada e ajusta as etapas de treinamento local dos trabalhadores com base em sua velocidade de computação. Essa abordagem, avaliada com modelos de até 150 milhões de parâmetros no conjunto de dados C4, iguala o desempenho do Local-SGD síncrono em termos de perplexidade por etapa de atualização e o supera significativamente em termos de tempo de execução real.
Apresentamos o TextureDreamer, um método inovador de síntese de texturas guiado por imagens para transferir texturas reluzíveis de um pequeno número de imagens de entrada (3 a 5) para formas 3D de categorias arbitrárias. A criação de texturas é um desafio fundamental na visão computacional e na computação gráfica. Empresas industriais contratam artistas experientes para criar manualmente texturas para ativos 3D. Métodos clássicos exigem visões densamente amostradas e geometria alinhada com precisão, enquanto métodos baseados em aprendizado são limitados a formas específicas de categorias dentro do conjunto de dados. Em contraste, o TextureDreamer pode transferir texturas altamente detalhadas e intrincadas de ambientes do mundo real para objetos arbitrários com apenas algumas imagens capturadas casualmente, potencialmente democratizando significativamente a criação de texturas. Nossa ideia central, a destilação de pontuação personalizada e consciente da geometria (PGSD), inspira-se em avanços recentes em modelos difusos, incluindo modelagem personalizada para extração de informações de textura, destilação de pontuação variacional para síntese de aparência detalhada e orientação explícita de geometria com ControlNet. Nossa integração e várias modificações essenciais melhoram substancialmente a qualidade da textura. Experimentos com imagens reais de diferentes categorias mostram que o TextureDreamer pode transferir com sucesso texturas altamente realistas e semanticamente significativas para objetos arbitrários, superando a qualidade visual dos métodos state-of-the-art anteriores.
Abordando as limitações do texto como fonte de representação precisa de layout em modelos de difusão condicionados por texto, muitos trabalhos incorporam sinais adicionais para condicionar certos atributos dentro de uma imagem gerada. Embora bem-sucedidos, trabalhos anteriores não consideram a localização específica desses atributos estendida para o plano tridimensional. Nesse contexto, apresentamos um modelo de difusão condicional que integra controle sobre o posicionamento tridimensional de objetos com representações desacopladas de semânticas estilísticas globais a partir de múltiplas imagens exemplares. Especificamente, primeiro introduzimos o treinamento de desacoplamento de profundidade para aproveitar a profundidade relativa dos objetos como um estimador, permitindo que o modelo identifique as posições absolutas de objetos não vistos por meio do uso de triplas de imagens sintéticas. Também introduzimos a orientação suave, um método para impor semânticas globais em regiões específicas sem o uso de pistas de localização adicionais. Nosso framework integrado, Compose and Conquer (CnC), unifica essas técnicas para localizar múltiplas condições de maneira desacoplada. Demonstramos que nossa abordagem permite a percepção de objetos em diferentes profundidades, ao mesmo tempo que oferece um framework versátil para compor objetos localizados com diferentes semânticas globais. Código: https://github.com/tomtom1103/compose-and-conquer/
Campos de Radiação Neural (NeRF) demonstram desempenho notável para Síntese de Novas Visões (NVS) a partir de um conjunto de imagens 2D. No entanto, o treinamento do NeRF requer poses de câmera precisas para cada visão de entrada, geralmente obtidas por pipelines de Estrutura a partir de Movimento (SfM). Trabalhos recentes tentaram relaxar essa restrição, mas ainda dependem frequentemente de poses iniciais razoáveis que podem ser refinadas. Aqui, nosso objetivo é eliminar a necessidade de inicialização de poses. Apresentamos o Incremental CONfidence (ICON), um procedimento de otimização para treinar NeRFs a partir de frames de vídeo 2D. O ICON assume apenas movimento suave da câmera para estimar uma suposição inicial das poses. Além disso, o ICON introduz "confiança": uma medida adaptativa da qualidade do modelo usada para reajustar dinamicamente os gradientes. O ICON depende de poses de alta confiança para aprender o NeRF e de estruturas 3D de alta confiança (codificadas pelo NeRF) para aprender as poses. Mostramos que o ICON, sem inicialização prévia de poses, alcança desempenho superior tanto no CO3D quanto no HO3D em comparação com métodos que utilizam poses SfM.