Artigos de pesquisa em IA selecionados diariamente com traduções
A geração de texto para imagem é um domínio significativo na visão computacional moderna e alcançou melhorias substanciais através da evolução das arquiteturas generativas. Entre essas, estão os modelos baseados em difusão que demonstraram aprimoramentos essenciais na qualidade. Esses modelos são geralmente divididos em duas categorias: abordagens em nível de pixel e em nível latente. Apresentamos o Kandinsky1, uma nova exploração da arquitetura de difusão latente, combinando os princípios dos modelos de prior de imagem com técnicas de difusão latente. O modelo de prior de imagem é treinado separadamente para mapear embeddings de texto para embeddings de imagem do CLIP. Outra característica distinta do modelo proposto é a implementação modificada do MoVQ, que serve como componente do autoencoder de imagem. No geral, o modelo projetado contém 3,3 bilhões de parâmetros. Também implementamos um sistema de demonstração amigável ao usuário que suporta diversos modos generativos, como geração de texto para imagem, fusão de imagens, fusão de texto e imagem, geração de variações de imagem e inpainting/outpainting guiado por texto. Além disso, disponibilizamos o código-fonte e os checkpoints dos modelos Kandinsky. Avaliações experimentais demonstram um score FID de 8,03 no conjunto de dados COCO-30K, posicionando nosso modelo como o melhor desempenho de código aberto em termos de qualidade mensurável de geração de imagem.
Modelos multimodais de grande escala (LMM) têm mostrado recentemente progressos encorajadores com ajuste fino por instrução visual. Neste artigo, demonstramos que o conector multimodal totalmente conectado entre visão e linguagem no LLaVA é surpreendentemente poderoso e eficiente em termos de dados. Com modificações simples no LLaVA, nomeadamente, utilizando CLIP-ViT-L-336px com uma projeção MLP e adicionando dados de VQA orientados para tarefas acadêmicas com prompts simples de formatação de respostas, estabelecemos linhas de base mais robustas que alcançam o estado da arte em 11 benchmarks. Nosso checkpoint final de 13B utiliza apenas 1,2M de dados publicamente disponíveis e conclui o treinamento completo em aproximadamente 1 dia em um único nó com 8 GPUs A100. Esperamos que isso possa tornar a pesquisa de ponta em LMM mais acessível. O código e o modelo estarão publicamente disponíveis.
O recentemente lançado GPT-4 Code Interpreter demonstrou uma proficiência notável na resolução de problemas matemáticos desafiadores, atribuída principalmente à sua capacidade de raciocinar de forma fluida com linguagem natural, gerar código, executar código e continuar o raciocínio com base no resultado da execução. Neste artigo, apresentamos um método para ajustar modelos de linguagem de código aberto, permitindo que eles utilizem código para modelar e derivar equações matemáticas e, consequentemente, aprimorar suas habilidades de raciocínio matemático. Propomos um método de geração de conjuntos de dados novos e de alta qualidade com problemas matemáticos e suas soluções baseadas em código, denominado MathCodeInstruct. Cada solução intercala linguagem natural, código e resultados de execução. Também introduzimos uma abordagem personalizada de ajuste fino supervisionado e inferência. Essa abordagem resulta nos modelos MathCoder, uma família de modelos capazes de gerar soluções baseadas em código para resolver problemas matemáticos complexos. Impressionantemente, os modelos MathCoder alcançam pontuações de última geração entre os LLMs de código aberto nos conjuntos de dados MATH (45,2%) e GSM8K (83,9%), superando substancialmente outras alternativas de código aberto. Notavelmente, o modelo MathCoder não apenas supera o ChatGPT-3.5 e o PaLM-2 no GSM8K e MATH, mas também supera o GPT-4 no conjunto de dados MATH de nível competitivo. O conjunto de dados e os modelos serão disponibilizados em https://github.com/mathllm/MathCoder.
Modelos de difusão texto-imagem surgiram recentemente na vanguarda da geração de imagens, impulsionados por conjuntos de dados de treinamento texto-imagem em grande escala, não supervisionados ou fracamente supervisionados. Devido ao seu treinamento não supervisionado, controlar seu comportamento em tarefas subsequentes, como maximizar a qualidade da imagem percebida por humanos, o alinhamento imagem-texto ou a geração ética de imagens, é desafiador. Trabalhos recentes ajustam modelos de difusão para funções de recompensa subsequentes usando aprendizado por reforço tradicional, conhecido pela alta variância dos estimadores de gradiente. Neste artigo, propomos o AlignProp, um método que alinha modelos de difusão a funções de recompensa subsequentes usando retropropagação end-to-end do gradiente de recompensa através do processo de remoção de ruído. Embora uma implementação ingênua dessa retropropagação exigiria recursos de memória proibitivos para armazenar as derivadas parciais de modelos modernos texto-imagem, o AlignProp ajusta módulos de pesos de adaptadores de baixa classificação e utiliza checkpointing de gradiente, tornando seu uso de memória viável. Testamos o AlignProp no ajuste fino de modelos de difusão para vários objetivos, como alinhamento semântico imagem-texto, estética, compressibilidade e controlabilidade do número de objetos presentes, bem como suas combinações. Mostramos que o AlignProp alcança recompensas mais altas em menos etapas de treinamento do que as alternativas, sendo conceitualmente mais simples, tornando-o uma escolha direta para otimizar modelos de difusão para funções de recompensa diferenciáveis de interesse. Código e resultados de visualização estão disponíveis em https://align-prop.github.io/.
Modelos de linguagem (LMs) têm demonstrado a capacidade de lidar com uma variedade de tarefas generativas. Este artigo apresenta o sistema UniAudio que, ao contrário de abordagens anteriores específicas para tarefas, utiliza técnicas de LMs para gerar múltiplos tipos de áudio (incluindo fala, sons, música e canto) com condições de entrada fornecidas. O UniAudio 1) primeiro tokeniza todos os tipos de áudio alvo juntamente com outras modalidades de condição, 2) concatena pares fonte-alvo como uma única sequência, e 3) realiza a previsão do próximo token usando LMs. Além disso, um modelo Transformer multiescala é proposto para lidar com sequências excessivamente longas causadas pelo codec neural baseado em quantização vetorial residual na tokenização. O treinamento do UniAudio é escalonado para 165 mil horas de áudio e 1 bilhão de parâmetros, com base em todas as tarefas generativas, visando obter conhecimento prévio suficiente não apenas nas propriedades intrínsecas do áudio, mas também na inter-relação entre áudio e outras modalidades. Portanto, o modelo UniAudio treinado tem o potencial de se tornar um modelo base para geração universal de áudio: ele mostra forte capacidade em todas as tarefas treinadas e pode suportar de forma contínua novas tarefas de geração de áudio após um simples ajuste fino. Experimentos demonstram que o UniAudio alcança resultados de última geração ou pelo menos competitivos na maioria das 11 tarefas. Demonstração e código estão disponíveis em https://github.com/yangdongchao/UniAudio.
A maioria dos grandes modelos de linguagem (LLMs) é treinada uma única vez e nunca atualizada; assim, eles carecem da capacidade de se adaptar dinamicamente ao nosso mundo em constante mudança. Neste trabalho, realizamos um estudo detalhado da factualidade do texto gerado por LLMs no contexto de responder a perguntas que testam o conhecimento atual do mundo. Especificamente, introduzimos o FreshQA, um novo benchmark dinâmico de perguntas e respostas que abrange uma diversidade de tipos de questões e respostas, incluindo perguntas que exigem conhecimento do mundo em rápida mudança, bem como perguntas com premissas falsas que precisam ser desmascaradas. Avaliamos uma variedade de LLMs, tanto fechados quanto de código aberto, sob um procedimento de avaliação de dois modos que nos permite medir tanto a correção quanto a alucinação. Por meio de avaliações humanas envolvendo mais de 50 mil julgamentos, destacamos as limitações desses modelos e demonstramos um espaço significativo para melhorias: por exemplo, todos os modelos (independentemente do tamanho) têm dificuldades com perguntas que envolvem conhecimento em rápida mudança e premissas falsas. Motivados por esses resultados, apresentamos o FreshPrompt, um método simples de prompt few-shot que aumenta substancialmente o desempenho de um LLM no FreshQA ao incorporar informações relevantes e atualizadas recuperadas de um mecanismo de busca no prompt. Nossos experimentos mostram que o FreshPrompt supera tanto métodos concorrentes de prompt aumentado por mecanismos de busca, como o Self-Ask (Press et al., 2022), quanto sistemas comerciais como o Perplexity.AI. Uma análise mais aprofundada do FreshPrompt revela que tanto o número de evidências recuperadas quanto sua ordem desempenham um papel crucial na influência da correção das respostas geradas pelo LLM. Além disso, instruir o LLM a gerar respostas concisas e diretas ajuda a reduzir a alucinação em comparação com o incentivo a respostas mais verbosas. Para facilitar trabalhos futuros, disponibilizamos o FreshQA em github.com/freshllms/freshqa e nos comprometemos a atualizá-lo em intervalos regulares.
Os modelos generativos visão-linguagem atuais dependem de grandes corpora de dados pareados de imagem-texto para alcançar desempenho e capacidades de generalização ideais. No entanto, a coleta automática desses dados (por exemplo, por meio de scraping em larga escala na web) resulta em baixa qualidade e correlação inadequada entre imagem e texto, enquanto a anotação humana é mais precisa, mas exige esforço manual e custo significativos. Apresentamos o ITIT (InTegrating Image Text): um paradigma de treinamento inovador baseado no conceito de consistência cíclica, que permite o treinamento visão-linguagem com dados de imagem e texto não pareados. O ITIT é composto por um codificador conjunto de imagem-texto com decodificadores separados de imagem e texto, que permitem a geração bidirecional de imagem para texto e texto para imagem em um único framework. Durante o treinamento, o ITIT utiliza um pequeno conjunto de dados pareados de imagem-texto para garantir que sua saída corresponda razoavelmente bem à entrada em ambas as direções. Simultaneamente, o modelo também é treinado em conjuntos de dados muito maiores contendo apenas imagens ou textos. Isso é alcançado aplicando a consistência cíclica entre as amostras não pareadas originais e suas contrapartes geradas ciclicamente. Por exemplo, ele gera uma legenda para uma imagem de entrada e, em seguida, usa a legenda para criar uma imagem de saída, impondo similaridade entre a imagem de entrada e a de saída. Nossos experimentos mostram que o ITIT com conjuntos de dados não pareados exibe comportamento de escalonamento semelhante ao uso de dados pareados de alta qualidade. Demonstramos desempenho de geração de imagens e legendas comparável aos modelos state-of-the-art de texto para imagem e imagem para texto, utilizando ordens de magnitude menos dados pareados de imagem-texto (apenas 3M).
Grandes sucessos foram relatados utilizando o Aprendizado por Reforço com Feedback Humano (RLHF) para alinhar grandes modelos de linguagem. Conjuntos de dados de preferência de código aberto e modelos de recompensa permitiram uma experimentação mais ampla além de configurações genéricas de chat, particularmente para tornar os sistemas mais "úteis" em tarefas como resposta a perguntas na web, sumarização e diálogo multi-turno. Ao otimizar para utilidade, observou-se consistentemente que o RLHF leva os modelos a produzir saídas mais longas. Este artigo demonstra que a otimização para o comprimento da resposta é um fator significativo por trás das melhorias relatadas do RLHF nessas configurações. Primeiro, estudamos a relação entre recompensa e comprimento para modelos de recompensa treinados em três conjuntos de dados de preferência de código aberto para utilidade. Aqui, o comprimento correlaciona-se fortemente com a recompensa, e as melhorias na pontuação de recompensa são impulsionadas em grande parte pela mudança na distribuição sobre os comprimentos das saídas. Em seguida, exploramos intervenções durante o aprendizado por reforço e o aprendizado do modelo de recompensa para ver se podemos alcançar as mesmas melhorias downstream que o RLHF sem aumentar o comprimento. Embora nossas intervenções mitiguem os aumentos de comprimento, elas não são uniformemente eficazes em todas as configurações. Além disso, descobrimos que mesmo executar o RLHF com uma recompensa baseada apenas no comprimento pode reproduzir a maioria das melhorias downstream em relação ao modelo de política inicial, mostrando que os modelos de recompensa nessas configurações ainda têm um longo caminho a percorrer.
A execução de tarefas na web apresenta desafios fundamentais para modelos de linguagem de grande escala (LLMs), incluindo tarefas de mundo aberto combinatórias e variações entre interfaces da web. Simplesmente especificar um prompt grande para lidar com todos os comportamentos e estados possíveis é extremamente complexo e resulta em vazamentos de comportamento entre ações não relacionadas. A decomposição em políticas distintas pode abordar esse desafio, mas exige a transferência cuidadosa de controle entre as políticas. Propomos o método Stacked LLM Policies for Web Actions (SteP), uma abordagem para compor dinamicamente políticas a fim de resolver um conjunto diversificado de tarefas na web. O SteP define um Processo de Decisão Markoviano em que o estado é uma pilha de políticas que representam o estado de controle, ou seja, a cadeia de chamadas de políticas. Diferente de métodos tradicionais restritos a hierarquias estáticas, o SteP permite um controle dinâmico que se adapta à complexidade da tarefa. Avaliamos o SteP em comparação com múltiplas baselines e ambientes web, incluindo WebArena, MiniWoB++ e um CRM. No WebArena, o SteP apresenta melhorias (de 14,9\% a 33,5\%) em relação ao estado da arte que utiliza políticas GPT-4, enquanto no MiniWob++ o SteP é competitivo com trabalhos anteriores, utilizando significativamente menos dados. Nosso código e dados estão disponíveis em https://asappresearch.github.io/webagents-step.
Apresentamos o DragView, uma estrutura interativa e inovadora para gerar novas visualizações de cenas não vistas. O DragView inicializa a nova visualização a partir de uma única imagem de origem, e a renderização é suportada por um conjunto esparso de imagens multiview não posicionadas, tudo executado de forma contínua em uma única passagem de feed-forward. Nossa abordagem começa com os usuários arrastando uma visualização de origem através de um sistema de coordenadas relativas locais. Características alinhadas por pixel são obtidas projetando os pontos 3D amostrados ao longo do raio de destino na visualização de origem. Em seguida, incorporamos uma camada de modulação dependente da visualização para lidar efetivamente com oclusões durante a projeção. Além disso, ampliamos o mecanismo de atenção epipolar para abranger todos os pixels de origem, facilitando a agregação de características de pontos alinhados por coordenadas inicializadas a partir de outras visualizações não posicionadas. Por fim, empregamos outro transformador para decodificar as características do raio em intensidades de pixel finais. Crucialmente, nossa estrutura não depende de modelos de prioridade 2D nem da estimativa explícita de poses da câmera. Durante os testes, o DragView demonstra a capacidade de generalizar para novas cenas não vistas durante o treinamento, utilizando apenas imagens de suporte não posicionadas, permitindo a geração de novas visualizações foto-realísticas caracterizadas por trajetórias de câmera flexíveis. Em nossos experimentos, realizamos uma comparação abrangente do desempenho do DragView com redes recentes de representação de cenas operando em condições sem poses, bem como com NeRFs generalizáveis sujeitos a poses de câmera de teste ruidosas. O DragView demonstra consistentemente seu desempenho superior na qualidade de síntese de visualização, além de ser mais amigável ao usuário. Página do projeto: https://zhiwenfan.github.io/DragView/.