Artigos de pesquisa em IA selecionados diariamente com traduções
Investigamos até que ponto os modelos de linguagem de grande escala (LLMs) contemporâneos podem se engajar em exploração, uma capacidade fundamental no aprendizado por reforço e na tomada de decisões. Nos concentramos no desempenho nativo dos LLMs existentes, sem intervenções de treinamento. Implantamos LLMs como agentes em ambientes simples de bandido multi-armado, especificando a descrição do ambiente e o histórico de interação inteiramente em contexto, ou seja, dentro do prompt do LLM. Realizamos experimentos com GPT-3.5, GPT-4 e Llama2, utilizando uma variedade de designs de prompt, e descobrimos que os modelos não se engajam de forma robusta em exploração sem intervenções substanciais: i) Em todos os nossos experimentos, apenas uma configuração resultou em comportamento exploratório satisfatório: GPT-4 com raciocínio em cadeia de pensamento e um histórico de interação resumido externamente, apresentado como estatísticas suficientes; ii) Todas as outras configurações não resultaram em comportamento exploratório robusto, incluindo aquelas com raciocínio em cadeia de pensamento, mas com histórico não resumido. Embora essas descobertas possam ser interpretadas positivamente, elas sugerem que a sumarização externa -- que pode não ser viável em cenários mais complexos -- é importante para obter comportamentos desejáveis de agentes baseados em LLMs. Concluímos que intervenções algorítmicas não triviais, como ajuste fino ou curadoria de dados, podem ser necessárias para capacitar agentes de tomada de decisão baseados em LLMs em cenários complexos.
Apresentamos o InternVideo2, um novo modelo de base para vídeo (ViFM) que alcança o estado da arte em reconhecimento de ações, tarefas vídeo-texto e diálogo centrado em vídeo. Nossa abordagem emprega um paradigma de treinamento progressivo que unifica diferentes frameworks de aprendizado auto ou fracamente supervisionado, incluindo reconstrução de tokens de vídeo mascarados, aprendizado contrastivo multimodal e previsão do próximo token. Diferentes estágios de treinamento orientam nosso modelo a capturar diferentes níveis de informação estrutural e semântica por meio de diferentes tarefas pretexto. No nível dos dados, priorizamos a consistência espaço-temporal através da segmentação semântica de vídeos e da geração de legendas vídeo-áudio-fala. Isso melhora o alinhamento entre vídeo e texto. Escalonamos tanto o tamanho dos dados quanto do modelo para o nosso InternVideo2. Por meio de extensos experimentos, validamos nossos projetos e demonstramos o desempenho de ponta em mais de 60 tarefas de vídeo e áudio. Notavelmente, nosso modelo supera outros em vários benchmarks relacionados a legendagem de vídeo, diálogo e compreensão de vídeos longos, destacando sua capacidade de raciocinar e compreender contextos temporais longos. O código e os modelos estão disponíveis em https://github.com/OpenGVLab/InternVideo2/.
Modelos de linguagem grandes pré-treinados (LLMs) atualmente representam o estado da arte para resolver a grande maioria das tarefas de processamento de linguagem natural. Embora muitas aplicações do mundo real ainda exijam ajuste fino para atingir níveis satisfatórios de desempenho, muitas delas operam em regimes de baixo volume de dados, tornando o ajuste fino desafiador. Para abordar isso, propomos o LLM2LLM, uma estratégia de aumento de dados direcionada e iterativa que utiliza um LLM professor para aprimorar um pequeno conjunto de dados inicial, aumentando dados adicionais que podem ser usados para ajuste fino em uma tarefa específica. O LLM2LLM (1) ajusta um LLM estudante de base nos dados iniciais, (2) avalia e extrai pontos de dados que o modelo classifica incorretamente, e (3) usa um LLM professor para gerar dados sintéticos com base nesses pontos incorretos, que são então reintegrados aos dados de treinamento. Essa abordagem amplifica o sinal dos pontos de dados previstos incorretamente pelo LLM durante o treinamento e os reintegra ao conjunto de dados para focar em exemplos mais desafiadores para o LLM. Nossos resultados mostram que o LLM2LLM melhora significativamente o desempenho de LLMs em regimes de baixo volume de dados, superando tanto o ajuste fino tradicional quanto outras abordagens de aumento de dados. O LLM2LLM reduz a dependência da curadoria de dados intensiva em mão de obra e abre caminho para soluções de LLM mais escaláveis e eficientes, permitindo-nos abordar domínios e tarefas com restrições de dados. Alcançamos melhorias de até 24,2% no conjunto de dados GSM8K, 32,6% no CaseHOLD, 32,0% no SNIPS, 52,6% no TREC e 39,8% no SST-2 em relação ao ajuste fino regular no regime de baixo volume de dados, utilizando um modelo estudante LLaMA2-7B.
Neste estudo, introduzimos uma metodologia para animação de imagens humanas ao utilizar um modelo paramétrico humano 3D dentro de um framework de difusão latente para aprimorar o alinhamento de forma e a orientação de movimento nas técnicas atuais de geração humana. A metodologia emprega o modelo SMPL (Skinned Multi-Person Linear) como o modelo paramétrico humano 3D para estabelecer uma representação unificada da forma corporal e da pose. Isso facilita a captura precisa da geometria humana intrincada e das características de movimento a partir de vídeos de origem. Especificamente, incorporamos imagens de profundidade renderizadas, mapas normais e mapas semânticos obtidos de sequências SMPL, juntamente com orientação de movimento baseada em esqueleto, para enriquecer as condições do modelo de difusão latente com uma forma 3D abrangente e atributos detalhados de pose. Um módulo de fusão de movimento em múltiplas camadas, integrando mecanismos de auto-atenção, é empregado para fundir as representações latentes de forma e movimento no domínio espacial. Ao representar o modelo paramétrico humano 3D como a orientação de movimento, podemos realizar o alinhamento paramétrico da forma do corpo humano entre a imagem de referência e o movimento do vídeo de origem. Avaliações experimentais conduzidas em conjuntos de dados de referência demonstram a capacidade superior da metodologia em gerar animações humanas de alta qualidade que capturam com precisão tanto as variações de pose quanto de forma. Além disso, nossa abordagem também exibe capacidades de generalização superiores no conjunto de dados proposto. Página do projeto: https://fudan-generative-vision.github.io/champ.
Aplicações do mundo real frequentemente exigem uma grande galeria de ativos 3D que compartilham um tema consistente. Embora avanços notáveis tenham sido feitos na criação geral de conteúdo 3D a partir de texto ou imagem, a síntese de ativos 3D personalizados que seguem o tema compartilhado de exemplares 3D de entrada continua sendo um problema aberto e desafiador. Neste trabalho, apresentamos o ThemeStation, uma abordagem inovadora para geração 3D-to-3D com consciência temática. O ThemeStation sintetiza ativos 3D personalizados com base em poucos exemplares fornecidos, com dois objetivos: 1) unidade, para gerar ativos 3D que se alinham tematicamente com os exemplares fornecidos, e 2) diversidade, para gerar ativos 3D com um alto grau de variações. Para isso, projetamos uma estrutura de duas etapas que primeiro desenha uma imagem conceitual, seguida por uma etapa de modelagem 3D informada por referência. Propomos uma nova função de perda de destilação de pontuação dupla (DSD) para aproveitar conjuntamente os conhecimentos prévios tanto dos exemplares de entrada quanto da imagem conceitual sintetizada. Experimentos extensivos e estudos com usuários confirmam que o ThemeStation supera trabalhos anteriores na produção de modelos 3D diversos e com consciência temática, com qualidade impressionante. O ThemeStation também possibilita várias aplicações, como a geração 3D-to-3D controlável.
Neste artigo, propomos o VidLA, uma abordagem para o alinhamento vídeo-linguagem em larga escala. Existem duas grandes limitações nas abordagens anteriores de alinhamento vídeo-linguagem. Primeiro, elas não capturam dependências temporais de curto e longo prazo e geralmente empregam arquiteturas de redes profundas hierárquicas complexas que são difíceis de integrar com modelos de base pré-treinados de imagem-texto existentes. Para abordar efetivamente essa limitação, mantemos a arquitetura da rede simples e utilizamos um conjunto de tokens de dados que operam em diferentes resoluções temporais de maneira hierárquica, considerando a natureza temporalmente hierárquica dos vídeos. Ao empregar uma arquitetura simples de duas torres, conseguimos inicializar nosso modelo vídeo-linguagem com modelos de base pré-treinados de imagem-texto, melhorando assim o desempenho final. Segundo, os trabalhos existentes de alinhamento vídeo-linguagem enfrentam dificuldades devido à falta de dados de treinamento em larga escala semanticamente alinhados. Para superar isso, aproveitamos LLMs recentes para criar o maior conjunto de dados vídeo-linguagem até o momento, com melhor fundamentação visual. Além disso, ao contrário dos conjuntos de dados vídeo-texto existentes, que contêm apenas clipes curtos, nosso conjunto de dados é enriquecido com clipes de vídeo de durações variadas para auxiliar nossos tokens de dados temporalmente hierárquicos a extrair melhores representações em diferentes escalas temporais. No geral, os resultados empíricos mostram que nossa abordagem proposta supera os métodos state-of-the-art em vários benchmarks de recuperação, especialmente em vídeos mais longos, e tem desempenho competitivo em benchmarks de classificação.
Os Transformers adotaram amplamente redes de atenção para a mistura de sequências e MLPs (Multi-Layer Perceptrons) para a mistura de canais, desempenhando um papel fundamental na conquista de avanços em diversos domínios. No entanto, a literatura recente destaca problemas com as redes de atenção, incluindo baixo viés indutivo e complexidade quadrática em relação ao comprimento da sequência de entrada. Modelos de Espaço de Estados (SSMs, na sigla em inglês), como S4 e outros (Hippo, Convoluções Globais, liquid S4, LRU, Mega e Mamba), surgiram para abordar esses problemas e ajudar a lidar com sequências mais longas. O Mamba, embora seja o SSM mais avançado, apresenta um problema de estabilidade quando dimensionado para grandes redes em conjuntos de dados de visão computacional. Propomos o SiMBA, uma nova arquitetura que introduz a Einstein FFT (EinFFT) para a modelagem de canais por meio de cálculos específicos de autovalores e utiliza o bloco Mamba para a modelagem de sequências. Estudos extensivos de desempenho em benchmarks de imagens e séries temporais demonstram que o SiMBA supera os SSMs existentes, reduzindo a lacuna de desempenho em relação aos transformers mais avançados. Notavelmente, o SiMBA se estabelece como o novo SSM mais avançado no ImageNet e em benchmarks de aprendizado por transferência, como Stanford Car e Flower, além de benchmarks de aprendizado de tarefas e sete conjuntos de dados de séries temporais. A página do projeto está disponível no site ~https://github.com/badripatro/Simba.
Apresentamos o DragAPart, um método que, dada uma imagem e um conjunto de arrastos como entrada, pode gerar uma nova imagem do mesmo objeto em um novo estado, compatível com a ação dos arrastos. Diferentemente de trabalhos anteriores que se concentraram no reposicionamento de objetos, o DragAPart prevê interações em nível de partes, como abrir e fechar uma gaveta. Estudamos esse problema como um proxy para aprender um modelo de movimento generalista, não restrito a uma estrutura cinemática ou categoria de objeto específica. Para isso, partimos de um gerador de imagens pré-treinado e o ajustamos em um novo conjunto de dados sintético, o Drag-a-Move, que introduzimos. Combinado com uma nova codificação para os arrastos e randomização do conjunto de dados, o novo modelo generaliza bem para imagens reais e diferentes categorias. Em comparação com geradores controlados por movimento anteriores, demonstramos uma compreensão muito melhor do movimento em nível de partes.
Os modernos Modelos de Linguagem de Grande Escala (LLMs) são capazes de seguir instruções longas e complexas que permitem uma ampla variedade de tarefas do usuário. No entanto, apesar dos modelos de Recuperação de Informação (IR) utilizarem LLMs como a base de suas arquiteturas, quase todos ainda recebem apenas consultas como entrada, sem instruções. Para os poucos modelos recentes que de fato recebem instruções, não está claro como eles as utilizam. Apresentamos nosso conjunto de dados FollowIR, que contém um rigoroso benchmark de avaliação de instruções, bem como um conjunto de treinamento para ajudar modelos de IR a aprender a seguir melhor instruções do mundo real. O FollowIR se baseia na longa história das conferências TREC: assim como o TREC fornece instruções (também conhecidas como narrativas) para anotadores humanos determinarem a relevância de documentos, os modelos de IR também devem ser capazes de entender e decidir a relevância com base nessas instruções detalhadas. Nosso benchmark de avaliação começa com três coleções TREC profundamente julgadas e altera as instruções dos anotadores, reanotando documentos relevantes. Por meio desse processo, podemos medir o quão bem os modelos de IR seguem instruções, utilizando um novo framework de avaliação pareada. Nossos resultados indicam que os modelos de recuperação existentes falham em utilizar corretamente as instruções, limitando-se a palavras-chave básicas e tendo dificuldade em entender informações de formato longo. No entanto, mostramos que é possível para modelos de IR aprenderem a seguir instruções complexas: nosso novo modelo FollowIR-7B apresenta melhorias significativas (mais de 13%) após o ajuste fino em nosso conjunto de treinamento.
O feedback textual constitui um repositório valioso de experiências, opiniões e requisitos dos usuários, essenciais para o desenvolvimento de software. Extrair insights valiosos de forma eficaz e eficiente a partir desses dados representa uma tarefa desafiadora. Este artigo apresenta o Allhands, uma estrutura analítica inovadora projetada para a análise de feedback em larga escala por meio de uma interface de linguagem natural, aproveitando modelos de linguagem de grande escala (LLMs). O Allhands segue um fluxo de trabalho convencional de análise de feedback, inicialmente realizando classificação e modelagem de tópicos no feedback para convertê-lo em um formato estruturalmente aprimorado, incorporando LLMs para aumentar a precisão, robustez, generalização e facilidade de uso. Posteriormente, um agente LLM é empregado para interpretar as diversas perguntas dos usuários em linguagem natural sobre o feedback, traduzindo-as em código Python para execução e fornecendo respostas multimodais abrangentes, incluindo texto, código, tabelas e imagens. Avaliamos o Allhands em três conjuntos de dados de feedback diversos. Os experimentos demonstram que o Allhands alcança eficácia superior em todas as etapas da análise, incluindo classificação e modelagem de tópicos, oferecendo aos usuários uma experiência de "pergunte-me qualquer coisa" com respostas abrangentes, corretas e de fácil compreensão. Até onde sabemos, o Allhands se destaca como a primeira estrutura abrangente de análise de feedback que suporta requisitos diversos e personalizados para extração de insights por meio de uma interface de linguagem natural.
Abordagens recentes de geração de texto para 3D produzem resultados 3D impressionantes, mas exigem uma otimização demorada que pode levar até uma hora por prompt. Métodos amortizados como o ATT3D otimizam múltiplos prompts simultaneamente para melhorar a eficiência, permitindo uma síntese rápida de texto para 3D. No entanto, eles não conseguem capturar detalhes geométricos e texturais de alta frequência e têm dificuldade em escalar para grandes conjuntos de prompts, o que resulta em uma generalização ruim. Apresentamos o LATTE3D, que aborda essas limitações para alcançar uma geração rápida e de alta qualidade em um conjunto de prompts significativamente maior. A chave do nosso método é 1) construir uma arquitetura escalável e 2) aproveitar dados 3D durante a otimização por meio de priors de difusão 3D-aware, regularização de forma e inicialização de modelo para alcançar robustez frente a prompts de treinamento diversos e complexos. O LATTE3D amortiza tanto a geração de campos neurais quanto de superfícies texturizadas para produzir malhas texturizadas altamente detalhadas em uma única passagem direta. O LATTE3D gera objetos 3D em 400ms e pode ser aprimorado com uma otimização rápida em tempo de teste.
Apresentamos um novo paradigma em otimização de compiladores impulsionado por Modelos de Linguagem de Grande Escala (LLMs) com feedback do compilador para otimizar o tamanho do código em assembly LLVM. O modelo recebe como entrada um LLVM IR não otimizado e produz um IR otimizado, as melhores passagens de otimização e as contagens de instruções tanto do IR não otimizado quanto do otimizado. Em seguida, compilamos a entrada com as passagens de otimização geradas e avaliamos se a contagem de instruções prevista está correta, se o IR gerado é compilável e se corresponde ao código compilado. Fornecemos esse feedback de volta ao LLM e damos a ele outra chance de otimizar o código. Essa abordagem adiciona uma melhoria extra de 0,53% sobre -Oz ao modelo original. Embora a adição de mais informações com feedback pareça intuitiva, técnicas simples de amostragem alcançam um desempenho muito maior quando são fornecidas 10 ou mais amostras.