Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos a família de modelos Yi, uma série de modelos de linguagem e multimodais que demonstram fortes capacidades multidimensionais. A família de modelos Yi é baseada em modelos de linguagem pré-treinados de 6B e 34B, que então estendemos para modelos de chat, modelos de contexto longo de 200K, modelos com profundidade escalonada e modelos de visão e linguagem. Nossos modelos base alcançam um desempenho robusto em uma ampla gama de benchmarks, como o MMLU, e nossos modelos de chat ajustados obtêm uma alta taxa de preferência humana em principais plataformas de avaliação, como o AlpacaEval e o Chatbot Arena. Com base em nossa infraestrutura escalável de supercomputação e na arquitetura clássica de transformers, atribuímos o desempenho dos modelos Yi principalmente à qualidade dos dados resultante de nossos esforços de engenharia de dados. Para o pré-treinamento, construímos um corpus de 3,1 trilhões de tokens em inglês e chinês utilizando um pipeline em cascata de deduplicação e filtragem de qualidade de dados. Para o ajuste fino, refinamos um conjunto de dados de instruções em pequena escala (menos de 10K) ao longo de múltiplas iterações, de modo que cada instância foi verificada diretamente por nossos engenheiros de aprendizado de máquina. Para visão e linguagem, combinamos o modelo de linguagem de chat com um codificador de transformer de visão e treinamos o modelo para alinhar representações visuais ao espaço semântico do modelo de linguagem. Além disso, estendemos o comprimento do contexto para 200K por meio de pré-treinamento contínuo leve e demonstramos um forte desempenho na tarefa de recuperação de "agulha no palheiro". Mostramos que estender a profundidade do checkpoint pré-treinado por meio de pré-treinamento contínuo melhora ainda mais o desempenho. Acreditamos que, dados nossos resultados atuais, continuar a escalar os parâmetros do modelo utilizando dados minuciosamente otimizados levará a modelos de fronteira ainda mais robustos.
O Aprendizado por Reforço com Feedback Humano (RLHF) surgiu como uma abordagem dominante para alinhar as saídas de Modelos de Linguagem de Grande Escala (LLMs) com as preferências humanas. Inspirados pelo sucesso do RLHF, estudamos o desempenho de múltiplos algoritmos que aprendem a partir de feedback (Iteração de Especialista, Otimização de Política Proximal (PPO), Aprendizado por Reforço Condicionado ao Retorno) na melhoria das capacidades de raciocínio dos LLMs. Investigamos tanto recompensas esparsas quanto densas fornecidas ao LLM, tanto heuristicamente quanto por meio de um modelo de recompensa aprendido. Além disso, partimos de múltiplos tamanhos de modelos e inicializações, tanto com quanto sem dados de ajuste fino supervisionado (SFT). No geral, descobrimos que todos os algoritmos têm desempenho comparável, com a Iteração de Especialista apresentando o melhor desempenho na maioria dos casos. Surpreendentemente, descobrimos que a complexidade amostral da Iteração de Especialista é semelhante à do PPO, exigindo no máximo da ordem de 10^6 amostras para convergir a partir de um ponto de verificação pré-treinado. Investigamos por que isso ocorre, concluindo que, durante o treinamento de RL, os modelos falham em explorar significativamente além das soluções já produzidas pelos modelos SFT. Além disso, discutimos uma troca entre as métricas maj@1 e pass@96 durante o treinamento SFT e como, inversamente, o treinamento de RL melhora ambas simultaneamente. Concluímos discutindo as implicações de nossas descobertas para o RLHF e o futuro papel do RL no ajuste fino de LLMs.
Os Modelos de Linguagem de Grande Escala (LLMs) desbloquearam novas capacidades e aplicações; no entanto, avaliar o alinhamento com as preferências humanas ainda apresenta desafios significativos. Para abordar essa questão, introduzimos o Chatbot Arena, uma plataforma aberta para avaliação de LLMs com base nas preferências humanas. Nossa metodologia emprega uma abordagem de comparação pareada e aproveita a contribuição de uma base diversificada de usuários por meio de crowdsourcing. A plataforma está operacional há vários meses, acumulando mais de 240 mil votos. Este artigo descreve a plataforma, analisa os dados que coletamos até agora e explica os métodos estatísticos comprovados que estamos utilizando para uma avaliação e classificação eficiente e precisa dos modelos. Confirmamos que as perguntas crowdsourced são suficientemente diversas e discriminatórias e que os votos humanos coletados estão em boa concordância com os de avaliadores especializados. Essas análises estabelecem coletivamente uma base robusta para a credibilidade do Chatbot Arena. Devido ao seu valor único e à sua abertura, o Chatbot Arena emergiu como um dos quadros de liderança de LLMs mais referenciados, amplamente citado por desenvolvedores e empresas líderes de LLMs. Nossa demonstração está publicamente disponível em https://chat.lmsys.org.
A edição de imagens baseada em pontos tem atraído atenção significativa desde o surgimento do DragGAN. Recentemente, o DragDiffusion avançou ainda mais a qualidade gerativa ao adaptar essa técnica de arrasto para modelos de difusão. Apesar desses grandes sucessos, esse esquema de arrasto apresenta duas principais desvantagens: o rastreamento impreciso de pontos e a supervisão de movimento incompleta, o que pode resultar em resultados de arrasto insatisfatórios. Para resolver esses problemas, construímos uma estrutura de edição baseada em arrasto estável e precisa, denominada StableDrag, ao projetar um método discriminativo de rastreamento de pontos e uma estratégia de aprimoramento latente baseada em confiança para a supervisão de movimento. O primeiro nos permite localizar com precisão os pontos de manipulação atualizados, aumentando assim a estabilidade da manipulação de longo alcance, enquanto o segundo é responsável por garantir que o latente otimizado seja da mais alta qualidade possível em todas as etapas de manipulação. Graças a esses designs únicos, instanciamos dois tipos de modelos de edição de imagem, incluindo o StableDrag-GAN e o StableDrag-Diff, que alcançam um desempenho de arrasto mais estável, por meio de extensos experimentos qualitativos e avaliação quantitativa no DragBench.
Ferramentas são essenciais para que modelos de linguagem de grande escala (LLMs) obtenham informações atualizadas e realizem ações consequentes em ambientes externos. Trabalhos existentes sobre LLMs aumentados por ferramentas focam principalmente na ampla cobertura de ferramentas e na flexibilidade de adicionar novas ferramentas. No entanto, um aspecto crítico que surpreendentemente tem sido pouco estudado é simplesmente quão precisamente um LLM utiliza as ferramentas para as quais foi treinado. Descobrimos que os LLMs existentes, incluindo o GPT-4 e LLMs de código aberto especificamente ajustados para o uso de ferramentas, atingem apenas uma taxa de acerto na faixa de 30% a 60%, longe de um uso confiável na prática. Propomos um método inspirado na biologia para LLMs aumentados por ferramentas, chamado de tentativa e erro simulada (STE, do inglês Simulated Trial and Error), que orquestra três mecanismos-chave para comportamentos bem-sucedidos de uso de ferramentas no sistema biológico: tentativa e erro, imaginação e memória. Especificamente, o STE aproveita a 'imaginação' de um LLM para simular cenários plausíveis de uso de uma ferramenta, após o qual o LLM interage com a ferramenta para aprender com o feedback de sua execução. Tanto a memória de curto prazo quanto a de longo prazo são empregadas para melhorar, respectivamente, a profundidade e a amplitude da exploração. Experimentos abrangentes no ToolBench mostram que o STE melhora substancialmente o aprendizado de ferramentas para LLMs tanto em configurações de aprendizado em contexto quanto de ajuste fino, proporcionando um aumento de 46,7% para o Mistral-Instruct-7B e permitindo que ele supere o GPT-4. Também demonstramos um aprendizado contínuo eficaz de ferramentas por meio de uma simples estratégia de replay de experiências.
Modelos de Visão e Linguagem (VLMs, na sigla em inglês), como o GPT-4V, recentemente demonstraram avanços impressionantes em diversas tarefas que envolvem visão e linguagem. Neste estudo, exploramos o raciocínio dedutivo baseado em visão, um domínio mais sofisticado e menos explorado, e identificamos pontos cegos previamente desconhecidos nos VLMs de última geração (SOTA). Especificamente, utilizamos as Matrizes Progressivas de Raven (RPMs) para avaliar a capacidade dos VLMs de realizar raciocínios relacionais e dedutivos de múltiplos passos, dependendo exclusivamente de pistas visuais. Realizamos avaliações abrangentes de vários VLMs populares, empregando estratégias padrão, como aprendizado em contexto, autoconsistência e Cadeia de Pensamentos (CoT, na sigla em inglês), em três conjuntos de dados diversos, incluindo o teste de QI da Mensa, o IntelligenceTest e o RAVEN. Os resultados revelam que, apesar das capacidades impressionantes dos Modelos de Linguagem de Grande Escala (LLMs) em raciocínio baseado em texto, ainda estamos longe de alcançar uma proficiência comparável em raciocínio dedutivo visual. Descobrimos que certas estratégias padrão, eficazes quando aplicadas a LLMs, não se traduzem de forma fluida para os desafios apresentados por tarefas de raciocínio visual. Além disso, uma análise detalhada mostra que os VLMs têm dificuldade em resolver essas tarefas principalmente porque não conseguem perceber e compreender múltiplos padrões abstratos e confusos presentes nos exemplos de RPMs.
Anteriormente, acreditava-se que as capacidades matemáticas emergiam em modelos de linguagem comuns apenas em escalas muito grandes ou exigiam um extenso pré-treinamento relacionado à matemática. Este artigo demonstra que o modelo LLaMA-2 7B com pré-treinamento comum já exibe fortes habilidades matemáticas, evidenciadas por sua impressionante precisão de 97,7% e 72,0% nos benchmarks GSM8K e MATH, respectivamente, ao selecionar a melhor resposta entre 256 gerações aleatórias. O principal problema com o modelo base atual é a dificuldade em eliciar consistentemente suas capacidades matemáticas inerentes. Notavelmente, a precisão da primeira resposta cai para 49,5% e 7,9% nos benchmarks GSM8K e MATH, respectivamente. Descobrimos que simplesmente aumentar os dados de SFT (Supervised Fine-Tuning) pode melhorar significativamente a confiabilidade na geração de respostas corretas. No entanto, o potencial de escalonamento extensivo é limitado pela escassez de questões matemáticas disponíveis publicamente. Para superar essa limitação, empregamos dados sintéticos, que se mostram quase tão eficazes quanto dados reais e não apresentam saturação clara quando escalonados para aproximadamente um milhão de amostras. Essa abordagem simples alcança uma precisão de 82,6% no GSM8K e 40,6% no MATH usando modelos LLaMA-2 7B, superando modelos anteriores em 14,2% e 20,8%, respectivamente. Também fornecemos insights sobre comportamentos de escalonamento em diferentes complexidades de raciocínio e tipos de erro.
Apresentamos o Pix2Gif, um modelo de difusão guiado por movimento para a geração de imagem-para-GIF (vídeo). Abordamos esse problema de forma diferente, formulando a tarefa como um problema de tradução de imagem orientado por prompts de texto e magnitude de movimento, conforme mostrado na figura teaser. Para garantir que o modelo adira à orientação de movimento, propomos um novo módulo de deformação guiado por movimento para transformar espacialmente as características da imagem de origem condicionadas aos dois tipos de prompts. Além disso, introduzimos uma função de perda perceptual para garantir que o mapa de características transformado permaneça no mesmo espaço da imagem de destino, assegurando consistência e coerência de conteúdo. Na preparação para o treinamento do modelo, curamos meticulosamente os dados, extraindo quadros de imagem coerentes do conjunto de dados TGIF de vídeo-legenda, que fornece informações ricas sobre as mudanças temporais dos sujeitos. Após o pré-treinamento, aplicamos nosso modelo de maneira zero-shot a vários conjuntos de dados de vídeo. Experimentos qualitativos e quantitativos extensivos demonstram a eficácia do nosso modelo — ele não apenas captura o prompt semântico do texto, mas também os espaciais da orientação de movimento. Treinamos todos os nossos modelos usando um único nó com 16 GPUs V100. Código, conjunto de dados e modelos estão disponíveis publicamente em: https://hiteshk03.github.io/Pix2Gif/.
O raio X é amplamente utilizado para imagens de transmissão devido à sua maior penetração em comparação com a luz natural. Ao renderizar projeções de raio X em novas perspectivas, os métodos existentes baseados principalmente em NeRF sofrem com tempos de treinamento longos e velocidade de inferência lenta. Neste artigo, propomos uma estrutura baseada em splatting de Gaussianas 3D, denominada X-Gaussian, para a síntese de novas perspectivas de raio X. Primeiramente, redesenhamos um modelo de nuvem de pontos Gaussianos radiativos inspirado na natureza isotrópica da imagem de raio X. Nosso modelo exclui a influência da direção da visão ao aprender a prever a intensidade de radiação dos pontos 3D. Com base nesse modelo, desenvolvemos uma Rasterização Radiativa Diferenciável (DRR) com implementação em CUDA. Em segundo lugar, personalizamos uma estratégia de Inicialização Uniforme de Cuboide com Ângulo e Pose (ACUI) que utiliza diretamente os parâmetros do scanner de raio X para calcular as informações da câmera e, em seguida, amostra uniformemente as posições dos pontos dentro de um cuboide que envolve o objeto escaneado. Os experimentos mostram que nosso X-Gaussian supera os métodos state-of-the-art em 6,5 dB, enquanto desfruta de menos de 15% do tempo de treinamento e mais de 73x na velocidade de inferência. A aplicação na reconstrução de TC com visão esparsa também revela os valores práticos do nosso método. O código e os modelos estarão publicamente disponíveis em https://github.com/caiyuanhao1998/X-Gaussian. Um vídeo demonstrativo da visualização do processo de treinamento está disponível em https://www.youtube.com/watch?v=gDVf_Ngeghg.