Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o FinTral, um conjunto de modelos de linguagem multimodal (LLMs) de última geração, construído sobre o modelo Mistral-7b e adaptado para análise financeira. O FinTral integra dados textuais, numéricos, tabulares e de imagem. Aprimoramos o FinTral com pré-treinamento específico do domínio, ajuste fino por instrução e treinamento RLAIF, utilizando uma extensa coleção de conjuntos de dados textuais e visuais que curamos para este trabalho. Também introduzimos um benchmark abrangente, composto por nove tarefas e 25 conjuntos de dados para avaliação, incluindo alucinações no domínio financeiro. Nosso modelo FinTral treinado com otimização direta de preferência, empregando métodos avançados de Ferramentas e Recuperação, denominado FinTral-DPO-T&R, demonstra um desempenho excepcional em zero-shot. Ele supera o ChatGPT-3.5 em todas as tarefas e ultrapassa o GPT-4 em cinco das nove tarefas, marcando um avanço significativo na tecnologia financeira impulsionada por IA. Também demonstramos que o FinTral tem potencial para se destacar em análises em tempo real e tomada de decisão em diversos contextos financeiros.
A natureza é infinitamente livre de resolução. No contexto dessa realidade, os modelos de difusão existentes, como os Transformers de Difusão, frequentemente enfrentam desafios ao processar resoluções de imagem fora de seu domínio de treinamento. Para superar essa limitação, apresentamos o Flexible Vision Transformer (FiT), uma arquitetura de transformer projetada especificamente para gerar imagens com resoluções e proporções de aspecto ilimitadas. Diferentemente dos métodos tradicionais que percebem as imagens como grades de resolução estática, o FiT conceitua as imagens como sequências de tokens de tamanho dinâmico. Essa perspectiva permite uma estratégia de treinamento flexível que se adapta facilmente a diversas proporções de aspecto durante as fases de treinamento e inferência, promovendo assim a generalização de resolução e eliminando vieses induzidos pelo recorte de imagens. Aprimorado por uma estrutura de rede meticulosamente ajustada e pela integração de técnicas de extrapolação sem treinamento, o FiT exibe uma flexibilidade notável na geração de extrapolação de resolução. Experimentos abrangentes demonstram o desempenho excepcional do FiT em uma ampla gama de resoluções, destacando sua eficácia tanto dentro quanto além de sua distribuição de resolução de treinamento. Repositório disponível em https://github.com/whlzy/FiT.
Apresentamos o AnyGPT, um modelo de linguagem multimodal any-to-any que utiliza representações discretas para o processamento unificado de várias modalidades, incluindo fala, texto, imagens e música. O AnyGPT pode ser treinado de forma estável sem qualquer alteração na arquitetura atual de modelos de linguagem de grande escala (LLM) ou nos paradigmas de treinamento. Em vez disso, ele depende exclusivamente de pré-processamento em nível de dados, facilitando a integração contínua de novas modalidades em LLMs, semelhante à incorporação de novos idiomas. Construímos um conjunto de dados multimodal centrado em texto para pré-treinamento de alinhamento multimodal. Utilizando modelos generativos, sintetizamos o primeiro conjunto de dados de instrução multimodal any-to-any em grande escala. Ele consiste em 108k amostras de conversas multi-turn que entrelaçam intricadamente várias modalidades, equipando assim o modelo para lidar com combinações arbitrárias de entradas e saídas multimodais. Os resultados experimentais demonstram que o AnyGPT é capaz de facilitar conversas multimodais any-to-any enquanto alcança desempenho comparável a modelos especializados em todas as modalidades, provando que representações discretas podem unificar de forma eficaz e conveniente múltiplas modalidades dentro de um modelo de linguagem. Demonstrações estão disponíveis em https://junzhan2000.github.io/AnyGPT.github.io/.
A decodificação especulativa é uma técnica proeminente para acelerar a inferência de um grande modelo de linguagem alvo com base nas previsões de um modelo auxiliar de rascunho. Embora eficaz, em cenários específicos de aplicação, ela frequentemente envolve o ajuste fino tanto do modelo de rascunho quanto do modelo alvo para alcançar altas taxas de aceitação. À medida que o número de tarefas subsequentes aumenta, esses modelos de rascunho adicionam uma complexidade significativa aos sistemas de inferência. Propomos o Speculative Streaming, um método de decodificação especulativa de modelo único que integra a criação de rascunhos ao modelo alvo, alterando o objetivo de ajuste fino da previsão do próximo token para a previsão de n-gramas futuros. O Speculative Streaming acelera a decodificação em 1,8 a 3,1 vezes em um conjunto diversificado de tarefas, como Sumarização, Consultas Estruturadas e Representação de Significado, sem sacrificar a qualidade da geração. Além disso, o Speculative Streaming é eficiente em termos de parâmetros. Ele alcança acelerações equivalentes ou superiores às arquiteturas do estilo Medusa, enquanto utiliza aproximadamente 10.000 vezes menos parâmetros extras, tornando-o bem adequado para dispositivos com recursos limitados.
A quantização de modelos utiliza valores de baixa largura de bits para representar as matrizes de pesos dos modelos, sendo uma abordagem promissora para reduzir tanto o armazenamento quanto os custos computacionais associados à implantação de LLMs altamente esperados. No entanto, os métodos de quantização existentes sofrem uma degradação severa de desempenho quando a largura de bits é extremamente reduzida e, portanto, concentram-se na utilização de valores de 4 ou 8 bits para quantizar os modelos. Este artigo ousadamente quantiza as matrizes de pesos de LLMs para 1 bit, abrindo caminho para a implantação de LLMs com largura de bits extremamente baixa. Para esse objetivo, introduzimos um framework de treinamento consciente de quantização (QAT) de 1 bit chamado OneBit, incluindo um novo método de representação de parâmetros de 1 bit para quantizar melhor os LLMs, bem como um método eficaz de inicialização de parâmetros baseado em decomposição de matrizes para melhorar a velocidade de convergência do framework QAT. Resultados experimentais suficientes indicam que o OneBit alcança um bom desempenho (pelo menos 83% do desempenho não quantizado) com processos de treinamento robustos ao utilizar apenas matrizes de pesos de 1 bit.
O notável sucesso dos Modelos de Linguagem de Grande Escala (LLMs) e do ajuste por instrução impulsiona a evolução dos Modelos de Visão e Linguagem (VLMs) em direção a um modelo versátil de propósito geral. No entanto, ainda não foi explorado se os VLMs atuais realmente possuem capacidades de compreensão de imagens em nível de objeto de qualidade, determinadas por perguntas como 'quais objetos estão na imagem?' ou 'qual objeto corresponde a uma caixa delimitadora especificada?'. Nossas descobertas revelam que as capacidades de compreensão de imagens dos VLMs atuais estão fortemente correlacionadas com seu desempenho zero-shot em tarefas de Visão e Linguagem (VL). Isso sugere que priorizar a compreensão básica de imagens é crucial para que os VLMs se destaquem em tarefas de VL. Para aprimorar a compreensão de imagens em nível de objeto, propomos o Crayon Large Language and Vision Model (CoLLaVO), que incorpora o ajuste por instrução com prompt de giz de cera como um novo esquema de ajuste de prompt visual baseado em mapas de cores panópticos. Além disso, apresentamos uma estratégia de aprendizado de Dual QLoRA para preservar a compreensão de imagens em nível de objeto sem esquecê-la durante o ajuste visual por instrução, alcançando assim um salto significativo em benchmarks zero-shot de diversas tarefas de VL.
Modelos de linguagem de grande escala (LLMs) demonstraram exibir uma ampla gama de capacidades, como escrever código para robôs a partir de comandos de linguagem — permitindo que não especialistas direcionem comportamentos de robôs, os modifiquem com base em feedback ou os combinem para realizar novas tarefas. No entanto, essas capacidades (impulsionadas pelo aprendizado em contexto) são limitadas a interações de curto prazo, onde o feedback dos usuários permanece relevante apenas enquanto se encaixa no tamanho do contexto do LLM, podendo ser esquecido em interações mais longas. Neste trabalho, investigamos o ajuste fino de LLMs que escrevem código para robôs, para que eles se lembrem de suas interações em contexto e melhorem sua capacidade de aprendizado, ou seja, a eficiência com que se adaptam a entradas humanas (medida pelo número médio de correções antes que o usuário considere a tarefa bem-sucedida). Nossa observação principal é que, quando as interações humano-robô são formuladas como um processo de decisão de Markov parcialmente observável (no qual as entradas de linguagem humana são observações, e as saídas de código do robô são ações), então treinar um LLM para completar interações anteriores pode ser visto como treinar um modelo de dinâmica de transição — que pode ser combinado com técnicas clássicas de robótica, como controle preditivo por modelo (MPC), para descobrir caminhos mais curtos para o sucesso. Isso dá origem ao Controle Preditivo por Modelo de Linguagem (LMPC), uma estrutura que ajusta o PaLM 2 para melhorar sua capacidade de aprendizado em 78 tarefas em 5 diferentes robôs — aumentando as taxas de sucesso no ensino de tarefas não vistas por não especialistas em 26,9% enquanto reduz o número médio de correções humanas de 2,4 para 1,9. Experimentos mostram que o LMPC também produz meta-aprendizes robustos, melhorando a taxa de sucesso do aprendizado em contexto de novas tarefas em robôs e APIs não vistos em 31,5%. Veja vídeos, código e demonstrações em: https://robot-teaching.github.io/.
Modelos de linguagem de grande escala (LLMs) têm demonstrado desempenho impressionante na compreensão de linguagem e na execução de tarefas complexas de raciocínio. No entanto, LLMs com janelas de contexto longas são notórios por seus custos elevados de treinamento e alta latência de inferência. Mesmo os modelos mais avançados, como GPT-4 e Claude2, frequentemente cometem erros ao processar entradas com mais de 100 mil tokens, um fenômeno também conhecido como "lost in the middle" (perdido no meio). Neste artigo, propomos o LongAgent, um método baseado na colaboração de múltiplos agentes, que escala LLMs (por exemplo, LLaMA) para um contexto de 128K e demonstra potencial superioridade no processamento de textos longos em comparação com o GPT-4. No LongAgent, um líder é responsável por compreender a intenção do usuário e direcionar os membros da equipe para adquirir informações dos documentos. Devido às alucinações dos membros, não é trivial para o líder obter informações precisas a partir das respostas de dezenas a centenas de membros. Para resolver isso, desenvolvemos um mecanismo de comunicação entre membros para resolver conflitos de respostas causados por alucinações por meio do compartilhamento de informações. Nossos resultados experimentais indicam que o LongAgent oferece uma alternativa promissora para o processamento de textos longos. A equipe de agentes instanciada com LLaMA-7B alcança melhorias significativas em tarefas como recuperação de textos de 128k e respostas a perguntas de múltiplos saltos, em comparação com o GPT-4.
A qualidade dos dados de ajuste fino é crucial para alinhar grandes modelos de linguagem (LLMs) com valores humanos. Os métodos atuais para melhorar a qualidade dos dados são ou intensivos em mão de obra ou propensos a erros factuais causados por alucinações dos LLMs. Este artigo explora a elevação da qualidade dos dados de instrução existentes para melhor alinhá-los com valores humanos, introduzindo uma abordagem simples e eficaz chamada ReAlign, que reformata as respostas dos dados de instrução em um formato que melhor se alinha com critérios pré-estabelecidos e evidências compiladas. Essa abordagem minimiza a anotação humana, a alucinação e a dificuldade de escalonamento, permanecendo ortogonal às técnicas de alinhamento existentes. Experimentalmente, o ReAlign aumenta significativamente a capacidade geral de alinhamento, o raciocínio matemático, a factualidade e a legibilidade dos LLMs. De forma encorajadora, sem introduzir dados adicionais ou técnicas avançadas de treinamento, e apenas reformatando a resposta, a capacidade de raciocínio matemático do LLaMA-2-13B no GSM8K pode ser melhorada de 46,77% para 56,63% em precisão. Além disso, apenas 5% dos dados do ReAlign resultam em um aumento de 67% na capacidade geral de alinhamento medida pelo conjunto de dados Alpaca. Este trabalho destaca a necessidade de mais pesquisas sobre a ciência e a interpretabilidade mecanicista dos LLMs. Disponibilizamos o código e os dados associados publicamente para apoiar estudos futuros em https://github.com/GAIR-NLP/ReAlign.
Modelos de linguagem de última geração podem exibir capacidades impressionantes de refinamento de raciocínio em tarefas de matemática, ciência ou programação. No entanto, trabalhos recentes demonstram que mesmo os melhores modelos lutam para identificar quando e onde refinar sem acesso a feedback externo. Modelos de Recompensa Baseados em Resultados (ORMs), treinados para prever a correção da resposta final, indicando quando refinar, oferecem uma solução conveniente para decidir quando refinar. Modelos de Recompensa Baseados em Processo (PRMs), treinados para prever a correção de etapas intermediárias, podem então ser usados para indicar onde refinar. No entanto, eles são caros de treinar, exigindo anotações humanas extensas. Neste artigo, propomos Modelos de Recompensa Baseados em Resultados Passo a Passo (SORMs), que são treinados apenas com dados sintéticos, para aproximar a recompensa futura esperada da política ótima ou V^{star}. Mais especificamente, os SORMs são treinados para prever a correção da resposta final ao amostrar a política atual várias vezes (em vez de apenas uma vez, como no caso dos ORMs). Nossos experimentos mostram que os SORMs podem detectar etapas de raciocínio incorretas com maior precisão em comparação com os ORMs, melhorando assim a precisão subsequente ao realizar refinamentos. Em seguida, treinamos modelos de refinamento global, que recebem apenas a pergunta e uma solução preliminar como entrada e preveem uma solução corrigida, e modelos de refinamento local, que também recebem como entrada uma crítica indicando a localização do primeiro erro de raciocínio. Geramos dados de treinamento para ambos os modelos sinteticamente, reutilizando dados usados para treinar o SORM. Descobrimos que combinar refinamentos globais e locais, usando o ORM como um reranker, supera significativamente qualquer um deles individualmente, bem como uma linha de base de melhor amostra de três. Com essa estratégia, podemos melhorar a precisão de um modelo LLaMA-2 13B (já ajustado com RL) no GSM8K de 53\% para 65\% quando amostrado de forma gananciosa.
Este artigo apresenta um método inovador para exercer controle refinado de iluminação durante a geração de imagens baseada em difusão orientada por texto. Embora os modelos de difusão existentes já possuam a capacidade de gerar imagens sob qualquer condição de iluminação, sem orientação adicional, esses modelos tendem a correlacionar o conteúdo da imagem com a iluminação. Além disso, os prompts de texto carecem do poder expressivo necessário para descrever configurações detalhadas de iluminação. Para fornecer ao criador de conteúdo um controle refinado sobre a iluminação durante a geração de imagens, aumentamos o prompt de texto com informações detalhadas de iluminação na forma de dicas de radiância, ou seja, visualizações da geometria da cena com um material canônico homogêneo sob a iluminação desejada. No entanto, a geometria da cena necessária para produzir as dicas de radiância é desconhecida. Nossa observação-chave é que apenas precisamos guiar o processo de difusão, portanto, dicas de radiância exatas não são necessárias; apenas precisamos direcionar o modelo de difusão na direção correta. Com base nessa observação, introduzimos um método de três estágios para controlar a iluminação durante a geração de imagens. No primeiro estágio, utilizamos um modelo de difusão pré-treinado padrão para gerar uma imagem provisória sob iluminação não controlada. Em seguida, no segundo estágio, ressintetizamos e refinamos o objeto em primeiro plano na imagem gerada, passando a iluminação desejada para um modelo de difusão refinado, denominado DiLightNet, usando dicas de radiância calculadas em uma forma grosseira do objeto em primeiro plano inferida a partir da imagem provisória. Para reter os detalhes da textura, multiplicamos as dicas de radiância por uma codificação neural da imagem sintetizada provisória antes de passá-la para o DiLightNet. Finalmente, no terceiro estágio, ressintetizamos o fundo para que seja consistente com a iluminação no objeto em primeiro plano. Demonstramos e validamos nosso modelo de difusão controlado por iluminação em uma variedade de prompts de texto e condições de iluminação.
Embora os algoritmos de síntese de visão baseados em superfície sejam atraentes devido aos seus baixos requisitos computacionais, eles frequentemente têm dificuldade em reproduzir estruturas finas. Em contraste, métodos mais custosos que modelam a geometria da cena como um campo de densidade volumétrica (por exemplo, NeRF) se destacam na reconstrução de detalhes geométricos finos. No entanto, os campos de densidade frequentemente representam a geometria de maneira "difusa", o que dificulta a localização exata da superfície. Neste trabalho, modificamos os campos de densidade para incentivá-los a convergir em direção às superfícies, sem comprometer sua capacidade de reconstruir estruturas finas. Primeiro, empregamos uma representação de grade de opacidade discreta em vez de um campo de densidade contínuo, o que permite que os valores de opacidade transitem de forma descontínua de zero para um na superfície. Segundo, realizamos anti-aliasing ao lançar múltiplos raios por pixel, o que permite que limites de oclusão e estruturas subpixel sejam modelados sem o uso de vóxels semitransparentes. Terceiro, minimizamos a entropia binária dos valores de opacidade, o que facilita a extração da geometria da superfície ao incentivar que os valores de opacidade se binarizem no final do treinamento. Por último, desenvolvemos uma estratégia de malha baseada em fusão, seguida de simplificação de malha e ajuste do modelo de aparência. As malhas compactas produzidas pelo nosso modelo podem ser renderizadas em tempo real em dispositivos móveis e alcançam uma qualidade de síntese de visão significativamente maior em comparação com as abordagens existentes baseadas em malha.
Apesar das capacidades notáveis dos modelos de visão e linguagem (VLMs) como assistentes visuais versáteis, dois desafios substanciais persistem nas estruturas existentes de VLMs: (1) a falta de diversidade de tarefas no pré-treinamento e no ajuste fino de instruções visuais, e (2) erros de anotação e viés nos dados de ajuste fino de instruções sintetizados pelo GPT-4. Ambos os desafios levam a problemas como baixa generalização, alucinação e esquecimento catastrófico. Para abordar esses desafios, construímos o Vision-Flan, o conjunto de dados de ajuste fino de instruções visuais mais diversificado disponível publicamente até o momento, compreendendo 187 tarefas diversas e 1.664.261 instâncias provenientes de conjuntos de dados acadêmicos, e cada tarefa é acompanhada por uma instrução escrita por especialistas. Além disso, propomos uma estrutura de ajuste fino de instruções em duas etapas, na qual os VLMs são primeiro ajustados no Vision-Flan e posteriormente ajustados em dados sintetizados pelo GPT-4. Descobrimos que essa estrutura de ajuste fino em duas etapas supera significativamente a estrutura tradicional de ajuste fino de instruções visuais em uma única etapa e alcança o desempenho de ponta em uma ampla gama de benchmarks de avaliação multimodal. Por fim, realizamos análises aprofundadas para entender o ajuste fino de instruções visuais, e nossas descobertas revelam que: (1) os dados sintetizados pelo GPT-4 não aprimoram substancialmente as capacidades dos VLMs, mas sim modulam as respostas do modelo para formatos preferidos pelos humanos; (2) uma quantidade mínima (por exemplo, 1.000) de dados sintetizados pelo GPT-4 pode alinhar efetivamente as respostas dos VLMs com as preferências humanas; (3) o ajuste fino de instruções visuais ajuda principalmente os modelos de linguagem de grande escala (LLMs) a compreender características visuais.
Modelos auto-regressivos têm alcançado resultados impressionantes na geração de imagens 2D ao modelar distribuições conjuntas no espaço de grade. Neste artigo, estendemos os modelos auto-regressivos para domínios 3D, buscando uma capacidade aprimorada de geração de formas 3D ao melhorar simultaneamente a capacidade e a escalabilidade dos modelos auto-regressivos. Primeiramente, utilizamos um conjunto de dados 3D publicamente disponíveis para facilitar o treinamento de modelos em larga escala. Esse conjunto consiste em uma coleção abrangente de aproximadamente 900.000 objetos, com múltiplas propriedades de malhas, pontos, voxels, imagens renderizadas e legendas de texto. Esse conjunto de dados diversificado e rotulado, denominado Objaverse-Mix, capacita nosso modelo a aprender a partir de uma ampla gama de variações de objetos. No entanto, a aplicação direta da auto-regressão 3D enfrenta desafios críticos de alta demanda computacional em grades volumétricas e ordem auto-regressiva ambígua ao longo das dimensões da grade, resultando em qualidade inferior das formas 3D. Para isso, apresentamos então uma nova estrutura chamada Argus3D em termos de capacidade. Concretamente, nossa abordagem introduz o aprendizado de representação discreta baseado em um vetor latente em vez de grades volumétricas, o que não apenas reduz os custos computacionais, mas também preserva detalhes geométricos essenciais ao aprender as distribuições conjuntas em uma ordem mais tratável. A capacidade de geração condicional pode, assim, ser realizada simplesmente concatenando várias entradas de condicionamento ao vetor latente, como nuvens de pontos, categorias, imagens e textos. Além disso, graças à simplicidade da arquitetura do nosso modelo, escalamos naturalmente nossa abordagem para um modelo maior com impressionantes 3,6 bilhões de parâmetros, aprimorando ainda mais a qualidade da versátil geração 3D. Experimentos extensivos em quatro tarefas de geração demonstram que o Argus3D pode sintetizar formas diversas e fiéis em múltiplas categorias, alcançando um desempenho notável.