Artigos de pesquisa em IA selecionados diariamente com traduções
Trabalhos recentes demonstram que, após ser ajustado em um conjunto de dados de instruções de alta qualidade, o modelo resultante pode obter capacidades impressionantes para abordar uma ampla gama de tarefas. No entanto, os métodos existentes para geração de dados de instruções frequentemente produzem dados duplicados e não são suficientemente controláveis em termos de qualidade dos dados. Neste artigo, estendemos a generalização do ajuste fino de instruções classificando os dados de instruções em 4 tarefas relacionadas a código e propomos uma estrutura de processo de dados baseada em Gerador-Discriminador de LLM para gerar dados de instruções diversos e de alta qualidade a partir de código de código aberto. Assim, introduzimos o CodeOcean, um conjunto de dados composto por 20.000 instâncias de instruções em 4 tarefas universais relacionadas a código, que visa aumentar a eficácia do ajuste fino de instruções e melhorar a capacidade de generalização do modelo ajustado. Posteriormente, apresentamos o WaveCoder, um Code LLM ajustado com Ajuste Fino de Instruções Amplo e Versátil Aprimorado. Este modelo é especificamente projetado para aprimorar o ajuste fino de instruções de Modelos de Linguagem de Código (LLMs). Nossos experimentos demonstram que os modelos Wavecoder superam outros modelos de código aberto em termos de capacidade de generalização em diferentes tarefas relacionadas a código no mesmo nível de escala de ajuste fino. Além disso, o Wavecoder exibe alta eficiência em tarefas anteriores de geração de código. Este artigo, portanto, oferece uma contribuição significativa para o campo de geração de dados de instruções e ajuste fino de modelos, fornecendo novas perspectivas e ferramentas para aprimorar o desempenho em tarefas relacionadas a código.
O crescimento exponencial dos grandes modelos de linguagem (LLMs) abriu inúmeras possibilidades para sistemas de AGI multimodal. No entanto, o progresso em modelos de base para visão e visão-linguagem, que também são elementos críticos da AGI multimodal, não acompanhou o ritmo dos LLMs. Neste trabalho, projetamos um modelo de base em larga escala para visão-linguagem (InternVL), que amplia o modelo de base para visão para 6 bilhões de parâmetros e o alinha progressivamente com o grande modelo de linguagem, utilizando dados de imagem-texto em escala da web de várias fontes. Este modelo pode ser amplamente aplicado e alcançar desempenho de ponta em tarefas de percepção visual, como reconhecimento em nível de imagem ou pixel, tarefas de visão-linguagem, como classificação de imagem/vídeo em zero-shot, recuperação de imagem/vídeo-texto em zero-shot, e conexão com LLMs para criar sistemas de diálogo multimodal. Esperamos que nossa pesquisa possa contribuir para o desenvolvimento de grandes modelos multimodais. Códigos e modelos estão disponíveis em https://github.com/OpenGVLab/InternVL.
Como seres humanos, estamos constantemente envolvidos em interações com nossos pares e recebemos feedback na forma de linguagem natural. Esse feedback linguístico nos permite refletir sobre nossas ações, manter comportamentos apropriados e corrigir nossos erros. Surge então a questão: podemos usar o feedback linguístico para alinhar grandes modelos de linguagem (LLMs)? Em contraste com pesquisas anteriores que alinham LLMs com dados de recompensa ou preferência, apresentamos a primeira exploração sistemática do alinhamento por meio da lente do feedback linguístico (ou seja, julgamento). Começamos com uma investigação detalhada de métodos potenciais que podem ser adaptados para alinhar LLMs com julgamentos, revelando que esses métodos não conseguem aproveitar totalmente os julgamentos. Para facilitar uma utilização mais eficaz dos julgamentos, propomos uma nova estrutura, o Treinamento de Improbabilidade Contrastiva (CUT), que permite a detecção e correção de conteúdo inadequado em nível granular com base em julgamentos. Nossos resultados de alinhamento offline mostram que, com apenas 1317 dados de julgamento prontamente disponíveis, o CUT (LLaMA2-13b) pode superar o DaVinci003 de 175B e ultrapassar a melhor baseline em 52,34 pontos no AlpacaEval. Os resultados de alinhamento online demonstram que o CUT pode alinhar LLMs (LLaMA2-chat-13b) de forma iterativa usando dados de julgamento específicos do modelo, com uma melhoria consistente de desempenho de 81,09 para 91,36 pontos no AlpacaEval. Nossa análise sugere ainda que os julgamentos exibem um potencial maior do que as recompensas para o alinhamento de LLMs e justificam pesquisas futuras.
Os seres humanos possuem a notável habilidade de Percepção Visual, a capacidade de ver e compreender o que é visto, ajudando-os a dar sentido ao mundo visual e, por sua vez, a raciocinar. Modelos de Linguagem Multimodal de Grande Escala (MLLM) recentemente alcançaram desempenho impressionante em tarefas de visão e linguagem, variando de questionamento visual e legendagem de imagens a raciocínio visual e geração de imagens. No entanto, quando solicitados a identificar ou contar (perceber) as entidades em uma determinada imagem, os sistemas MLLM existentes falham. Trabalhando no desenvolvimento de um sistema MLLM preciso para percepção e raciocínio, propomos o uso de Codificadores Visuais Versáteis (VCoder) como olhos de percepção para MLLMs Multimodais. Alimentamos o VCoder com modalidades de percepção, como mapas de segmentação ou profundidade, melhorando as habilidades de percepção do MLLM. Em segundo lugar, utilizamos as imagens do COCO e as saídas de modelos de percepção visual prontos para uso para criar nosso conjunto de dados COCO Segmentation Text (COST) para treinar e avaliar MLLMs na tarefa de percepção de objetos. Em terceiro lugar, introduzimos métricas para avaliar as habilidades de percepção de objetos em MLLMs em nosso conjunto de dados COST. Por fim, fornecemos extensas evidências experimentais que comprovam as habilidades aprimoradas de percepção em nível de objeto do VCoder em relação aos MLLMs Multimodais existentes, incluindo o GPT-4V. Disponibilizamos nosso conjunto de dados, código e modelos em código aberto para promover a pesquisa. Disponibilizamos nosso código em https://github.com/SHI-Labs/VCoder.
Um método fundamental para criar agentes de Inteligência Artificial (IA) é o Aprendizado por Reforço (RL). No entanto, a construção de uma política de RL autônoma que mapeie percepção diretamente para ação enfrenta problemas significativos, sendo os principais a falta de generalidade em múltiplas tarefas e a necessidade de uma grande quantidade de dados de treinamento. A causa principal é que ela não consegue integrar efetivamente informações prévias no ciclo percepção-ação ao elaborar a política. Modelos de linguagem de grande escala (LLMs) surgiram como uma forma fundamental de incorporar conhecimento de múltiplos domínios em agentes de IA, mas carecem de aprendizado e adaptação crucial para problemas de decisão específicos. Este artigo apresenta um modelo de framework geral para integrar e aprender raciocínio estruturado nas políticas de agentes de IA. Nossa metodologia é motivada pela modularidade encontrada no cérebro humano. O framework utiliza a construção de funções intrínsecas e extrínsecas para adicionar compreensões prévias de estruturas de raciocínio. Ele também fornece a capacidade adaptativa de aprender modelos dentro de cada módulo ou função, consistente com a estrutura modular dos processos cognitivos. Descrevemos o framework em detalhes e o comparamos com outros pipelines de IA e frameworks existentes. O artigo explora aplicações práticas, abrangendo experimentos que demonstram a eficácia do nosso método. Nossos resultados indicam que agentes de IA desempenham e se adaptam muito melhor quando o raciocínio organizado e o conhecimento prévio são incorporados. Isso abre caminho para sistemas de agentes de IA mais resilientes e gerais.
Como os mais recentes avanços em processamento de linguagem natural, os modelos de linguagem de grande escala (LLMs, na sigla em inglês) alcançaram habilidades de compreensão e geração de linguagem em nível humano em muitas tarefas do mundo real, e até mesmo têm sido considerados um caminho potencial para a inteligência artificial geral. Para melhor facilitar a pesquisa em LLMs, muitos modelos de código aberto, como o Llama 2 e o Falcon, foram recentemente propostos e alcançaram desempenhos comparáveis aos modelos proprietários. No entanto, esses modelos são projetados principalmente para cenários em inglês e apresentam desempenhos ruins em contextos chineses. Neste relatório técnico, propomos o YAYI 2, incluindo modelos base e de chat, com 30 bilhões de parâmetros. O YAYI 2 é pré-treinado do zero em um corpus multilíngue que contém 2,65 trilhões de tokens filtrados por nosso pipeline de processamento de dados de pré-treinamento. O modelo base é alinhado com valores humanos por meio de ajuste fino supervisionado com milhões de instruções e aprendizado por reforço com feedback humano. Experimentos extensos em múltiplos benchmarks, como MMLU e CMMLU, demonstram consistentemente que o YAYI 2 proposto supera outros modelos de código aberto de tamanho similar.
Ataques a modelos de linguagem geralmente assumem um dos dois modelos de ameaça extremos: acesso total em "white-box" aos pesos do modelo ou acesso em "black-box" limitado a uma API de geração de texto. No entanto, APIs do mundo real costumam ser mais flexíveis do que apenas geração de texto: essas APIs expõem um acesso "gray-box", o que abre novos vetores de ataque. Para explorar isso, realizamos testes de red teaming em três novas funcionalidades expostas nas APIs do GPT-4: fine-tuning, chamada de funções e recuperação de conhecimento. Descobrimos que ajustar o modelo com apenas 15 exemplos maliciosos ou 100 exemplos benignos pode remover proteções essenciais do GPT-4, permitindo uma variedade de saídas prejudiciais. Além disso, observamos que os Assistantes do GPT-4 revelam prontamente o esquema de chamada de funções e podem ser induzidos a executar chamadas de funções arbitrárias. Por fim, constatamos que a recuperação de conhecimento pode ser manipulada pela injeção de instruções em documentos de recuperação. Essas vulnerabilidades destacam que qualquer adição à funcionalidade exposta por uma API pode criar novas vulnerabilidades.
A popularização dos modelos de difusão Text-to-Image (T2I) possibilita a geração de imagens de alta qualidade a partir de descrições textuais. No entanto, gerar imagens personalizadas e diversas com atributos visuais de referência continua sendo um desafio. Este trabalho foca na personalização de modelos de difusão T2I em um nível mais abstrato de conceito ou categoria, adaptando características comuns de um conjunto de imagens de referência enquanto cria novas instâncias com variações suficientes. Introduzimos uma solução que permite a um modelo de difusão T2I pré-treinado aprender um conjunto de prompts suaves, possibilitando a geração de novas imagens ao amostrar prompts da distribuição aprendida. Esses prompts oferecem capacidades de edição guiada por texto e flexibilidade adicional no controle de variação e mistura entre múltiplas distribuições. Também mostramos a adaptabilidade da distribuição de prompts aprendida para outras tarefas, como text-to-3D. Por fim, demonstramos a eficácia de nossa abordagem por meio de análise quantitativa, incluindo avaliação automática e avaliação humana. Site do projeto: https://briannlongzhao.github.io/DreamDistribution
A reconstrução 3D a partir de uma única vista é desafiadora devido à ambiguidade das pistas monoculares e à falta de informações sobre regiões ocluídas. Campos de radiação neural (NeRF), embora populares para síntese de vistas e reconstrução 3D, geralmente dependem de imagens multivista. Métodos existentes para reconstrução 3D de vista única com NeRF dependem de priors de dados para alucinar vistas de regiões ocluídas, que podem não ser fisicamente precisas, ou de sombras observadas por câmeras RGB, que são difíceis de detectar em luz ambiente e fundos com baixo albedo. Propomos o uso de dados de tempo de voo capturados por um diodo de avalanche de fóton único para superar essas limitações. Nosso método modela caminhos ópticos de dois saltos com NeRF, utilizando dados transitórios de lidar para supervisão. Ao aproveitar as vantagens tanto do NeRF quanto da luz de dois saltos medida pelo lidar, demonstramos que podemos reconstruir geometrias visíveis e ocluídas sem priors de dados ou dependência de iluminação ambiente controlada ou albedo da cena. Além disso, mostramos uma melhoria na generalização sob restrições práticas de resolução espacial e temporal do sensor. Acreditamos que nosso método é uma direção promissora à medida que os lidars de fóton único se tornam ubíquos em dispositivos de consumo, como telefones, tablets e headsets.
Apesar de o CLIP ser o modelo fundamental em diversas aplicações de visão e linguagem, ele sofre de um forte viés de detecção de texto. Esse viés faz com que os modelos CLIP "repetam" o texto visual incorporado nas imagens, ignorando a semântica visual autêntica. Descobrimos que, no conjunto de dados imagem-texto mais popular, o LAION-2B, as legendas também repetem densamente (soletram) o texto incorporado nas imagens. Nossa análise mostra que cerca de 50% das imagens contêm conteúdo de texto visual, e 90% de suas legendas repetem, em maior ou menor grau, o texto visual. Com base nessa observação, inspecionamos minuciosamente as diferentes versões lançadas dos modelos CLIP e verificamos que o texto visual é o fator dominante na medição da similaridade imagem-texto no estilo LAION para esses modelos. Para examinar se essas legendas repetitivas moldam o viés de detecção de texto, treinamos uma série de modelos CLIP com subconjuntos do LAION curados por diferentes critérios orientados para legendas repetitivas. Mostramos que o treinamento com legendas repetitivas facilmente molda esse viés, mas prejudica o aprendizado esperado de representação visual-linguística nos modelos CLIP. Isso sugere que é urgente revisitar tanto o design de modelos semelhantes ao CLIP quanto o pipeline existente de curadoria de conjuntos de dados imagem-texto construído com filtragem por pontuação CLIP.
Nós estudamos o problema de reconstrução 3D de formas a partir de uma única imagem em um cenário zero-shot. Trabalhos recentes aprendem a reconstrução de formas zero-shot por meio de modelagem generativa de ativos 3D, mas esses modelos são computacionalmente caros tanto no treinamento quanto na inferência. Em contraste, a abordagem tradicional para esse problema é baseada em regressão, onde modelos determinísticos são treinados para regredir diretamente a forma do objeto. Tais métodos de regressão possuem uma eficiência computacional muito maior do que os métodos generativos. Isso levanta uma questão natural: a modelagem generativa é necessária para alto desempenho, ou, inversamente, as abordagens baseadas em regressão ainda são competitivas? Para responder a isso, projetamos um modelo forte baseado em regressão, chamado ZeroShape, fundamentado nas descobertas convergentes neste campo e em uma nova percepção. Também criamos um grande benchmark de avaliação do mundo real, com objetos de três diferentes conjuntos de dados 3D reais. Esse benchmark de avaliação é mais diversificado e uma ordem de grandeza maior do que o utilizado por trabalhos anteriores para avaliar quantitativamente seus modelos, visando reduzir a variância de avaliação em nosso campo. Mostramos que o ZeroShape não apenas alcança desempenho superior em relação aos métodos state-of-the-art, mas também demonstra eficiência computacional e de dados significativamente maior.
A expansão de abreviações é uma estratégia usada para acelerar a comunicação ao limitar a quantidade de digitação e utilizar um modelo de linguagem para sugerir expansões. Aqui, examinamos a personalização das sugestões de um Modelo de Linguagem de Grande Escala (LLM) com base em conversas anteriores para aumentar a relevância das previsões, especialmente quando os dados do usuário são escassos (~1000 amostras). Especificamente, comparamos o ajuste fino (fine-tuning), o ajuste de prompt (prompt-tuning) e a geração aumentada por recuperação (retrieval augmented generation) de sugestões de texto expandido para entradas abreviadas. Nosso estudo de caso com um LLM de 8 bilhões de parâmetros implantado em um usuário real que vive com ELA, e experimentos de personalização de personagens de filmes, indicam que (1) a customização pode ser necessária em alguns cenários, e o ajuste de prompt se adapta bem a esses casos, (2) o ajuste fino em dados do domínio (com apenas 600 amostras) ainda mostra alguns ganhos, porém (3) a seleção de poucos exemplos aumentada por recuperação também supera o ajuste fino. (4) O ajuste eficiente em parâmetros permite uma personalização eficiente e escalável. Para o ajuste de prompt, também descobrimos que inicializar os "soft-prompts" aprendidos com tokens de conceitos relevantes ao usuário leva a uma maior precisão do que a inicialização aleatória.
À medida que o desenvolvimento de modelos de IA Generativa em grande escala evolui além da geração de texto (1D) para incluir a geração de imagens (2D) e vídeos (3D), o processamento de informações espaciais e temporais apresenta desafios únicos em termos de qualidade, desempenho e eficiência. Apresentamos o primeiro trabalho voltado para a compreensão desse novo espaço de design de sistemas para modelos de geração multimodal de texto para imagem (TTI) e texto para vídeo (TTV). Os designs atuais de arquitetura de modelos são divididos em duas categorias: modelos baseados em Difusão e modelos baseados em Transformers. Nossa caracterização sistemática de desempenho em um conjunto de oito modelos representativos de TTI/TTV mostra que, após a aplicação de técnicas de otimização de última geração, como o Flash Attention, as Convoluções representam até 44% do tempo de execução para modelos TTI baseados em Difusão, enquanto as camadas Lineares consomem até 49% do tempo de execução para modelos baseados em Transformers. Além disso, observamos que os modelos TTI baseados em Difusão se assemelham à fase de Preenchimento (Prefill) da inferência de LLMs e se beneficiam de uma aceleração de 1,1 a 2,5 vezes maior com o Flash Attention em comparação com os modelos TTI baseados em Transformers, que se assemelham à fase de Decodificação. Como as otimizações projetadas para LLMs não se aplicam diretamente aos modelos TTI/TTV, é necessário realizar uma caracterização detalhada dessas cargas de trabalho para obter insights sobre novas oportunidades de otimização. Ao fazer isso, definimos o comprimento da sequência no contexto dos modelos TTI/TTV e observamos que o comprimento da sequência pode variar até 4 vezes na inferência de modelos de Difusão. Também observamos que os aspectos temporais das cargas de trabalho de TTV apresentam gargalos únicos no sistema, com a Atenção Temporal representando mais de 60% do tempo total de Atenção. No geral, nossa caracterização detalhada do desempenho do sistema é um primeiro passo crucial para projetar sistemas eficientes e implantáveis para as emergentes cargas de trabalho de TTI/TTV.
As propriedades físicas de um objeto, como a massa, influenciam significativamente a forma como o manipulamos com as mãos. Surpreendentemente, esse aspecto tem sido negligenciado em trabalhos anteriores sobre síntese de movimento 3D. Para melhorar a naturalidade dos movimentos sintetizados de mãos e objetos em 3D, este trabalho propõe o MACS, a primeira abordagem de Síntese de Movimento de Mãos e Objetos em 3D Condicionada à Massa (MAss Conditioned 3D hand and object motion Synthesis). Nossa abordagem é baseada em modelos de difusão em cascata e gera interações que se ajustam de maneira plausível com base na massa do objeto e no tipo de interação. O MACS também aceita uma trajetória de objeto 3D desenhada manualmente como entrada e sintetiza os movimentos naturais da mão em 3D condicionados pela massa do objeto. Essa flexibilidade permite que o MACS seja usado em diversas aplicações subsequentes, como a geração de dados sintéticos de treinamento para tarefas de aprendizado de máquina, animação rápida de mãos para fluxos de trabalho gráficos e geração de interações de personagens para jogos de computador. Mostramos experimentalmente que um conjunto de dados em pequena escala é suficiente para que o MACS generalize razoavelmente em massas de objetos interpoladas e extrapoladas não vistas durante o treinamento. Além disso, o MACS demonstra uma generalização moderada para objetos não vistos, graças aos rótulos de contato condicionados à massa gerados pelo nosso modelo de síntese de contato superficial ConNet. Nosso estudo abrangente com usuários confirma que as interações sintetizadas entre mãos e objetos em 3D são altamente plausíveis e realistas.
Este artigo apresenta o "Shai", um modelo de linguagem de grande escala de 10 bilhões de parâmetros especificamente projetado para a indústria de gestão de ativos, construído sobre um modelo base de código aberto. Com pré-treinamento contínuo e ajuste fino utilizando um corpus direcionado, o Shai demonstra desempenho aprimorado em tarefas relevantes para seu domínio, superando modelos de referência. Nossa pesquisa inclui o desenvolvimento de uma estrutura de avaliação inovadora, que integra exames de qualificação profissional, tarefas personalizadas, respostas a perguntas abertas e avaliações de segurança, para avaliar de forma abrangente as capacidades do Shai. Além disso, discutimos os desafios e implicações da utilização de modelos de linguagem de grande escala, como o GPT-4, para avaliação de desempenho na gestão de ativos, sugerindo uma combinação de avaliação automatizada e julgamento humano. O desenvolvimento do Shai, que demonstra o potencial e a versatilidade de modelos de linguagem de grande escala de 10 bilhões de parâmetros no setor financeiro, com desempenho significativo e requisitos computacionais modestos, espera fornecer insights práticos e metodologias para auxiliar colegas da indústria em empreendimentos semelhantes.
Recentemente, pesquisadores têm tentado investigar a capacidade dos LLMs (Large Language Models) em lidar com vídeos e propuseram vários modelos de LLMs para vídeo. No entanto, a capacidade dos LLMs de lidar com o grounding de vídeo (VG), que é uma tarefa importante relacionada ao tempo que exige que o modelo localize com precisão os timestamps de início e fim de momentos temporais em vídeos que correspondem a consultas textuais fornecidas, ainda permanece pouco clara e inexplorada na literatura. Para preencher essa lacuna, neste artigo, propomos o benchmark LLM4VG, que avalia sistematicamente o desempenho de diferentes LLMs em tarefas de grounding de vídeo. Com base no nosso LLM4VG proposto, projetamos experimentos extensivos para examinar dois grupos de modelos de LLMs para vídeo no grounding de vídeo: (i) os LLMs para vídeo treinados em pares texto-vídeo (denominados VidLLM), e (ii) os LLMs combinados com modelos de descrição visual pré-treinados, como modelos de legendagem de vídeo/imagem. Propomos métodos de prompt para integrar a instrução de VG e a descrição de diferentes tipos de geradores, incluindo geradores baseados em legendas para descrição visual direta e geradores baseados em VQA (Question-Answering Visual) para aprimoramento de informações. Também fornecemos comparações abrangentes de vários VidLLMs e exploramos a influência de diferentes escolhas de modelos visuais, LLMs, designs de prompt, entre outros. Nossas avaliações experimentais levam a duas conclusões: (i) os VidLLMs existentes ainda estão longe de alcançar um desempenho satisfatório em grounding de vídeo, e mais tarefas relacionadas ao tempo em vídeo devem ser incluídas para ajustar ainda mais esses modelos, e (ii) a combinação de LLMs e modelos visuais mostra habilidades preliminares para grounding de vídeo com um potencial considerável de melhoria ao recorrer a modelos mais confiáveis e a uma orientação mais eficaz das instruções de prompt.