Artigos de pesquisa em IA selecionados diariamente com traduções
Este trabalho apresenta o Weaver, nossa primeira família de modelos de linguagem de grande escala (LLMs) dedicada à criação de conteúdo. O Weaver é pré-treinado em um corpus cuidadosamente selecionado que visa aprimorar as capacidades de escrita de modelos de linguagem de grande escala. Em seguida, ajustamos o Weaver para fins de escrita criativa e profissional e o alinhamos às preferências de escritores profissionais utilizando um conjunto de métodos inovadores para síntese de dados de instrução e alinhamento de LLMs, tornando-o capaz de produzir textos mais humanos e seguir instruções mais diversas para a criação de conteúdo. A família Weaver consiste em modelos de tamanhos Weaver Mini (1,8B), Weaver Base (6B), Weaver Pro (14B) e Weaver Ultra (34B), adequados para diferentes aplicações e que podem ser dinamicamente direcionados por um agente de roteamento de acordo com a complexidade da consulta para equilibrar a qualidade da resposta e o custo computacional. A avaliação em um benchmark cuidadosamente elaborado para avaliar as capacidades de escrita de LLMs mostra que os modelos Weaver de todos os tamanhos superam LLMs generalistas várias vezes maiores que eles. Notavelmente, nosso modelo mais capaz, o Weaver Ultra, supera o GPT-4, um LLM generalista de última geração, em vários cenários de escrita, demonstrando a vantagem de treinar LLMs especializados para fins de escrita. Além disso, o Weaver suporta nativamente geração aumentada por recuperação (RAG) e chamada de funções (uso de ferramentas). Apresentamos vários casos de uso dessas capacidades para melhorar sistemas de escrita assistida por IA, incluindo integração de bases de conhecimento externas, ferramentas ou APIs, e fornecimento de assistência de escrita personalizada. Além disso, discutimos e resumimos uma diretriz e melhores práticas para pré-treinamento e ajuste fino de LLMs específicos de domínio.
A série de detectores You Only Look Once (YOLO) consolidou-se como uma ferramenta eficiente e prática. No entanto, sua dependência de categorias de objetos predefinidas e treinadas limita sua aplicabilidade em cenários abertos. Para superar essa limitação, apresentamos o YOLO-World, uma abordagem inovadora que aprimora o YOLO com capacidades de detecção de vocabulário aberto por meio de modelagem visão-linguagem e pré-treinamento em conjuntos de dados em larga escala. Especificamente, propomos uma nova Rede de Agregação de Caminhos Visão-Linguagem Re-parametrizável (RepVL-PAN) e uma função de perda contrastiva região-texto para facilitar a interação entre informações visuais e linguísticas. Nosso método se destaca na detecção de uma ampla gama de objetos de maneira zero-shot com alta eficiência. No desafiador conjunto de dados LVIS, o YOLO-World alcança 35,4 AP com 52,0 FPS em V100, superando muitos métodos state-of-the-art em termos de precisão e velocidade. Além disso, o YOLO-World ajustado finamente alcança desempenho notável em várias tarefas subsequentes, incluindo detecção de objetos e segmentação de instâncias de vocabulário aberto.
Apresentamos o BlockFusion, um modelo baseado em difusão que gera cenas 3D como blocos unitários e incorpora novos blocos de forma contínua para expandir a cena. O BlockFusion é treinado utilizando conjuntos de dados de blocos 3D que são recortados aleatoriamente de malhas completas de cenas 3D. Por meio de ajuste por bloco, todos os blocos de treinamento são convertidos em campos neurais híbridos: com um triplano contendo as características geométricas, seguido por um Perceptron Multicamadas (MLP) para decodificar os valores de distância sinalizada. Um autoencoder variacional é empregado para comprimir os triplanos no espaço latente de triplanos, onde o processo de difusão de ruído é realizado. A difusão aplicada às representações latentes permite a geração de cenas 3D de alta qualidade e diversidade. Para expandir uma cena durante a geração, basta anexar blocos vazios que se sobreponham à cena atual e extrapolar os triplanos latentes existentes para preencher os novos blocos. A extrapolação é feita condicionando o processo de geração com amostras de características dos triplanos sobrepostos durante as iterações de remoção de ruído. A extrapolação de triplanos latentes produz transições semanticamente e geometricamente significativas que se integram harmoniosamente à cena existente. Um mecanismo de condicionamento de layout 2D é utilizado para controlar a colocação e o arranjo dos elementos da cena. Resultados experimentais indicam que o BlockFusion é capaz de gerar cenas 3D grandes, diversas, geometricamente consistentes e ilimitadas, com formas de qualidade sem precedentes em cenários internos e externos.
Para aproveitar os LLMs (Modelos de Linguagem de Grande Escala) na síntese visual, os métodos tradicionais convertem informações de imagens raster em tokens de grade discretos por meio de módulos visuais especializados, ao mesmo tempo que prejudicam a capacidade do modelo de capturar a verdadeira representação semântica das cenas visuais. Este artigo propõe que uma representação alternativa de imagens, os gráficos vetoriais, pode superar efetivamente essa limitação, permitindo uma segmentação mais natural e semanticamente coerente das informações da imagem. Assim, apresentamos o StrokeNUWA, um trabalho pioneiro que explora uma melhor representação visual chamada "tokens de traço" em gráficos vetoriais, que é intrinsecamente rica em semântica visual, naturalmente compatível com LLMs e altamente compactada. Equipado com tokens de traço, o StrokeNUWA pode superar significativamente os métodos tradicionais baseados em LLMs e em otimização em várias métricas na tarefa de geração de gráficos vetoriais. Além disso, o StrokeNUWA alcança uma aceleração de até 94x na inferência em comparação com a velocidade dos métodos anteriores, com uma taxa excepcional de compressão de código SVG de 6,9%.
No campo em rápida evolução dos modelos generativos de fala, há uma necessidade urgente de garantir a autenticidade do áudio contra os riscos de clonagem de voz. Apresentamos o AudioSeal, a primeira técnica de marca d'água de áudio projetada especificamente para detecção localizada de fala gerada por IA. O AudioSeal emprega uma arquitetura de gerador/detector treinada em conjunto com uma função de perda de localização para permitir a detecção localizada da marca d'água até o nível de amostra, e uma nova função de perda perceptual inspirada no mascaramento auditivo, que permite ao AudioSeal alcançar melhor imperceptibilidade. O AudioSeal atinge desempenho de ponta em termos de robustez a manipulações de áudio da vida real e imperceptibilidade, com base em métricas automáticas e de avaliação humana. Além disso, o AudioSeal foi projetado com um detector rápido e de passagem única, que supera significativamente os modelos existentes em velocidade - alcançando detecção até duas ordens de magnitude mais rápida, tornando-o ideal para aplicações em larga escala e em tempo real.
Apresentamos o H2O-Danube-1.8B, um modelo de linguagem de 1.8B de parâmetros treinado em 1T de tokens seguindo os princípios fundamentais do LLama 2 e do Mistral. Aproveitamos e refinamos diversas técnicas para o pré-treinamento de grandes modelos de linguagem. Embora nosso modelo tenha sido treinado com um número significativamente menor de tokens totais em comparação com modelos de referência de tamanho similar, ele exibe métricas altamente competitivas em uma variedade de benchmarks. Adicionalmente, lançamos um modelo de chat treinado com ajuste fino supervisionado seguido de otimização direta de preferências. Disponibilizamos o H2O-Danube-1.8B de forma aberta sob a licença Apache 2.0, democratizando ainda mais os LLMs para um público mais amplo de forma econômica.
Neste relatório, exploramos o potencial da difusão de texto para substituir a decodificação autoregressiva (AR) no treinamento e implantação de grandes modelos de linguagem (LLMs). Estamos particularmente interessados em verificar se modelos AR pré-treinados podem ser transformados em modelos de difusão de texto por meio de um procedimento de adaptação leve que chamamos de "AR2Diff". Começamos estabelecendo uma configuração de linha de base robusta para o treinamento de modelos de difusão de texto. Comparando várias arquiteturas e objetivos de pré-treinamento, descobrimos que treinar um modelo apenas de decodificador com um objetivo de LM prefixado é o melhor ou quase o melhor em várias tarefas. Com base nessa descoberta, testamos várias configurações de transferência de aprendizagem para modelos de difusão de texto. Na tradução automática, observamos que a difusão de texto tem desempenho inferior à abordagem AR padrão. No entanto, na síntese de código e em QA extrativo, descobrimos que modelos de difusão treinados do zero superam os modelos AR em muitos casos. Também observamos ganhos de qualidade com o AR2Diff — adaptando modelos AR para usar decodificação por difusão. Esses resultados são promissores, considerando que a difusão de texto é relativamente pouco explorada e pode ser significativamente mais rápida que a decodificação AR para geração de textos longos.
Embora esforços significativos tenham sido dedicados ao alinhamento de grandes modelos de linguagem (LLMs), relatórios de red-teaming sugerem que esses LLMs cuidadosamente alinhados ainda podem ser "jailbroken" (desbloqueados) por meio de prompts adversariais, ajustes ou decodificação. Ao examinar a vulnerabilidade de jailbreaking em LLMs alinhados, observamos que as distribuições de decodificação de modelos jailbroken e alinhados diferem apenas nas gerações iniciais. Essa observação nos motiva a propor o ataque de jailbreaking "weak-to-strong", onde adversários podem utilizar LLMs menores não seguros/alinhados (por exemplo, 7B) para guiar o jailbreaking contra LLMs alinhados significativamente maiores (por exemplo, 70B). Para realizar o jailbreaking, basta decodificar adicionalmente dois LLMs menores uma vez, o que envolve computação e latência mínimas em comparação com a decodificação dos LLMs maiores. A eficácia desse ataque é demonstrada por meio de experimentos realizados em cinco modelos de três organizações diferentes. Nosso estudo revela uma maneira previamente não notada, porém eficiente, de realizar jailbreaking, expondo uma questão urgente de segurança que precisa ser considerada ao alinhar LLMs. Como uma tentativa inicial, propomos uma estratégia de defesa para proteger contra tais ataques, mas a criação de defesas mais avançadas permanece desafiadora. O código para replicar o método está disponível em https://github.com/XuandongZhao/weak-to-strong.
A restauração de imagens é um problema fundamental que envolve a recuperação de uma imagem limpa de alta qualidade a partir de sua observação degradada. Modelos de restauração de imagem All-In-One podem restaurar efetivamente imagens de vários tipos e níveis de degradação, utilizando informações específicas da degradação como prompts para orientar o modelo de restauração. Neste trabalho, apresentamos a primeira abordagem que utiliza instruções escritas por humanos para orientar o modelo de restauração de imagem. Dados prompts em linguagem natural, nosso modelo é capaz de recuperar imagens de alta qualidade a partir de suas versões degradadas, considerando múltiplos tipos de degradação. Nosso método, InstructIR, alcança resultados de ponta em várias tarefas de restauração, incluindo remoção de ruído, remoção de chuva, desfoque, remoção de névoa e melhoria de imagens (em baixa luminosidade). O InstructIR melhora em +1dB em relação aos métodos anteriores de restauração All-In-One. Além disso, nosso conjunto de dados e resultados representam um novo benchmark para pesquisas futuras sobre restauração e melhoria de imagens guiadas por texto. Nosso código, conjuntos de dados e modelos estão disponíveis em: https://github.com/mv-lab/InstructIR
Estudos recentes têm defendido modelos de base totalmente abertos para promover transparência e ciência aberta. Como um passo inicial, o Modelo de Fala no Estilo Whisper Aberto (OWSM) reproduziu o Whisper da OpenAI utilizando dados publicamente disponíveis e kits de ferramentas de código aberto. Com o objetivo de reproduzir o Whisper, os modelos anteriores OWSM v1 a v3 ainda eram baseados no Transformer, o que poderia resultar em desempenho inferior em comparação com outros codificadores de fala state-of-the-art. Neste trabalho, buscamos melhorar o desempenho e a eficiência do OWSM sem dados de treinamento adicionais. Apresentamos os modelos OWSM v3.1 baseados em E-Branchformer em duas escalas, ou seja, 100M e 1B. O modelo de 1B é o maior modelo de fala baseado em E-Branchformer que foi disponibilizado publicamente. Ele supera o OWSM v3 anterior na grande maioria dos benchmarks de avaliação, enquanto demonstra uma velocidade de inferência até 25% mais rápida. Disponibilizamos publicamente os scripts de preparação de dados, modelos pré-treinados e logs de treinamento.
A manipulação de imagens atualmente concentra-se principalmente em manipulações estáticas, como substituir regiões específicas de uma imagem ou alterar seu estilo geral. Neste artigo, introduzimos uma tarefa inovadora de manipulação dinâmica: o reposicionamento de objetos. Essa tarefa envolve a realocação de um objeto especificado pelo usuário para uma posição desejada, mantendo a fidelidade da imagem. Nossa pesquisa revela que as sub-tarefas fundamentais do reposicionamento de objetos, que incluem preencher o vazio deixado pelo objeto reposicionado, reconstruir partes ocultas do objeto e integrar o objeto de forma consistente com as áreas ao redor, podem ser efetivamente reformuladas como uma tarefa unificada de inpainting guiada por prompts. Consequentemente, podemos empregar um único modelo generativo de difusão para abordar essas sub-tarefas usando diversos prompts de tarefa aprendidos por meio de nossa técnica proposta de inversão de tarefas. Além disso, integramos técnicas de pré-processamento e pós-processamento para aprimorar ainda mais a qualidade do reposicionamento de objetos. Esses elementos juntos formam nossa estrutura SEELE (SEgment-gEnerate-and-bLEnd). Para avaliar a eficácia do SEELE no reposicionamento de objetos, compilamos um conjunto de dados do mundo real chamado ReS. Nossos resultados no ReS demonstram a qualidade da geração de imagens com objetos reposicionados.
Embora os grandes modelos de linguagem (LLMs) estejam sendo cada vez mais utilizados para síntese de programas, eles carecem da visão global necessária para desenvolver abstrações úteis; geralmente preveem programas um de cada vez, frequentemente repetindo a mesma funcionalidade. Gerar código redundante do zero é tanto ineficiente quanto propenso a erros. Para abordar isso, propomos o Refactoring for Generalizable Abstraction Learning (ReGAL), um método sem gradiente para aprender uma biblioteca de funções reutilizáveis por meio de refatoração de código, ou seja, reestruturar o código sem alterar sua saída de execução. O ReGAL aprende a partir de um pequeno conjunto de programas existentes, verificando e refinando iterativamente suas abstrações por meio de execução. Descobrimos que as bibliotecas de funções compartilhadas descobertas pelo ReGAL tornam os programas mais fáceis de prever em diversos domínios. Em três conjuntos de dados (geração de gráficos LOGO, raciocínio sobre datas e TextCraft, um jogo de texto baseado em Minecraft), tanto LLMs de código aberto quanto proprietários melhoram em precisão ao prever programas com funções do ReGAL. Para o CodeLlama-13B, o ReGAL resulta em aumentos absolutos de precisão de 11,5% em gráficos, 26,1% em entendimento de datas e 8,1% no TextCraft, superando o GPT-3.5 em dois dos três domínios. Nossa análise revela que as abstrações do ReGAL encapsulam sub-rotinas frequentemente usadas, bem como dinâmicas do ambiente.
Os modelos atuais de visão e linguagem de grande escala (VLMs) frequentemente enfrentam desafios como capacidades insuficientes de um único componente visual e tokens visuais excessivamente longos. Esses problemas podem limitar a eficácia do modelo na interpretação precisa de informações visuais complexas e de contextos excessivamente longos. Resolver esses desafios é crucial para melhorar o desempenho e a aplicabilidade dos VLMs. Este artigo propõe o uso da técnica de especialistas em conjunto para sinergizar as capacidades de codificadores visuais individuais, incluindo aqueles especializados em correspondência de imagem-texto, OCR, segmentação de imagem, etc. Essa técnica introduz uma rede de fusão para unificar o processamento das saídas de diferentes especialistas visuais, ao mesmo tempo em que preenche a lacuna entre codificadores de imagem e LLMs pré-treinados. Além disso, exploramos diferentes esquemas de codificação posicional para aliviar o desperdício de codificação posicional causado por sequências longas de características de imagem, abordando efetivamente o problema de transbordamento de posição e limitações de comprimento. Por exemplo, em nossa implementação, essa técnica reduz significativamente a ocupação posicional em modelos como o SAM, de um substancial 4096 para um mais eficiente e gerenciável 64 ou até mesmo para 1. Os resultados experimentais demonstram que VLMs com múltiplos especialistas exibem desempenho consistentemente superior em comparação com codificadores visuais isolados e marcam um aumento significativo de desempenho à medida que mais especialistas são integrados. Disponibilizamos o código de treinamento usado neste relatório. Todos esses recursos podem ser encontrados no site do nosso projeto.
Os Grandes Modelos de Linguagem (LLMs) dependem cada vez mais de técnicas distribuídas para seu treinamento e inferência. Essas técnicas exigem comunicação entre dispositivos, o que pode reduzir a eficiência de escalonamento à medida que o número de dispositivos aumenta. Embora algumas técnicas distribuídas possam se sobrepor e, assim, ocultar essa comunicação com cálculos independentes, técnicas como o Paralelismo de Tensores (TP) inerentemente serializam a comunicação com a execução do modelo. Uma abordagem para ocultar essa comunicação serializada é intercalá-la de forma granular com a operação produtora (dos dados comunicados). No entanto, essa intercalação granular de comunicação e computação em software pode ser difícil. Além disso, como em qualquer execução concorrente, exige que recursos de computação e memória sejam compartilhados entre computação e comunicação, causando contenção de recursos que reduz a eficácia da sobreposição. Para superar esses desafios, propomos o T3, que aplica co-design hardware-software para sobrepor transparentemente a comunicação serializada enquanto minimiza a contenção de recursos com a computação. O T3 funde transparentemente as operações produtoras com a comunicação subsequente por meio de uma configuração simples do espaço de endereço de saída do produtor e requer alterações mínimas no software. No nível de hardware, o T3 adiciona um mecanismo leve de rastreamento e acionamento para orquestrar a computação e a comunicação do produtor. Ele ainda utiliza memórias aprimoradas para computação para os cálculos associados à comunicação. Como resultado, o T3 reduz a contenção de recursos e sobrepõe eficientemente a comunicação serializada com a computação. Para modelos importantes de Transformers, como o T-NLG, o T3 acelera as subcamadas com alta carga de comunicação em 30% (média geométrica, máximo de 47%) e reduz o movimento de dados em 22% (média geométrica, máximo de 36%). Além disso, os benefícios do T3 persistem à medida que os modelos escalam: média geométrica de 29% para subcamadas em modelos com 500 bilhões de parâmetros simulados, como PALM e MT-NLG.