Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Transfusion, uma receita para treinar um modelo multimodal sobre dados discretos e contínuos. O Transfusion combina a função de perda de modelagem de linguagem (previsão do próximo token) com difusão para treinar um único transformador sobre sequências de multimodalidade mista. Pré-treinamos vários modelos de Transfusion com até 7B de parâmetros a partir do zero em uma mistura de dados de texto e imagem, estabelecendo leis de escalonamento em relação a uma variedade de benchmarks unimodais e multimodais. Nossos experimentos mostram que o Transfusion escala significativamente melhor do que quantizar imagens e treinar um modelo de linguagem sobre tokens de imagem discretos. Ao introduzir camadas de codificação e decodificação específicas para cada modalidade, podemos melhorar ainda mais o desempenho dos modelos de Transfusion e até mesmo comprimir cada imagem para apenas 16 patches. Demonstramos ainda que escalando nossa receita de Transfusion para 7B de parâmetros e 2T de tokens multimodais produz um modelo capaz de gerar imagens e texto em pé de igualdade com modelos de difusão de escala semelhante e modelos de linguagem, colhendo os benefícios de ambos os mundos.
Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) têm melhorado significativamente a interpretação e processamento de dados tabulares, introduzindo capacidades anteriormente inimagináveis. Apesar dessas conquistas, os LLMs ainda enfrentam desafios significativos quando aplicados em cenários industriais, especialmente devido à maior complexidade de raciocínio necessária com dados tabulares do mundo real, destacando uma disparidade notável entre benchmarks acadêmicos e aplicações práticas. Para lidar com essa discrepância, realizamos uma investigação detalhada sobre a aplicação de dados tabulares em cenários industriais e propomos um benchmark abrangente e complexo, TableBench, incluindo 18 campos em quatro grandes categorias de capacidades de questionamento de tabelas (TableQA). Além disso, apresentamos o TableLLM, treinado em nosso conjunto de treinamento meticulosamente construído, TableInstruct, alcançando desempenho comparável ao GPT-3.5. Experimentos massivos realizados no TableBench indicam que tanto LLMs de código aberto quanto proprietários ainda têm um espaço significativo para melhorias para atender às demandas do mundo real, onde o modelo mais avançado, GPT-4, alcança apenas uma pontuação modesta em comparação com humanos.
Incluir código na mistura de dados de pré-treinamento, mesmo para modelos não especificamente projetados para código, tornou-se uma prática comum em pré-treinamentos de LLMs. Embora haja um consenso anedótico entre os praticantes de que dados de código desempenham um papel vital no desempenho geral de LLMs, há apenas um trabalho limitado analisando o impacto preciso do código em tarefas não relacionadas a código. Neste trabalho, investigamos sistematicamente o impacto dos dados de código no desempenho geral. Perguntamos "qual é o impacto dos dados de código usados no pré-treinamento em uma ampla variedade de tarefas subsequentes além da geração de código". Realizamos extensas ablações e avaliamos em uma ampla gama de tarefas de raciocínio em linguagem natural, tarefas de conhecimento do mundo, benchmarks de código e taxas de vitória de LLM-como-juiz para modelos com tamanhos variando de 470M a 2.8B parâmetros. Em diferentes configurações, encontramos resultados consistentes de que o código é um bloco de construção crítico para a generalização muito além das tarefas de codificação e melhorias na qualidade do código têm um impacto desproporcional em todas as tarefas. Em particular, em comparação com o pré-treinamento apenas com texto, a adição de código resulta em um aumento relativo de até 8,2% no raciocínio em linguagem natural (NL), 4,2% no conhecimento do mundo, 6,6% de melhoria nas taxas de vitória generativas e um aumento de 12 vezes no desempenho de código, respectivamente. Nosso trabalho sugere que investimentos na qualidade do código e na preservação do código durante o pré-treinamento têm impactos positivos.
Propomos classificar representações de patches entre vistas como um sinal de aprendizado auto-supervisionado inovador para melhorar representações pré-treinadas. Para isso, introduzimos NeCo: Consistência de Vizinhos de Patches, uma nova perda de treinamento que garante consistência de vizinhos mais próximos ao nível de patch entre um modelo aluno e um modelo professor, em relação a lotes de referência. Nosso método aproveita um método de classificação diferenciável aplicado sobre representações pré-treinadas, como DINOv2-registers, para inicializar o sinal de aprendizado e melhorar ainda mais essas representações. Esse pós-treinamento denso resulta em desempenho superior em vários modelos e conjuntos de dados, apesar de exigir apenas 19 horas em uma única GPU. Demonstramos que esse método gera codificadores de características densas de alta qualidade e estabelecemos diversos novos resultados de ponta: +5,5% e +6% para segmentação semântica não paramétrica em contexto em ADE20k e Pascal VOC, e +7,2% e +5,7% para avaliações de segmentação linear em COCO-Things e -Stuff.
Os Modelos de Linguagem de Grande Escala (LLMs) tornaram-se mais comuns em aplicações de longo contexto, como chatbots interativos, análise de documentos e fluxos de agentes, mas é desafiador atender a solicitações de longo contexto com baixa latência e alta taxa de transferência. A Decodificação Especulativa (SD) é uma técnica amplamente utilizada para reduzir a latência sem comprometer o desempenho, mas a sabedoria convencional sugere que sua eficácia é limitada a tamanhos de lote pequenos. No MagicDec, demonstramos que, surpreendentemente, a SD pode alcançar aceleração mesmo para um regime de inferência de alta taxa de transferência para sequências moderadas a longas. Mais interessante ainda, uma estratégia inteligente de rascunho pode obter uma melhor aceleração com o aumento do tamanho do lote com base em nossa análise rigorosa. O MagicDec identifica primeiro as mudanças de gargalo com o aumento do tamanho do lote e da sequência, e utiliza essas percepções para implantar a decodificação especulativa de forma mais eficaz para inferência de alta taxa de transferência. Em seguida, ele aproveita modelos de rascunho com cache KV esparsa para lidar com o gargalo KV que aumenta tanto com o comprimento da sequência quanto com o tamanho do lote.
Os modelos de difusão surgiram como líderes na geração de texto para imagem por suas capacidades impressionantes. No entanto, a resolução de imagem fixa durante o treinamento muitas vezes resulta em desafios na geração de imagens de alta resolução, como imprecisões semânticas e replicação de objetos. Este artigo apresenta o MegaFusion, uma abordagem inovadora que estende os modelos de geração de texto para imagem baseados em difusão existentes para uma geração eficiente de alta resolução sem ajustes adicionais ou adaptação extra. Especificamente, empregamos uma estratégia inovadora de truncamento e retransmissão para conectar os processos de remoção de ruído em diferentes resoluções, permitindo a geração de imagens de alta resolução de maneira grosseira a refinada. Além disso, ao integrar convoluções dilatadas e reprogramação de ruído, adaptamos ainda mais os preconceitos do modelo para maior resolução. A versatilidade e eficácia do MegaFusion o tornam universalmente aplicável tanto a modelos de difusão de espaço latente quanto de espaço de pixel, juntamente com outros modelos derivados. Experimentos extensos confirmam que o MegaFusion aumenta significativamente a capacidade dos modelos existentes de produzir imagens de megapixels e vários aspect ratios, exigindo apenas cerca de 40% do custo computacional original.
Na era atual, onde grandes modelos de linguagem (LLMs) são integrados em inúmeras aplicações do mundo real, garantir sua segurança e robustez é crucial para o uso responsável de IA. Métodos automatizados de red-teaming desempenham um papel fundamental nesse processo, gerando ataques adversariais para identificar e mitigar potenciais vulnerabilidades nesses modelos. No entanto, os métodos existentes frequentemente enfrentam problemas de desempenho lento, diversidade limitada de categorias e altas demandas de recursos. Enquanto o Rainbow Teaming, uma abordagem recente, aborda o desafio da diversidade ao enquadrar a geração de prompts adversariais como uma busca de qualidade-diversidade, ainda é lento e requer um mutador finamente ajustado para obter um desempenho ideal. Para superar essas limitações, propomos o Ferret, uma abordagem inovadora que se baseia no Rainbow Teaming ao gerar múltiplas mutações de prompts adversariais por iteração e usar uma função de pontuação para classificar e selecionar o prompt adversarial mais eficaz. Exploramos várias funções de pontuação, incluindo modelos de recompensa, Llama Guard e LLM-como-juiz, para classificar mutações adversariais com base em seu potencial de dano, a fim de melhorar a eficiência da busca por mutações prejudiciais. Nossos resultados demonstram que o Ferret, utilizando um modelo de recompensa como função de pontuação, melhora a taxa geral de sucesso do ataque (ASR) para 95%, o que é 46% maior do que o Rainbow Teaming. Além disso, o Ferret reduz o tempo necessário para atingir um ASR de 90% em 15,2% em comparação com a linha de base e gera prompts adversariais que são transferíveis, ou seja, eficazes em outros LLMs de maior tamanho. Nossos códigos estão disponíveis em https://github.com/declare-lab/ferret.
Um "corte de correspondência" é uma técnica comum de edição de vídeo onde um par de planos com composição similar transita fluidamente de um para o outro. Embora os cortes de correspondência sejam frequentemente visuais, certos cortes de correspondência envolvem a transição fluida de áudio, onde sons de diferentes fontes se fundem em uma transição indistinguível entre dois planos. Neste artigo, exploramos a capacidade de encontrar e criar automaticamente "cortes de correspondência de áudio" em vídeos e filmes. Criamos uma representação de áudio auto-supervisionada para o corte de correspondência de áudio e desenvolvemos um pipeline de correspondência de áudio de grosso a fino que recomenda planos correspondentes e cria o áudio mesclado. Além disso, anotamos um conjunto de dados para a tarefa proposta de corte de correspondência de áudio e comparamos a capacidade de múltiplas representações de áudio em encontrar candidatos a cortes de correspondência de áudio. Por fim, avaliamos múltiplos métodos para mesclar dois candidatos a cortes de correspondência de áudio com o objetivo de criar uma transição suave. A página do projeto e exemplos estão disponíveis em: https://denfed.github.io/audiomatchcut/
Modelos de linguagem grandes (LLMs) baseados em Transformer apresentam limitações como a geração de respostas inseguras, raciocínio não confiável, entre outros. As abordagens de intervenção de inferência existentes tentam mitigar esses problemas ao ajustar modelos adicionais para produzir sinais de calibração (como recompensas) que orientam o processo de decodificação do LLM. No entanto, essa solução introduz uma sobrecarga substancial de tempo e espaço devido aos modelos separados necessários. Este trabalho propõe a Inserção Não Disruptiva de Parâmetros (Otter), inserindo parâmetros extras na arquitetura do transformer para prever sinais de calibração juntamente com a saída original do LLM. Otter oferece desempenho de ponta em várias tarefas exigentes, economizando até 86,5\% de espaço adicional e 98,5\% de tempo adicional. Além disso, Otter se integra perfeitamente com motores de inferência existentes, exigindo apenas uma alteração de uma linha de código, e a resposta do modelo original permanece acessível após a inserção dos parâmetros. Nosso código está publicamente disponível em https://github.com/chenhan97/Otter
O rápido avanço dos sistemas de geração de texto para imagem, exemplificado por modelos como Stable Diffusion, Midjourney, Imagen e DALL-E, tem aumentado as preocupações sobre seu potencial uso indevido. Em resposta, empresas como Meta e Google intensificaram seus esforços para implementar técnicas de marca d'água em imagens geradas por IA, a fim de conter a circulação de visuais potencialmente enganosos. No entanto, neste artigo, argumentamos que os métodos atuais de marca d'água em imagens são frágeis e suscetíveis a serem contornados por meio de ataques de paráfrase visual. O paráfrase visual proposto opera em duas etapas. Primeiramente, gera uma legenda para a imagem fornecida usando o KOSMOS-2, um dos mais recentes sistemas de legendagem de imagens de última geração. Em seguida, passa tanto a imagem original quanto a legenda gerada para um sistema de difusão de imagem para imagem. Durante a etapa de remoção de ruído do pipeline de difusão, o sistema gera uma imagem visualmente similar guiada pela legenda de texto. A imagem resultante é uma paráfrase visual e está livre de quaisquer marcas d'água. Nossas descobertas empíricas demonstram que os ataques de paráfrase visual podem remover efetivamente marcas d'água de imagens. Este artigo fornece uma avaliação crítica, revelando empiricamente a vulnerabilidade das técnicas de marca d'água existentes a ataques de paráfrase visual. Embora não proponhamos soluções para esse problema, este artigo serve como um apelo à comunidade científica para priorizar o desenvolvimento de técnicas de marca d'água mais robustas. Nosso conjunto de dados de paráfrase visual pioneiro e o código correspondente estão disponíveis publicamente.
A linguagem especializada e conceitos complexos em física representam desafios significativos para a extração de informações por meio do Processamento de Linguagem Natural (PLN). Fundamental para aplicações eficazes de PLN é o modelo de incorporação de texto, que converte texto em representações vetoriais densas para recuperação eficiente de informações e análise semântica. Neste trabalho, apresentamos o PhysBERT, o primeiro modelo de incorporação de texto específico para física. Pré-treinado em um corpus selecionado de 1,2 milhão de artigos de física do arXiv e refinado com dados supervisionados, o PhysBERT supera os principais modelos de propósito geral em tarefas específicas de física, incluindo a eficácia no refinamento para subdomínios específicos da física.
O rastreamento visual baseado em câmeras de eventos tem atraído cada vez mais atenção nos últimos anos devido ao princípio único de imagem e às vantagens de baixo consumo de energia, alta faixa dinâmica e alta resolução temporal densa. Os algoritmos de rastreamento baseados em eventos atuais estão gradualmente atingindo seus gargalos de desempenho, devido à utilização do Transformador de Visão e ao modelo de template estático para a localização do objeto alvo. Neste artigo, propomos um novo framework de rastreamento visual baseado em Mamba que adota o modelo de espaço de estados com complexidade linear como rede principal. As regiões de busca e o template alvo são inseridos na rede Mamba de visão para extração e interação de características simultâneas. Os tokens de saída das regiões de busca são inseridos na cabeça de rastreamento para localização do alvo. Mais importante ainda, consideramos a introdução de uma estratégia de atualização dinâmica de template no framework de rastreamento usando a rede Memory Mamba. Ao considerar a diversidade de amostras na biblioteca de templates alvo e fazer ajustes apropriados no módulo de memória do template, um template dinâmico mais eficaz pode ser integrado. A combinação eficaz de templates dinâmicos e estáticos permite que nosso algoritmo de rastreamento baseado em Mamba alcance um bom equilíbrio entre precisão e custo computacional em vários conjuntos de dados em larga escala, incluindo EventVOT, VisEvent e FE240hz. O código fonte será disponibilizado em https://github.com/Event-AHU/MambaEVT.
Tem sido um objetivo de pesquisa de longa data dotar as mãos de robôs com destreza em nível humano. Tocar piano com robôs bimanuais constitui uma tarefa que combina desafios de tarefas dinâmicas, como gerar movimentos rápidos e precisos, com problemas de manipulação mais lentos, porém ricos em contato. Embora abordagens baseadas em aprendizado por reforço tenham mostrado resultados promissores em desempenho de tarefas individuais, esses métodos enfrentam dificuldades em um cenário de várias músicas. Nosso trabalho visa fechar essa lacuna e, assim, permitir abordagens de aprendizado por imitação para tocar piano com robôs em grande escala. Para isso, apresentamos o conjunto de dados Robot Piano 1 Milhão (RP1M), contendo dados de movimento de tocar piano com robôs bimanuais de mais de um milhão de trajetórias. Formulamos posicionamentos dos dedos como um problema de transporte ótimo, possibilitando a anotação automática de vastas quantidades de músicas não rotuladas. A avaliação de abordagens existentes de aprendizado por imitação mostra que tais abordagens alcançam desempenho de tocar piano com robôs de última geração ao aproveitar o RP1M.
O Splatting Gaussiano 3D (3DGS) tornou-se o método padrão de representação 3D em muitas tarefas de visão. Isso requer a compreensão 3D diretamente neste espaço de representação. Para facilitar a pesquisa nessa direção, primeiro construímos um conjunto de dados em grande escala de 3DGS usando os conjuntos de dados ShapeNet e ModelNet comumente utilizados. Nosso conjunto de dados ShapeSplat consiste em 65 mil objetos de 87 categorias únicas, cujos rótulos estão de acordo com os respectivos conjuntos de dados. A criação deste conjunto de dados utilizou o equivalente computacional de 2 anos de GPU em uma GPU TITAN XP. Utilizamos nosso conjunto de dados para pré-treinamento não supervisionado e ajuste fino supervisionado para tarefas de classificação e segmentação. Para isso, introduzimos o \textit{Gaussian-MAE}, que destaca os benefícios únicos da aprendizagem de representação a partir de parâmetros Gaussianos. Através de experimentos exaustivos, fornecemos várias percepções valiosas. Em particular, mostramos que (1) a distribuição dos centróides de GS otimizados difere significativamente do contraparte da nuvem de pontos amostrada uniformemente (usada para inicialização); (2) essa mudança na distribuição resulta em degradação na classificação, mas melhora nas tarefas de segmentação ao usar apenas os centróides; (3) para aproveitar parâmetros Gaussianos adicionais, propomos o agrupamento de características Gaussianas em um espaço de características normalizado, juntamente com uma camada de agrupamento de splats, oferecendo uma solução personalizada para agrupar e incorporar efetivamente Gaussians semelhantes, o que leva a uma melhoria notável nas tarefas de ajuste fino.
A mobilidade urbana e os sistemas de transporte foram profundamente transformados pelo avanço das tecnologias de veículos autônomos. O Baidu Apollo Go, um serviço pioneiro de robô-táxi da gigante tecnológica chinesa Baidu, foi recentemente amplamente implantado em grandes cidades como Pequim e Wuhan, gerando uma conversa intensificada e oferecendo um vislumbre do futuro da mobilidade urbana. Este estudo investiga as atitudes públicas em relação ao Apollo Go em toda a China usando Análise de Sentimentos com um modelo BERT híbrido em 36.096 postagens do Weibo de janeiro a julho de 2024. A análise mostra que 89,56\% das postagens relacionadas ao Apollo Go estão concentradas em julho. De janeiro a julho, o sentimento público foi principalmente positivo, mas comentários negativos começaram a aumentar após se tornar um tópico quente em 21 de julho. A análise espacial indica uma forte correlação entre as províncias com alta intensidade de discussão e aquelas onde o Apollo Go opera. Inicialmente, Hubei e Guangdong dominavam o volume de postagens online, mas em julho, Guangdong, Pequim e regiões internacionais haviam ultrapassado Hubei. As atitudes variaram significativamente entre as províncias, com Xinjiang e Qinghai mostrando otimismo e o Tibete e Gansu expressando preocupações sobre o impacto nos serviços de táxi tradicionais. A análise de sentimento revelou que os comentários positivos se concentraram em aplicações tecnológicas e experiências pessoais, enquanto os comentários negativos se centraram na perda de empregos e preocupações com a segurança. Em resumo, este estudo destaca a divergência nas percepções públicas dos serviços autônomos de transporte por aplicativo, fornecendo insights valiosos para planejadores, formuladores de políticas e provedores de serviços. O modelo está publicado no Hugging Face em https://huggingface.co/wsqstar/bert-finetuned-weibo-luobokuaipao e o repositório no GitHub em https://github.com/GIStudio/trb2024.