Artigos de pesquisa em IA selecionados diariamente com traduções
Neste artigo, apresentamos a Escrita nas Margens (WiM), um novo padrão de inferência para Modelos de Linguagem Grandes projetado para otimizar o tratamento de sequências de entrada longas em tarefas orientadas para recuperação. Esta abordagem aproveita o preenchimento segmentado do cache chave-valor para realizar inferência por segmento, o que possibilita o processamento eficiente de contextos extensos juntamente com a geração e classificação de informações intermediárias ("margens") que orientam o modelo em direção a tarefas específicas. Este método aumenta marginalmente a sobrecarga computacional, ao mesmo tempo em que melhora significativamente o desempenho de modelos prontos para uso sem a necessidade de ajustes finos. Especificamente, observamos que o WiM proporciona um aumento médio de 7,5% na precisão para habilidades de raciocínio (HotpotQA, MultiHop-RAG) e mais de 30,0% no aumento do escore F1 para tarefas de agregação (CWE). Além disso, demonstramos como o padrão proposto se encaixa em um design de recuperação interativa que fornece aos usuários finais atualizações contínuas sobre o progresso do processamento de contexto e destaca a integração de informações relevantes na resposta final. Disponibilizamos nossa implementação do WiM utilizando a biblioteca Hugging Face Transformers em https://github.com/writer/writing-in-the-margins.
Apresentamos o GameNGen, o primeiro motor de jogo alimentado inteiramente por um modelo neural que possibilita interação em tempo real com um ambiente complexo ao longo de trajetórias extensas com alta qualidade. O GameNGen pode simular interativamente o jogo clássico DOOM a mais de 20 quadros por segundo em uma única Unidade de Processamento Tensorial (TPU). A previsão do próximo quadro alcança um PSNR de 29.4, comparável à compressão JPEG com perdas. Avaliadores humanos são apenas ligeiramente melhores do que o acaso em distinguir pequenos trechos do jogo de trechos da simulação. O GameNGen é treinado em duas fases: (1) um agente de RL aprende a jogar o jogo e as sessões de treinamento são gravadas, e (2) um modelo de difusão é treinado para produzir o próximo quadro, condicionado à sequência de quadros e ações passadas. Augmentations de condicionamento possibilitam geração auto-regressiva estável ao longo de trajetórias extensas.
Arquiteturas lineares de RNN, como Mamba, podem ser competitivas com modelos Transformer na modelagem de linguagem, ao mesmo tempo em que possuem características vantajosas para implantação. Dado o foco no treinamento de modelos Transformer em larga escala, consideramos o desafio de converter esses modelos pré-treinados para implantação. Demonstramos que é viável destilar grandes Transformers em RNNs lineares reutilizando os pesos de projeção linear das camadas de atenção com recursos acadêmicos de GPU. O modelo híbrido resultante, que incorpora um quarto das camadas de atenção, alcança desempenho comparável ao Transformer original em benchmarks de chat e supera modelos híbridos Mamba de código aberto treinados do zero com trilhões de tokens, tanto em benchmarks de chat quanto em benchmarks gerais. Além disso, introduzimos um algoritmo de decodificação especulativa consciente do hardware que acelera a velocidade de inferência de modelos Mamba e híbridos. No geral, mostramos como, com recursos computacionais limitados, podemos remover muitas das camadas de atenção originais e gerar a partir do modelo resultante de forma mais eficiente. Nosso modelo de melhor desempenho, destilado do Llama3-8B-Instruct, alcança uma taxa de vitória controlada por comprimento de 29,61 no AlpacaEval 2 contra o GPT-4 e 7,35 no MT-Bench, superando o melhor modelo de RNN linear ajustado para instruções.
Apresentamos um método para gerar sequências de vídeo com movimento coerente entre um par de quadros-chave de entrada. Adaptamos um modelo de difusão de imagem para vídeo em larga escala pré-treinado (originalmente treinado para gerar vídeos avançando no tempo a partir de uma única imagem de entrada) para interpolação de quadros-chave, ou seja, para produzir um vídeo entre dois quadros de entrada. Realizamos essa adaptação por meio de uma técnica de ajuste fino leve que produz uma versão do modelo que, em vez disso, prevê vídeos retrocedendo no tempo a partir de uma única imagem de entrada. Esse modelo (juntamente com o modelo original de avanço) é posteriormente utilizado em um processo de amostragem de difusão bidirecional que combina as estimativas de modelo sobrepostas a partir de cada um dos dois quadros-chave. Nossos experimentos mostram que nosso método supera tanto os métodos existentes baseados em difusão quanto as técnicas tradicionais de interpolação de quadros.
Sistemas de IA que respondem a perguntas em linguagem natural sobre bancos de dados prometem desbloquear um valor tremendo. Tais sistemas permitiriam aos usuários aproveitar o poderoso raciocínio e as capacidades de conhecimento dos modelos de linguagem (LMs) juntamente com a escalabilidade computacional dos sistemas de gerenciamento de dados. Essas capacidades combinadas capacitariam os usuários a fazer perguntas arbitrariamente em linguagem natural sobre fontes de dados personalizadas. No entanto, os métodos e benchmarks existentes exploram de forma insuficiente esse cenário. Os métodos Text2SQL focam exclusivamente em perguntas em linguagem natural que podem ser expressas em álgebra relacional, representando um pequeno subconjunto das perguntas que os usuários reais desejam fazer. Da mesma forma, o Retrieval-Augmented Generation (RAG) considera o subconjunto limitado de consultas que podem ser respondidas com consultas pontuais a um ou alguns registros de dados dentro do banco de dados. Propomos o Table-Augmented Generation (TAG), um paradigma unificado e de propósito geral para responder a perguntas em linguagem natural sobre bancos de dados. O modelo TAG representa uma ampla gama de interações entre o LM e o banco de dados que foram previamente inexploradas e cria oportunidades de pesquisa emocionantes para aproveitar o conhecimento mundial e as capacidades de raciocínio dos LMs sobre dados. Desenvolvemos sistematicamente benchmarks para estudar o problema TAG e descobrimos que os métodos padrão respondem corretamente a no máximo 20% das consultas, confirmando a necessidade de mais pesquisas nessa área. Disponibilizamos o código para o benchmark em https://github.com/TAG-Research/TAG-Bench.
Propomos uma abordagem baseada em difusão para a geração de Texto-para-Imagem (T2I) com controle interativo de layout 3D. O controle de layout tem sido amplamente estudado para mitigar as deficiências dos modelos de difusão T2I na compreensão do posicionamento e relacionamentos de objetos a partir de descrições de texto. No entanto, as abordagens existentes para controle de layout são limitadas a layouts 2D, exigem que o usuário forneça um layout estático antecipadamente e falham em preservar imagens geradas sob alterações de layout. Isso torna essas abordagens inadequadas para aplicações que exigem controle tridimensional de objetos e refinamentos iterativos, por exemplo, design de interiores e geração de cenas complexas. Para isso, aproveitamos os avanços recentes em modelos T2I condicionados pela profundidade e propomos uma abordagem inovadora para controle de layout 3D interativo. Substituímos as tradicionais caixas 2D usadas no controle de layout por caixas 3D. Além disso, reformulamos a tarefa T2I como um processo de geração em múltiplos estágios, onde em cada estágio, o usuário pode inserir, alterar e mover um objeto em 3D enquanto preserva objetos de estágios anteriores. Conseguimos isso por meio do nosso módulo de Autoatenção Dinâmica (DSA) proposto e da estratégia consistente de tradução de objetos 3D. Experimentos mostram que nossa abordagem pode gerar cenas complicadas com base em layouts 3D, aumentando a taxa de sucesso na geração de objetos em relação aos métodos padrão T2I condicionados pela profundidade em 2 vezes. Além disso, supera outros métodos em comparação na preservação de objetos sob alterações de layout. Página do Projeto: https://abdo-eldesokey.github.io/build-a-scene/
Avatares 3D fotorrealistas e controláveis são cruciais para diversas aplicações, como realidade virtual e mista (RV/RM), telepresença, jogos e produção cinematográfica. Os métodos tradicionais de criação de avatares frequentemente envolvem processos demorados de digitalização e reconstrução para cada avatar, o que limita sua escalabilidade. Além disso, esses métodos não oferecem a flexibilidade de amostrar novas identidades ou modificar as existentes. Por outro lado, ao aprender uma forte priori a partir de dados, os modelos generativos fornecem uma alternativa promissora aos métodos tradicionais de reconstrução, facilitando as restrições de tempo tanto para a captura quanto para o processamento de dados. Adicionalmente, os métodos generativos possibilitam aplicações posteriores além da reconstrução, como edição e estilização. No entanto, a pesquisa sobre avatares 3D generativos ainda está em seus estágios iniciais, e, portanto, os métodos atuais ainda possuem limitações, como a criação de avatares estáticos, falta de fotorrealismo, detalhes faciais incompletos ou dirigibilidade limitada. Para lidar com isso, propomos um modelo generativo condicionado a texto que pode gerar avatares faciais fotorrealistas de identidades diversas, com detalhes mais completos como cabelo, olhos e interior da boca, e que podem ser controlados por meio de um espaço de expressão latente não paramétrico poderoso. Especificamente, integramos as capacidades generativas e de edição de modelos de difusão latente com um forte modelo priori para condução da expressão do avatar. Nosso modelo pode gerar e controlar avatares de alta fidelidade, mesmo aqueles fora da distribuição. Também destacamos seu potencial para aplicações posteriores, incluindo edição de avatares e reconstrução de avatares em uma única tentativa.
A leitura de texto em imagens (sejam cenas naturais ou documentos) tem sido um tópico de pesquisa de longa data há décadas, devido ao alto desafio técnico e ampla gama de aplicações. Anteriormente, modelos especializados individuais foram desenvolvidos para lidar com as sub-tarefas de leitura de texto (por exemplo, reconhecimento de texto em cenas, reconhecimento de texto manuscrito e reconhecimento de expressões matemáticas). No entanto, tais modelos especializados geralmente não conseguem generalizar efetivamente entre diferentes sub-tarefas. Recentemente, modelos generalistas (como o GPT-4V), treinados em enormes conjuntos de dados de forma unificada, têm mostrado um enorme potencial na leitura de texto em vários cenários, mas com as desvantagens de precisão limitada e baixa eficiência. Neste trabalho, propomos o Platypus, um modelo especializado generalizado para leitura de texto. Especificamente, o Platypus combina o melhor dos dois mundos: sendo capaz de reconhecer texto de várias formas com uma única arquitetura unificada, ao mesmo tempo em que alcança excelente precisão e alta eficiência. Para explorar melhor a vantagem do Platypus, também construímos um conjunto de dados de leitura de texto (chamado Worms), cujas imagens são selecionadas de conjuntos de dados anteriores e parcialmente re-rotuladas. Experimentos em benchmarks padrão demonstram a eficácia e superioridade do modelo Platypus proposto. O modelo e os dados estarão disponíveis publicamente em https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.
Apresentamos SHADOW, um modelo de linguagem ajustado treinado em uma tarefa intermediária usando raciocínio dedutivo associativo, e medimos seu desempenho em uma tarefa de construção de base de conhecimento usando a conclusão de triplas do Wikidata. Avaliamos SHADOW no desafio LM-KBC 2024 e demonstramos que supera a solução de referência em 20% com uma pontuação F1 de 68,72%.
Apresentamos as torres semânticas, um método de representação de conhecimento extrínseco, e comparamos com o conhecimento intrínseco em grandes modelos de linguagem para aprendizado de ontologia. Nossos experimentos mostram um equilíbrio entre desempenho e fundamentação semântica para o conhecimento extrínseco em comparação com um modelo intrínseco ajustado finamente. Relatamos nossas descobertas no desafio de Modelos de Linguagem para Aprendizado de Ontologia (LLMs4OL) de 2024.
Este artigo aborda a reconstrução 3D de aves marinhas, que recentemente ganhou destaque entre os cientistas ambientais como valiosos bioindicadores de mudanças ambientais. Essas informações tridimensionais são benéficas para analisar o comportamento das aves e sua forma fisiológica, por exemplo, rastreando mudanças de movimento, forma e aparência. Do ponto de vista da visão computacional, as aves são especialmente desafiadoras devido aos seus movimentos rápidos e muitas vezes não rígidos. Propomos uma abordagem para reconstruir a pose e forma 3D a partir de vídeos monoculares de uma espécie específica de ave marinha - o murre comum. Nossa abordagem compreende um pipeline completo de detecção, rastreamento, segmentação e reconstrução 3D temporalmente consistente. Além disso, propomos uma perda temporal que estende os atuais estimadores de pose 3D de aves de imagem única para o domínio temporal. Além disso, fornecemos um conjunto de dados do mundo real com 10000 frames de observações em vídeo em média capturando nove aves simultaneamente, abrangendo uma grande variedade de movimentos e interações, incluindo um conjunto de teste menor com rótulos de keypoints específicos das aves. Usando nossa otimização temporal, alcançamos um desempenho de ponta para as sequências desafiadoras em nosso conjunto de dados.
A Indústria 4.0 revolucionou a manufatura ao impulsionar a digitalização e mudar o paradigma em direção à manufatura aditiva (MA). A Modelagem por Deposição Fundida (FDM), uma tecnologia chave de MA, permite a criação de produtos altamente personalizados e econômicos, com mínimo desperdício de material, por meio de extrusão camada a camada, representando um desafio significativo para os métodos tradicionais subtrativos. No entanto, a suscetibilidade das técnicas de extrusão de material a erros frequentemente requer intervenção de especialistas para detectar e mitigar defeitos que podem comprometer severamente a qualidade do produto. Embora existam modelos automatizados de detecção de erros e de aprendizado de máquina, sua generalizabilidade entre diferentes configurações de impressoras 3D, firmware e sensores é limitada, e os métodos de aprendizado profundo exigem conjuntos de dados rotulados extensos, dificultando a escalabilidade e adaptabilidade. Para enfrentar esses desafios, apresentamos um framework de monitoramento e controle de processo que aproveita Modelos de Linguagem Grandes (LLMs) pré-treinados em conjunto com impressoras 3D para detectar e corrigir defeitos de impressão. O LLM avalia a qualidade da impressão analisando imagens capturadas após cada camada ou segmento de impressão, identificando modos de falha e consultando a impressora para obter parâmetros relevantes. Em seguida, gera e executa um plano de ação corretiva. Validamos a eficácia do framework proposto na identificação de defeitos comparando-o com um grupo de controle de engenheiros com experiência diversificada em MA. Nossa avaliação demonstrou que os agentes baseados em LLM identificam com precisão não apenas erros comuns de impressão 3D, como extrusão inconsistente, fios, deformação e adesão de camadas, mas também determinam efetivamente os parâmetros que causam essas falhas e os corrigem autonomamente sem a necessidade de intervenção humana.