Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem aumentados por recuperação podem se adaptar melhor a mudanças no estado do mundo e incorporar conhecimento de cauda longa. No entanto, a maioria dos métodos existentes recupera apenas trechos curtos e contíguos de um corpus de recuperação, limitando a compreensão holística do contexto geral do documento. Introduzimos a abordagem inovadora de incorporar, agrupar e resumir recursivamente trechos de texto, construindo uma árvore com diferentes níveis de sumarização de baixo para cima. No momento da inferência, nosso modelo RAPTOR recupera informações dessa árvore, integrando dados de documentos extensos em diferentes níveis de abstração. Experimentos controlados mostram que a recuperação com resumos recursivos oferece melhorias significativas em relação aos modelos de linguagem aumentados por recuperação tradicionais em várias tarefas. Em tarefas de questionamento e resposta que envolvem raciocínio complexo e de múltiplas etapas, demonstramos resultados de ponta; por exemplo, ao acoplar a recuperação do RAPTOR com o uso do GPT-4, podemos melhorar o melhor desempenho no benchmark QuALITY em 20% em termos de precisão absoluta.
Os modelos de linguagem baseados em n-gramas ainda são relevantes nesta era dos grandes modelos de linguagem neural (LLMs)? Nossa resposta é sim, e demonstramos seu valor tanto na análise de texto quanto na melhoria dos LLMs neurais. No entanto, isso exige a modernização dos modelos n-gramas em dois aspectos. Primeiro, nós os treinamos na mesma escala de dados que os LLMs neurais — 1,4 trilhão de tokens. Este é o maior modelo n-grama já construído. Segundo, os modelos n-gramas existentes usam valores pequenos de n, o que limita seu desempenho; em vez disso, permitimos que n seja arbitrariamente grande, introduzindo um novo modelo de linguagem infty-gram com backoff. Em vez de pré-calcular tabelas de contagem de n-gramas (o que seria muito caro), desenvolvemos um mecanismo chamado infini-gram — baseado em arrays de sufixos — que pode calcular probabilidades de infty-gram (bem como de n-gramas com n arbitrário) com latência em nível de milissegundos. O framework infty-gram e o mecanismo infini-gram nos permitem realizar muitas análises novas e interessantes de textos escritos por humanos e gerados por máquinas: descobrimos que o modelo infty-gram tem uma precisão bastante alta para a previsão do próximo token (47%) e pode complementar os LLMs neurais para reduzir significativamente suas perplexidades na modelagem de linguagem. Ao analisar textos gerados por máquinas, também observamos irregularidades no nível de concordância entre a máquina e o infty-gram em relação ao comprimento do sufixo, o que indica deficiências no pré-treinamento dos LLMs neurais e nos embeddings posicionais dos Transformers. Disponibilizamos nosso mecanismo infini-gram como código aberto na esperança de permitir mais estudos sobre como melhor usar informações textuais recuperadas de grandes corpora de texto.
Robôs com pernas que navegam em ambientes desordenados devem ser simultaneamente ágeis para execução eficiente de tarefas e seguros para evitar colisões com obstáculos ou humanos. Estudos existentes desenvolvem controladores conservadores (< 1,0 m/s) para garantir segurança ou focam em agilidade sem considerar colisões potencialmente fatais. Este artigo apresenta o Agile But Safe (ABS), um framework de controle baseado em aprendizado que permite locomoção ágil e livre de colisões para robôs quadrúpedes. O ABS envolve uma política ágil para executar habilidades motoras ágeis em meio a obstáculos e uma política de recuperação para prevenir falhas, colaborando para alcançar navegação em alta velocidade e livre de colisões. A troca de políticas no ABS é governada por uma rede de valor de alcance-evitamento aprendida com base em teoria de controle, que também orienta a política de recuperação como uma função objetivo, protegendo o robô em um ciclo fechado. O processo de treinamento envolve o aprendizado da política ágil, da rede de valor de alcance-evitamento, da política de recuperação e de uma rede de representação de exterocepção, tudo em simulação. Esses módulos treinados podem ser diretamente implantados no mundo real com sensoriamento e computação embarcados, resultando em navegação em alta velocidade e livre de colisões em espaços confinados, tanto internos quanto externos, com obstáculos estáticos e dinâmicos.
Estender modelos de linguagem de grande escala para lidar efetivamente com contextos longos requer ajuste fino por instrução em sequências de entrada de comprimento similar. Para abordar isso, apresentamos o LongAlign -- uma receita que abrange os dados de instrução, o treinamento e a avaliação para o alinhamento de contextos longos. Primeiro, construímos um conjunto de dados de instruções longas utilizando Self-Instruct. Para garantir a diversidade dos dados, ele abrange uma ampla gama de tarefas provenientes de várias fontes de contexto longo. Segundo, adotamos as estratégias de empacotamento e ordenação de lotes para acelerar o ajuste fino supervisionado em dados com distribuições variadas de comprimento. Além disso, desenvolvemos um método de ponderação de perda para equilibrar a contribuição para a perda em diferentes sequências durante o treinamento com empacotamento. Terceiro, introduzimos o benchmark LongBench-Chat para avaliar as capacidades de seguir instruções em consultas com comprimentos de 10k a 100k. Experimentos mostram que o LongAlign supera as receitas existentes para LLMs em tarefas de contexto longo em até 30\%, mantendo também sua proficiência no tratamento de tarefas curtas e genéricas. O código, os dados e os modelos alinhados para contextos longos estão disponíveis em https://github.com/THUDM/LongAlign.
Os modelos de difusão de vídeo têm ganhado crescente atenção por sua capacidade de produzir vídeos que são tanto coerentes quanto de alta fidelidade. No entanto, o processo iterativo de remoção de ruído torna-o computacionalmente intensivo e demorado, limitando assim suas aplicações. Inspirados pelo Modelo de Consistência (CM), que destila modelos de difusão de imagens pré-treinados para acelerar a amostragem com um número mínimo de passos, e sua extensão bem-sucedida, o Modelo de Consistência Latente (LCM) na geração condicional de imagens, propomos o AnimateLCM, permitindo a geração de vídeos de alta fidelidade com um número mínimo de passos. Em vez de realizar diretamente o aprendizado de consistência no conjunto de dados de vídeo bruto, propomos uma estratégia de aprendizado de consistência desacoplada que separa a destilação de prioridades de geração de imagens e prioridades de geração de movimento, o que melhora a eficiência do treinamento e aumenta a qualidade visual da geração. Além disso, para permitir a combinação de adaptadores plug-and-play na comunidade de difusão estável para alcançar várias funções (por exemplo, ControlNet para geração controlável), propomos uma estratégia eficiente para adaptar adaptadores existentes ao nosso modelo de consistência de vídeo condicionado por texto destilado ou treinar adaptadores do zero sem prejudicar a velocidade de amostragem. Validamos a estratégia proposta na geração de vídeos condicionados por imagem e na geração de vídeos condicionados por layout, todos alcançando resultados de alto desempenho. Os resultados experimentais validam a eficácia do nosso método proposto. O código e os pesos serão disponibilizados publicamente. Mais detalhes estão disponíveis em https://github.com/G-U-N/AnimateLCM.
Para alcançar um raciocínio fiel que esteja alinhado com as expectativas humanas, os grandes modelos de linguagem (LLMs) precisam fundamentar seu raciocínio em conhecimentos do mundo real (por exemplo, fatos da web, regras matemáticas e físicas). Ferramentas ajudam os LLMs a acessar esse conhecimento externo, mas ainda existem desafios para ajustar finamente agentes LLMs (por exemplo, Toolformer) para invocar ferramentas em problemas de raciocínio de múltiplos passos, onde chamadas de ferramentas interconectadas exigem um planejamento holístico e eficiente do uso de ferramentas. Neste trabalho, propomos um novo método para que os LLMs aproveitem melhor as ferramentas em raciocínios de múltiplos passos. Nosso método, Chain-of-Abstraction (CoA), treina os LLMs para primeiro decodificar cadeias de raciocínio com espaços reservados abstratos e, em seguida, chamar ferramentas de domínio para concretizar cada cadeia de raciocínio, preenchendo com conhecimentos específicos. Esse planejamento com cadeias abstratas permite que os LLMs aprendam estratégias de raciocínio mais gerais, que são robustas a mudanças no conhecimento de domínio (por exemplo, resultados matemáticos) relevantes para diferentes questões de raciocínio. Também permite que os LLMs realizem a decodificação e a chamada de ferramentas externas em paralelo, evitando o atraso na inferência causado pela espera pelas respostas das ferramentas. Nos domínios de raciocínio matemático e Wiki QA, mostramos que nosso método supera consistentemente as abordagens anteriores de cadeia de pensamento e baselines aumentadas por ferramentas, tanto em conjuntos de teste dentro da distribuição quanto fora dela, com uma melhoria média de ~6% na precisão absoluta de QA. Agentes LLMs treinados com nosso método também demonstram um uso mais eficiente de ferramentas, com a velocidade de inferência sendo em média ~1,4x mais rápida do que os LLMs baselines aumentados por ferramentas.
A geração de modelos 3D está no cerne da computação gráfica e tem sido o foco de décadas de pesquisa. Com o surgimento de representações neurais avançadas e modelos generativos, o campo de geração de conteúdo 3D está se desenvolvendo rapidamente, permitindo a criação de modelos 3D cada vez mais diversos e de alta qualidade. O rápido crescimento desse campo torna difícil acompanhar todos os desenvolvimentos recentes. Nesta revisão, buscamos introduzir as metodologias fundamentais dos métodos de geração 3D e estabelecer um roteiro estruturado, abrangendo representação 3D, métodos de geração, conjuntos de dados e aplicações correspondentes. Especificamente, apresentamos as representações 3D que servem como base para a geração 3D. Além disso, fornecemos uma visão abrangente da literatura em rápido crescimento sobre métodos de geração, categorizados por tipo de paradigma algorítmico, incluindo geração direta (feedforward), geração baseada em otimização, geração procedural e síntese generativa de novas vistas. Por fim, discutimos conjuntos de dados disponíveis, aplicações e desafios em aberto. Esperamos que esta revisão ajude os leitores a explorar esse tópico empolgante e promova avanços adicionais no campo da geração de conteúdo 3D.
A simulação realista de vídeo tem demonstrado um potencial significativo em diversas aplicações, desde realidade virtual até produção cinematográfica. Isso é particularmente verdadeiro para cenários em que a captura de vídeos em ambientes do mundo real é impraticável ou cara. As abordagens existentes em simulação de vídeo frequentemente falham em modelar com precisão o ambiente de iluminação, representar a geometria dos objetos ou alcançar altos níveis de fotorrealismo. Neste artigo, propomos o Anything in Any Scene, uma estrutura nova e genérica para simulação realista de vídeo que insere perfeitamente qualquer objeto em um vídeo dinâmico existente, com forte ênfase no realismo físico. Nossa estrutura proposta abrange três processos principais: 1) integrar um objeto realista em um vídeo de cena dado, com posicionamento adequado para garantir o realismo geométrico; 2) estimar a distribuição do céu e da iluminação ambiental e simular sombras realistas para aprimorar o realismo da luz; 3) empregar uma rede de transferência de estilo que refina o vídeo final para maximizar o fotorrealismo. Demonstramos experimentalmente que a estrutura Anything in Any Scene produz vídeos simulados com grande realismo geométrico, de iluminação e fotorrealismo. Ao mitigar significativamente os desafios associados à geração de dados de vídeo, nossa estrutura oferece uma solução eficiente e econômica para a aquisição de vídeos de alta qualidade. Além disso, suas aplicações vão muito além da ampliação de dados de vídeo, mostrando potencial promissor em realidade virtual, edição de vídeo e várias outras aplicações centradas em vídeo. Por favor, visite nosso site do projeto https://anythinginanyscene.github.io para acessar o código do projeto e mais resultados de vídeo em alta resolução.
A rápida evolução dos Modelos de Linguagem de Grande Escala (LLMs), exemplificada por arquiteturas como o GPT-4, transformou o cenário do processamento de linguagem natural. Este artigo apresenta uma abordagem pioneira para lidar com as preocupações de eficiência associadas ao pré-treinamento de LLMs, propondo o uso de destilação de conhecimento para transferência entre arquiteturas. Aproveitando insights do eficiente mecanismo Hyena, nosso método substitui as cabeças de atenção em modelos transformadores pelo Hyena, oferecendo uma alternativa econômica ao pré-treinamento tradicional, ao mesmo tempo em que enfrenta o desafio de processar informações contextuais longas, inerentes aos mecanismos de atenção quadrática. Diferentemente dos métodos convencionais focados em compressão, nossa técnica não apenas melhora a velocidade de inferência, mas também supera o pré-treinamento em termos de precisão e eficiência. Na era dos LLMs em evolução, nosso trabalho contribui para a busca de soluções de IA sustentáveis, equilibrando poder computacional e impacto ambiental.
Apresentamos o modelo ReplaceAnything3D (RAM3D), um método inovador de edição de cenas 3D guiado por texto que permite a substituição de objetos específicos dentro de uma cena. Dadas imagens de múltiplas perspectivas de uma cena, um prompt de texto descrevendo o objeto a ser substituído e um prompt de texto descrevendo o novo objeto, nossa abordagem de "Apagar e Substituir" pode efetivamente trocar objetos na cena por conteúdo recém-gerado, mantendo a consistência 3D em múltiplos pontos de vista. Demonstramos a versatilidade do ReplaceAnything3D aplicando-o a diversas cenas 3D realistas, exibindo resultados de objetos em primeiro plano modificados que estão bem integrados ao restante da cena sem afetar sua integridade geral.
Propomos o CARFF: Campo de Radiação Condicional Codificado Automaticamente para Previsão de Cenas 3D, um método para prever cenas 3D futuras com base em observações passadas, como imagens egocêntricas 2D. Nosso método mapeia uma imagem para uma distribuição sobre configurações latentes plausíveis de cenas 3D usando um codificador probabilístico e prevê a evolução das cenas hipotetizadas ao longo do tempo. Nossa representação latente de cena condiciona um Campo de Radiação Neural (NeRF) global para representar um modelo de cena 3D, o que permite previsões explicáveis e aplicações diretas em tarefas subsequentes. Essa abordagem vai além de trabalhos anteriores em renderização neural ao considerar cenários complexos de incerteza em estados e dinâmicas ambientais. Empregamos um treinamento em duas etapas de um VAE Condicionado à Pose e um NeRF para aprender representações 3D. Além disso, prevemos de forma autorregressiva as representações latentes de cena como um processo de decisão de Markov parcialmente observável, utilizando uma rede de densidade mista. Demonstramos a utilidade do nosso método em cenários realistas usando o simulador de direção CARLA, onde o CARFF pode ser utilizado para permitir planejamento eficiente de trajetórias e contingências em cenários complexos de direção autônoma multiagente envolvendo oclusões visuais.