Artigos de pesquisa em IA selecionados diariamente com traduções
O pré-treinamento de Grandes Modelos de Linguagem (LLMs, do inglês *Large Language Models*) em grandes corpora de dados textuais é, atualmente, um paradigma padrão. Ao utilizar esses LLMs para diversas aplicações subsequentes, é comum incorporar adicionalmente novos conhecimentos (por exemplo, notícias críticas em tempo real ou conhecimentos específicos de domínio privado) ao modelo pré-treinado, seja por meio de *prompting* baseado em RAG (*Retrieval-Augmented Generation*) ou por ajuste fino (*fine-tuning*). No entanto, a metodologia ideal para que o modelo adquira esses novos conhecimentos permanece uma questão em aberto. Neste artigo, apresentamos o *Retrieval Augmented FineTuning* (RAFT), uma abordagem de treinamento que melhora a capacidade do modelo de responder a perguntas em cenários de "livro aberto" dentro de um domínio específico. No RAFT, dada uma pergunta e um conjunto de documentos recuperados, treinamos o modelo para ignorar os documentos que não auxiliam na resposta à pergunta, os quais chamamos de documentos distratores. O RAFT alcança isso citando textualmente a sequência correta do documento relevante que ajudaria a responder à pergunta. Isso, aliado ao estilo de resposta em cadeia de pensamento (*chain-of-thought*) do RAFT, melhora a capacidade de raciocínio do modelo. Em cenários de RAG específicos de domínio, o RAFT melhora consistentemente o desempenho do modelo em conjuntos de dados como PubMed, HotpotQA e Gorilla, apresentando uma abordagem pós-treinamento para aprimorar LLMs pré-treinados em RAG de domínio específico. O código e a demonstração do RAFT estão disponíveis em código aberto em github.com/ShishirPatil/gorilla.
Na pesquisa científica e sua aplicação, a análise da literatura científica é crucial, pois permite que os pesquisadores construam sobre o trabalho de outros. No entanto, o rápido crescimento do conhecimento científico levou a um aumento massivo de artigos acadêmicos, tornando a análise aprofundada da literatura cada vez mais desafiadora e demorada. O surgimento dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) ofereceu uma nova maneira de enfrentar esse desafio. Reconhecidos por suas fortes habilidades em resumir textos, os LLMs são vistos como uma ferramenta potencial para melhorar a análise da literatura científica. No entanto, os LLMs existentes têm suas próprias limitações. A literatura científica frequentemente inclui uma ampla gama de elementos multimodais, como estruturas moleculares, tabelas e gráficos, que são difíceis de entender e analisar para LLMs focados em texto. Esse problema aponta para a necessidade urgente de novas soluções que possam compreender e analisar plenamente o conteúdo multimodal na literatura científica. Para atender a essa demanda, apresentamos o Uni-SMART (Universal Science Multimodal Analysis and Research Transformer), um modelo inovador projetado para o entendimento aprofundado da literatura científica multimodal. Por meio de uma avaliação quantitativa rigorosa em várias áreas, o Uni-SMART demonstra desempenho superior em relação aos principais LLMs focados em texto. Além disso, nossa exploração se estende a aplicações práticas, incluindo a detecção de violação de patentes e a análise detalhada de gráficos. Essas aplicações não apenas destacam a adaptabilidade do Uni-SMART, mas também seu potencial para revolucionar a forma como interagimos com a literatura científica.
A compreensão de vídeos de longa duração representa um desafio significativo na área de visão computacional, exigindo um modelo capaz de raciocinar sobre sequências multimodais extensas. Motivados pelo processo cognitivo humano para a compreensão de vídeos de longa duração, enfatizamos o raciocínio interativo e o planejamento em vez da capacidade de processar entradas visuais longas. Introduzimos um sistema inovador baseado em agentes, o VideoAgent, que emprega um modelo de linguagem de grande escala como agente central para identificar e compilar iterativamente informações cruciais para responder a uma pergunta, com modelos de base visão-linguagem atuando como ferramentas para traduzir e recuperar informações visuais. Avaliado nos desafiadores benchmarks EgoSchema e NExT-QA, o VideoAgent alcança 54,1% e 71,3% de precisão zero-shot, utilizando em média apenas 8,4 e 8,2 frames, respectivamente. Esses resultados demonstram a superioridade em eficácia e eficiência do nosso método em relação aos métodos state-of-the-art atuais, destacando o potencial das abordagens baseadas em agentes para avançar a compreensão de vídeos de longa duração.
O alinhamento de grandes modelos de linguagem é geralmente realizado pelos provedores de modelos para adicionar ou controlar comportamentos que são comuns ou universalmente compreendidos em diferentes casos de uso e contextos. Em contraste, neste artigo, apresentamos uma abordagem e arquitetura que capacita desenvolvedores de aplicações a ajustar um modelo aos seus valores específicos, normas sociais, leis e outras regulamentações, além de orquestrar entre requisitos potencialmente conflitantes em contexto. Descrevemos três componentes principais dessa arquitetura de Estúdio de Alinhamento: Moldadores, Instrutores e Auditores, que trabalham em conjunto para controlar o comportamento de um modelo de linguagem. Ilustramos essa abordagem com um exemplo contínuo de alinhamento de um chatbot interno de uma empresa às suas diretrizes de conduta empresarial.
Neste artigo, apresentamos uma abordagem aprimorada de decodificação especulativa, com o objetivo de aumentar a eficiência na execução de grandes modelos de linguagem. Nosso método aproveita os pontos fortes de duas técnicas consolidadas: a abordagem clássica de decodificação especulativa com dois modelos e a abordagem mais recente de modelo único, Medusa. Inspirados pelo Medusa, nossa abordagem adota uma estratégia de modelo único para decodificação especulativa. No entanto, nosso método se distingue por empregar um único cabeçalho de rascunho leve com um design de dependência recorrente, semelhante em essência ao pequeno modelo de rascunho usado na decodificação especulativa clássica, mas sem as complexidades da arquitetura completa do transformer. E, devido à dependência recorrente, podemos usar a busca em feixe para filtrar rapidamente candidatos indesejados com o cabeçalho de rascunho. O resultado é um método que combina a simplicidade do design de modelo único e evita a necessidade de criar uma estrutura de atenção em árvore dependente de dados apenas para inferência, como no Medusa. Demonstramos empiricamente a eficácia do método proposto em vários modelos de linguagem de código aberto populares, juntamente com uma análise abrangente das compensações envolvidas na adoção dessa abordagem.
Modelos de geração de áudio e música baseados em difusão geralmente geram música construindo uma representação visual do áudio (por exemplo, um mel-espectrograma) e, em seguida, convertendo-a em áudio usando um modelo de reconstrução de fase ou um vocoder. No entanto, os vocoders típicos produzem áudio monofônico em resoluções mais baixas (por exemplo, 16-24 kHz), o que limita sua eficácia. Propomos o MusicHiFi -- um vocoder estereofônico de alta fidelidade e eficiente. Nosso método emprega uma cascata de três redes generativas adversariais (GANs) que convertem mel-espectrogramas de baixa resolução em áudio, aumentam a resolução para áudio de alta fidelidade por meio de expansão de largura de banda e realizam a conversão para áudio estereofônico. Em comparação com trabalhos anteriores, propomos 1) uma arquitetura unificada de gerador e discriminador baseada em GAN e um procedimento de treinamento para cada estágio da nossa cascata, 2) um novo módulo de extensão de largura de banda rápido e quase compatível com subamostragem, e 3) um novo upmixer mono-para-estéreo rápido e compatível com downmix que garante a preservação do conteúdo monofônico na saída. Avaliamos nossa abordagem usando testes objetivos e subjetivos de escuta e descobrimos que nossa abordagem produz qualidade de áudio comparável ou superior, melhor controle de espacialização e velocidade de inferência significativamente mais rápida em comparação com trabalhos anteriores. Exemplos de áudio estão disponíveis em https://MusicHiFi.github.io/web/.
Reconstruir objetos 3D detalhados a partir de imagens de visão única continua sendo uma tarefa desafiadora devido à informação limitada disponível. Neste artigo, apresentamos o FDGaussian, uma nova estrutura de duas etapas para reconstrução 3D a partir de uma única imagem. Métodos recentes geralmente utilizam modelos de difusão 2D pré-treinados para gerar novas visões plausíveis a partir da imagem de entrada, mas enfrentam problemas com inconsistência multi-visual ou falta de fidelidade geométrica. Para superar esses desafios, propomos um mecanismo de decomposição em planos ortogonais para extrair características geométricas 3D da entrada 2D, permitindo a geração de imagens multi-visuais consistentes. Além disso, aceleramos ainda mais o estado da arte do Gaussian Splatting, incorporando atenção epipolar para fundir imagens de diferentes pontos de vista. Demonstramos que o FDGaussian gera imagens com alta consistência entre diferentes visões e reconstrói objetos 3D de alta qualidade, tanto qualitativa quanto quantitativamente. Mais exemplos podem ser encontrados em nosso site https://qjfeng.net/FDGaussian/.
Esforços anteriores no desenvolvimento de modelos leves concentraram-se principalmente em designs baseados em CNNs e Transformers, mas enfrentaram desafios persistentes. As CNNs, habilidosas na extração de características locais, comprometem a resolução, enquanto os Transformers oferecem alcance global, mas aumentam as demandas computacionais O(N^2). Esse contínuo trade-off entre precisão e eficiência permanece um obstáculo significativo. Recentemente, modelos de espaço de estados (SSMs), como o Mamba, demonstraram desempenho excepcional e competitividade em várias tarefas, como modelagem de linguagem e visão computacional, enquanto reduzem a complexidade temporal da extração de informações globais para O(N). Inspirados por isso, este trabalho propõe explorar o potencial dos modelos de espaço de estados visuais no design de modelos leves e introduz uma nova variante eficiente chamada EfficientVMamba. Concretamente, nosso EfficientVMamba integra uma abordagem de varredura seletiva baseada em atrous por meio de amostragem eficiente de saltos, constituindo blocos de construção projetados para aproveitar tanto características representacionais globais quanto locais. Além disso, investigamos a integração entre blocos SSM e convoluções e introduzimos um bloco eficiente de espaço de estados visuais combinado com um ramo adicional de convolução, o que eleva ainda mais o desempenho do modelo. Resultados experimentais mostram que o EfficientVMamba reduz a complexidade computacional enquanto produz resultados competitivos em uma variedade de tarefas de visão. Por exemplo, nosso EfficientVMamba-S com 1.3G FLOPs supera o Vim-Ti com 1.5G FLOPs por uma grande margem de 5.6% de precisão no ImageNet. O código está disponível em: https://github.com/TerryPei/EfficientVMamba.
Estimulados pela crescente disponibilidade de modelos de difusão 2D pré-treinados, a geração de imagens 3D a partir de imagens 2D, utilizando o Score Distillation Sampling (SDS), está alcançando progressos notáveis. A maioria dos métodos existentes combina a elevação de novas perspectivas a partir de modelos de difusão 2D, que geralmente utilizam a imagem de referência como condição, enquanto aplicam uma supervisão rígida de imagem L2 na vista de referência. No entanto, a adesão excessiva à imagem tende a corromper o conhecimento indutivo do modelo de difusão 2D, frequentemente resultando em gerações 3D planas ou distorcidas. Neste trabalho, reexaminamos a geração de imagens 3D a partir de uma nova perspectiva e apresentamos o Isotropic3D, um pipeline de geração de imagens 3D que utiliza apenas um embedding CLIP de imagem como entrada. O Isotropic3D permite que a otimização seja isotrópica em relação ao ângulo azimutal, baseando-se exclusivamente na perda SDS. O núcleo do nosso framework reside em um ajuste fino de modelo de difusão em duas etapas. Primeiramente, ajustamos um modelo de difusão de texto para 3D substituindo seu codificador de texto por um codificador de imagem, pelo qual o modelo adquire preliminarmente capacidades de imagem para imagem. Em seguida, realizamos o ajuste fino utilizando nossa Explicit Multi-view Attention (EMA), que combina imagens multi-vista ruidosas com a imagem de referência livre de ruído como uma condição explícita. O embedding CLIP é enviado ao modelo de difusão durante todo o processo, enquanto as imagens de referência são descartadas após o ajuste fino. Como resultado, com um único embedding CLIP de imagem, o Isotropic3D é capaz de gerar imagens multi-vista mutuamente consistentes e também um modelo 3D com conteúdo mais simétrico e limpo, geometria bem proporcionada, textura colorida rica e menos distorção em comparação com os métodos existentes de geração de imagens 3D, preservando ainda em grande parte a semelhança com a imagem de referência. A página do projeto está disponível em https://isotropic3d.github.io/. O código e os modelos estão disponíveis em https://github.com/pkunliu/Isotropic3D.
Embora as tarefas de geração de texto-para-3D e imagem-para-3D tenham recebido considerável atenção, um campo importante, mas pouco explorado entre eles é a geração controlada de texto-para-3D, na qual nos concentramos principalmente neste trabalho. Para abordar essa tarefa, 1) introduzimos o Multi-view ControlNet (MVControl), uma nova arquitetura de rede neural projetada para aprimorar modelos de difusão multi-visão pré-treinados existentes, integrando condições de entrada adicionais, como mapas de borda, profundidade, normal e rabiscos. Nossa inovação reside na introdução de um módulo de condicionamento que controla o modelo de difusão base usando embeddings locais e globais, que são calculados a partir das imagens de condição de entrada e das poses da câmera. Uma vez treinado, o MVControl é capaz de oferecer orientação de difusão 3D para a geração de 3D baseada em otimização. E, 2) propomos um pipeline eficiente de geração de 3D em múltiplos estágios que aproveita os benefícios de modelos recentes de reconstrução em larga escala e do algoritmo de destilação de pontuação. Com base em nossa arquitetura MVControl, empregamos um método único de orientação de difusão híbrida para direcionar o processo de otimização. Em busca de eficiência, adotamos Gaussianas 3D como nossa representação, em vez das representações implícitas comumente usadas. Também pioneiros no uso do SuGaR, uma representação híbrida que vincula Gaussianas às faces dos triângulos da malha. Essa abordagem alivia o problema de geometria pobre em Gaussianas 3D e permite a escultura direta de geometria refinada na malha. Experimentos extensivos demonstram que nosso método alcança generalização robusta e permite a geração controlada de conteúdo 3D de alta qualidade.
A estimação de fluxo óptico de alta precisão em tempo real é um componente crucial em diversas aplicações, incluindo localização e mapeamento em robótica, rastreamento de objetos e reconhecimento de atividades em visão computacional. Embora os métodos recentes de fluxo óptico baseados em aprendizado tenham alcançado alta precisão, eles frequentemente vêm acompanhados de custos computacionais elevados. Neste artigo, propomos uma arquitetura de fluxo óptico altamente eficiente, chamada NeuFlow, que aborda tanto a alta precisão quanto as preocupações com custo computacional. A arquitetura segue um esquema global-para-local. Dadas as características das imagens de entrada extraídas em diferentes resoluções espaciais, o casamento global é empregado para estimar um fluxo óptico inicial na resolução 1/16, capturando grandes deslocamentos, que é então refinado na resolução 1/8 com camadas CNN leves para melhor precisão. Avaliamos nossa abordagem no Jetson Orin Nano e RTX 2080 para demonstrar melhorias de eficiência em diferentes plataformas de computação. Alcançamos um notável aumento de velocidade de 10x a 80x em comparação com vários métodos state-of-the-art, mantendo precisão comparável. Nossa abordagem alcança cerca de 30 FPS em plataformas de computação de borda, o que representa um avanço significativo na implantação de tarefas complexas de visão computacional, como SLAM, em pequenos robôs como drones. O código completo de treinamento e avaliação está disponível em https://github.com/neufieldrobotics/NeuFlow.