Artigos de pesquisa em IA selecionados diariamente com traduções
A Geração com Recuperação Aprimorada (RAG) tem demonstrado melhorar as capacidades de conhecimento e aliviar o problema de alucinação dos LLMs. A Web é uma fonte importante de conhecimento externo usada em sistemas RAG, e muitos sistemas comerciais como ChatGPT e Perplexity têm utilizado mecanismos de busca na Web como seus principais sistemas de recuperação. Tipicamente, tais sistemas RAG recuperam resultados de busca, baixam fontes HTML dos resultados e então extraem textos simples das fontes HTML. Documentos ou trechos de texto simples são alimentados nos LLMs para aumentar a geração. No entanto, grande parte da informação estrutural e semântica inerente ao HTML, como títulos e estruturas de tabelas, é perdida durante esse processo RAG baseado em texto simples. Para aliviar esse problema, propomos o HtmlRAG, que utiliza HTML em vez de texto simples como formato de conhecimento recuperado em RAG. Acreditamos que o HTML é melhor que o texto simples para modelar conhecimento em documentos externos, e a maioria dos LLMs possui capacidades robustas para entender HTML. No entanto, utilizar HTML apresenta novos desafios. O HTML contém conteúdo adicional como tags, JavaScript e especificações CSS, que trazem tokens de entrada adicionais e ruído ao sistema RAG. Para abordar essa questão, propomos estratégias de limpeza, compressão e poda de HTML, para encurtar o HTML minimizando a perda de informação. Especificamente, projetamos um método de poda baseado em árvore de blocos em dois passos que poda blocos HTML inúteis e mantém apenas a parte relevante do HTML. Experimentos em seis conjuntos de dados de perguntas e respostas confirmam a superioridade do uso de HTML em sistemas RAG.
Os Modelos de Linguagem Grandes (LLMs) demonstraram notáveis capacidades de generalização e de seguir instruções com ajuste de instruções. Os avanços nos LLMs e no ajuste de instruções levaram ao desenvolvimento de Modelos Grandes de Visão-Linguagem (LVLMs). No entanto, a competência dos LLMs e do ajuste de instruções foi menos explorada no domínio molecular. Assim, propomos LLaMo: Assistente de grafos moleculares baseado em Modelo de Linguagem Grande, que é um modelo de linguagem de grafos moleculares grande treinado de ponta a ponta. Para superar a discrepância entre as modalidades de linguagem e de grafos, apresentamos o projetor de grafos em vários níveis que transforma representações de grafos em tokens de grafos, abstraindo as representações de saída de cada camada de GNN e as representações de motivos com o mecanismo de atenção cruzada. Também introduzimos dados de instruções de grafos moleculares gerados por máquina para ajustar as instruções do grande modelo de linguagem de grafos moleculares para compreensão geral de moléculas e linguagem. Nossos experimentos extensivos demonstram que o LLaMo apresenta o melhor desempenho em diversas tarefas, como geração de descrição molecular, previsão de propriedades e previsão de nomes IUPAC. O código do LLaMo está disponível em https://github.com/mlvlab/LLaMo.
As crescentes capacidades dos grandes modelos generativos e sua implantação cada vez mais difundida têm levantado preocupações sobre sua confiabilidade, segurança e possíveis usos indevidos. Para lidar com essas questões, trabalhos recentes têm proposto controlar a geração do modelo direcionando as ativações do modelo a fim de induzir ou prevenir de forma eficaz o surgimento de conceitos ou comportamentos na saída gerada. Neste artigo, introduzimos o Transporte de Ativação (AcT), um framework geral para direcionar ativações guiado pela teoria do transporte ótimo que generaliza muitos trabalhos anteriores de direcionamento de ativação. O AcT é agnóstico em relação à modalidade e fornece controle detalhado sobre o comportamento do modelo com sobrecarga computacional negligenciável, minimizando o impacto nas habilidades do modelo. Demonstramos experimentalmente a eficácia e versatilidade de nossa abordagem ao abordar desafios-chave em grandes modelos de linguagem (LLMs) e modelos de difusão de texto para imagem (T2Is). Para LLMs, mostramos que o AcT pode mitigar eficazmente a toxicidade, induzir conceitos arbitrários e aumentar sua veracidade. Nos T2Is, mostramos como o AcT permite controle detalhado de estilo e negação de conceitos.
Os sistemas de visão atuais geralmente atribuem representações de comprimento fixo às imagens, independentemente do conteúdo da informação. Isso contrasta com a inteligência humana - e até mesmo com grandes modelos de linguagem - que alocam capacidades representacionais variáveis com base na entropia, contexto e familiaridade. Inspirados por isso, propomos uma abordagem para aprender representações de token de comprimento variável para imagens 2D. Nossa arquitetura codificador-decodificador processa de forma recursiva tokens de imagem 2D, destilando-os em tokens latentes de 1D ao longo de múltiplas iterações de expansões recorrentes. Cada iteração aprimora os tokens 2D, atualiza os tokens latentes de 1D existentes e aumenta adaptativamente a capacidade representacional adicionando novos tokens. Isso permite a compressão de imagens em um número variável de tokens, variando de 32 a 256. Validamos nosso tokenizador usando perda de reconstrução e métricas FID, demonstrando que a contagem de tokens está alinhada com a entropia da imagem, familiaridade e requisitos de tarefas subsequentes. O processamento de token recorrente com aumento de capacidade representacional em cada iteração mostra sinais de especialização de token, revelando potencial para descoberta de objetos/partes.
Os MLLMs têm demonstrado notáveis capacidades de compreensão e raciocínio com dados linguísticos e visuais complexos. Esses avanços têm impulsionado a visão de estabelecer um robô MLLM generalista capaz de entender instruções humanas complexas e realizar várias tarefas corporificadas. No entanto, desenvolver MLLMs para robôs do mundo real é desafiador devido às capacidades de computação e memória tipicamente limitadas disponíveis em plataformas robóticas. Em contraste, a inferência de MLLMs envolve armazenar bilhões de parâmetros e realizar uma enorme quantidade de computação, impondo demandas significativas de hardware. Em nosso artigo, propomos um Framework Dinâmico de Saída Antecipada para o Modelo de Visão-Linguagem-Ação Robótico (DeeR-VLA, ou simplesmente DeeR) que ajusta automaticamente o tamanho do MLLM ativado com base em cada situação em questão. A abordagem aproveita uma arquitetura de múltiplas saídas em MLLMs, que permite ao modelo encerrar o processamento assim que um tamanho apropriado do modelo tenha sido ativado para uma situação específica, evitando assim uma computação redundante adicional. Além disso, desenvolvemos algoritmos inovadores que estabelecem critérios de término antecipado para DeeR, condicionados a demandas predefinidas, como custo computacional médio (ou seja, consumo de energia), bem como consumo computacional máximo (ou seja, latência) e uso de memória da GPU. Essas melhorias garantem que DeeR opere de forma eficiente sob diferentes restrições de recursos, mantendo um desempenho competitivo. No benchmark de manipulação de robôs CALVIN, DeeR demonstra reduções significativas nos custos computacionais do MLLM em 5,2-6,5 vezes e na memória da GPU do MLLM em 2-6 vezes sem comprometer o desempenho. O código e os checkpoints estão disponíveis em https://github.com/yueyang130/DeeR-VLA.
Estudamos métodos para alinhar eficientemente grandes modelos de linguagem (LLMs) com as preferências humanas, considerando feedback online com orçamento limitado. Primeiramente, formulamos o problema de alinhamento de LLMs no contexto de bandos duelistas contextuais. Essa formulação, que engloba paradigmas recentes como RLHF online e DPO online, busca inherentemente por algoritmos eficientes em amostras que incorporem exploração ativa online. Aproveitando insights da teoria dos bandos, introduzimos um algoritmo unificado baseado em amostragem de Thompson e destacamos suas aplicações em dois cenários distintos de alinhamento de LLMs. O agente prático que implementa eficientemente esse algoritmo, denominado SEA (Alinhamento Eficiente de Amostras), é validado empiricamente por meio de experimentos extensivos em três escalas de modelo (1B, 2.8B, 6.9B) e três algoritmos de aprendizado de preferências (DPO, IPO, SLiC). Os resultados demonstram que o SEA alcança um alinhamento altamente eficiente em amostras com as preferências do oráculo, superando métodos recentes de exploração ativa para LLMs. Além disso, disponibilizamos a implementação do SEA juntamente com uma base de código eficiente projetada para o alinhamento online de LLMs, com o objetivo de acelerar futuras pesquisas nesse campo.
Apresentamos o DreamPolish, um modelo de geração de texto para 3D que se destaca na produção de geometria refinada e texturas de alta qualidade. Na fase de construção da geometria, nossa abordagem utiliza múltiplas representações neurais para aprimorar a estabilidade do processo de síntese. Em vez de depender exclusivamente de uma priorização de difusão condicionada à visualização nas novas visualizações amostradas, o que frequentemente resulta em artefatos indesejados na superfície geométrica, incorporamos um estimador normal adicional para polir os detalhes da geometria, condicionado a pontos de vista com campos de visão variados. Propomos adicionar uma etapa de polimento de superfície com apenas algumas etapas de treinamento, que pode refinar efetivamente os artefatos atribuídos à orientação limitada das etapas anteriores e produzir objetos 3D com geometria mais desejável. O tópico-chave da geração de textura usando modelos pré-treinados de texto para imagem é encontrar um domínio adequado na vasta distribuição latente desses modelos que contenha renderizações fotorrealistas e consistentes. Na fase de geração de textura, introduzimos um novo objetivo de destilação de pontuação, denominado destilação de pontuação de domínio (DSD), para orientar as representações neurais em direção a esse domínio. Nos inspiramos na orientação sem classificador (CFG) em tarefas de geração de imagem condicionadas a texto e mostramos que CFG e orientação de distribuição variacional representam aspectos distintos na orientação de gradiente e são ambos domínios imperativos para o aprimoramento da qualidade da textura. Experimentos extensos mostram que nosso modelo proposto pode produzir ativos 3D com superfícies polidas e texturas fotorrealistas, superando os métodos existentes de ponta.
As funções neurais implícitas trouxeram avanços impressionantes para o estado-da-arte da digitalização de humanos vestidos a partir de múltiplas ou mesmo de uma única imagem. No entanto, apesar do progresso, as técnicas atuais ainda enfrentam dificuldades para generalizar para imagens não vistas com deformações complexas de vestuário e poses corporais. Neste trabalho, apresentamos GarVerseLOD, um novo conjunto de dados e estrutura que abre caminho para alcançar uma robustez sem precedentes na reconstrução tridimensional de vestuário de alta fidelidade a partir de uma única imagem não restrita. Inspirados pelo recente sucesso de grandes modelos generativos, acreditamos que uma chave para enfrentar o desafio de generalização reside na quantidade e qualidade dos dados tridimensionais de vestuário. Com esse objetivo, GarVerseLOD coleta 6.000 modelos de tecido de alta qualidade com detalhes de geometria refinados criados manualmente por artistas profissionais. Além da escala dos dados de treinamento, observamos que ter granularidades de geometria desentrelaçadas pode desempenhar um papel importante em impulsionar a capacidade de generalização e a precisão da inferência do modelo aprendido. Portanto, desenvolvemos GarVerseLOD como um conjunto de dados hierárquico com níveis de detalhes (LOD), que vão desde formas estilizadas sem detalhes até vestuários mesclados com poses e detalhes alinhados por pixel. Isso nos permite tornar esse problema altamente subdeterminado tratável ao decompor a inferência em tarefas mais simples, cada uma com um espaço de busca menor. Para garantir que GarVerseLOD possa generalizar bem para imagens do mundo real, propomos um novo paradigma de rotulagem baseado em modelos de difusão condicional para gerar extensas imagens em pares para cada modelo de vestuário com alta fotorrealismo. Avaliamos nosso método em uma grande quantidade de imagens do mundo real. Os resultados experimentais demonstram que GarVerseLOD pode gerar peças de vestuário autônomas com qualidade significativamente melhor do que abordagens anteriores. Página do projeto: https://garverselod.github.io/
Os Modelos de Linguagem Visual (VLMs) têm demonstrado fortes capacidades em várias tarefas de compreensão visual e raciocínio. No entanto, sua implementação no mundo real é frequentemente limitada pela alta latência durante a inferência devido ao substancial poder computacional necessário para processar o grande número de tokens de entrada (predominantemente da imagem) pelo LLM. Para reduzir os custos de inferência, pode-se diminuir o tamanho do LLM ou reduzir o número de tokens de imagem de entrada, sendo este último o foco de muitos trabalhos recentes em torno da compressão de tokens. No entanto, não está claro qual é o trade-off ideal, pois ambos os fatores afetam diretamente o desempenho do VLM. Primeiramente, caracterizamos esse trade-off ideal entre o número de tokens visuais e os parâmetros do LLM estabelecendo leis de escala que capturam variações de desempenho com esses dois fatores. Nossos resultados revelam uma tendência surpreendente: para tarefas de raciocínio visual, o comportamento ótimo de inferência nos VLMs, ou seja, o mínimo erro downstream em qualquer cálculo de inferência fixo, é alcançado ao usar o maior LLM que se encaixa no orçamento de inferência, minimizando o número de tokens visuais - muitas vezes para um único token. Enquanto a literatura de redução de tokens tem se concentrado principalmente em manter o desempenho do modelo base reduzindo modestamente o número de tokens (por exemplo, 5-10 vezes), nossos resultados indicam que o regime de inferência ótimo em termos de cálculo requer operar sob taxas de compressão de tokens ainda mais altas. Com base nessas percepções, damos alguns passos iniciais em direção à construção de abordagens adaptadas para configurações de alta compressão de tokens. O código está disponível em https://github.com/locuslab/llava-token-compression.
Doenças raras apresentam desafios únicos na área da saúde, frequentemente sofrendo com diagnósticos tardios e cenários de informação fragmentada. A escassez de conhecimento confiável nessas condições representa um desafio distinto para Modelos de Linguagem de Grande Escala (LLMs) no apoio à gestão clínica e na entrega de informações precisas sobre os pacientes, destacando a necessidade de treinamento focado nesses casos 'zebra'. Apresentamos Zebra-Llama, um modelo de linguagem especializado e contextualizado, com capacidade de Geração Aprimorada por Recuperação (RAG) de alta precisão, concentrando-se na Síndrome de Ehlers-Danlos (EDS) como nosso estudo de caso. EDS, afetando 1 em 5.000 indivíduos, exemplifica as complexidades das doenças raras com seus sintomas diversos, múltiplos subtipos e critérios diagnósticos em evolução. Ao implementar uma metodologia inovadora de ajuste fino contextualizado, treinada em questões derivadas da literatura médica, experiências de pacientes e recursos clínicos, juntamente com respostas cuidadosamente selecionadas, Zebra-Llama demonstra capacidades sem precedentes no tratamento de consultas relacionadas à EDS. Em um conjunto de testes de perguntas do mundo real coletadas de pacientes com EDS e clínicos, especialistas médicos avaliaram as respostas geradas por ambos os modelos, revelando melhorias substanciais do Zebra-Llama em relação ao modelo base (Llama 3.1-8B-Instruct) em abrangência (77,5% vs. 70,1%), precisão (83,0% vs. 78,8%), clareza (74,7% vs. 72,0%) e confiabilidade de citação (70,6% vs. 52,3%). Lançado como um recurso de código aberto, Zebra-Llama não apenas fornece informações mais acessíveis e confiáveis sobre EDS, mas também estabelece um framework para o desenvolvimento de soluções de IA especializadas para outras condições raras. Este trabalho representa um passo crucial rumo à democratização do conhecimento de nível especializado no manejo de doenças raras, potencialmente transformando a forma como os prestadores de cuidados de saúde e os pacientes navegam pelo complexo cenário das doenças raras.
À medida que as técnicas de detecção de objetos continuam a evoluir, compreender suas relações com tarefas visuais complementares torna-se crucial para otimizar arquiteturas de modelos e recursos computacionais. Este artigo investiga as correlações entre a precisão da detecção de objetos e duas tarefas visuais fundamentais: previsão de profundidade e previsão de saliência visual. Através de experimentos abrangentes utilizando modelos de ponta (DeepGaze IIE, Depth Anything, DPT-Large e o modelo de Itti) em conjuntos de dados COCO e Pascal VOC, descobrimos que a saliência visual apresenta correlações consistentemente mais fortes com a precisão da detecção de objetos (mArho de até 0,459 no Pascal VOC) em comparação com a previsão de profundidade (mArho de até 0,283). Nossa análise revela variações significativas nessas correlações entre as categorias de objetos, com objetos maiores apresentando valores de correlação até três vezes mais altos do que objetos menores. Essas descobertas sugerem que a incorporação de características de saliência visual nas arquiteturas de detecção de objetos pode ser mais benéfica do que informações de profundidade, especialmente para categorias específicas de objetos. As variações observadas específicas de categoria também fornecem insights para engenharia de características direcionadas e melhorias no design de conjuntos de dados, potencialmente resultando em sistemas de detecção de objetos mais eficientes e precisos.