Artigos de pesquisa em IA selecionados diariamente com traduções
Os avanços recentes em modelos de linguagem de grande escala (LLMs, do inglês *Large Language Models*) têm demonstrado fortes habilidades de raciocínio geral, mas sua eficácia no raciocínio financeiro ainda é pouco explorada. Neste estudo, avaliamos de forma abrangente 16 modelos de raciocínio e LLMs gerais em três tarefas financeiras complexas envolvendo texto financeiro, dados tabulares e equações, examinando o raciocínio numérico, a interpretação de tabelas, a compreensão de terminologia financeira, o processamento de contextos longos e a resolução de problemas baseados em equações. Nossos resultados mostram que, embora melhores conjuntos de dados e pré-treinamento melhorem o raciocínio financeiro, aprimoramentos gerais, como o ajuste fino com *Chain-of-Thought* (CoT), nem sempre geram ganhos consistentes. Além disso, todas as estratégias de raciocínio enfrentam desafios para melhorar o desempenho em tarefas de contexto longo e com múltiplas tabelas. Para abordar essas limitações, desenvolvemos um modelo aprimorado para raciocínio financeiro baseado no Llama-3.1-8B-Instruct, por meio de ajuste fino com CoT e aprendizado por reforço com caminhos de raciocínio específicos do domínio. Mesmo com um ajuste fino simples utilizando um conjunto de dados financeiro, nosso modelo alcança uma melhoria consistente de 10% no desempenho em todas as tarefas, superando todos os modelos de 8B e até mesmo o Llama3-70B-Instruct e o Llama3.1-70B-Instruct, em média. Nossos resultados destacam a necessidade de adaptações específicas do domínio para tarefas financeiras, enfatizando direções futuras como o raciocínio com múltiplas tabelas, o processamento de contextos longos e a compreensão de terminologia financeira. Todos os nossos conjuntos de dados, modelos e códigos estão disponíveis publicamente. Além disso, introduzimos um *leaderboard* para benchmarking de futuros conjuntos de dados e modelos.
Modelos de linguagem de grande escala (LLMs) modernos frequentemente enfrentam gargalos de comunicação no hardware atual, em vez de limitações puramente computacionais. A Atenção Latente Multi-Cabeça (MLA, do inglês *Multi-head Latent Attention*) aborda esse desafio utilizando matrizes de baixo posto nas camadas de chave-valor (KV, do inglês *key-value*), permitindo que estados latentes KV comprimidos sejam armazenados em cache. Essa abordagem reduz significativamente o tamanho do cache KV em comparação com a atenção multi-cabeça tradicional, resultando em inferência mais rápida. Além disso, a MLA emprega uma matriz de projeção ascendente para aumentar a expressividade, trocando computação adicional por redução na sobrecarga de comunicação. Embora a MLA tenha demonstrado eficiência e eficácia nos modelos Deepseek V2/V3/R1, muitos dos principais provedores de modelos ainda dependem da Atenção de Consulta em Grupo (GQA, do inglês *Group Query Attention*) e não anunciaram planos para adotar a MLA. Neste artigo, mostramos que a GQA pode sempre ser representada pela MLA mantendo a mesma sobrecarga de cache KV, mas o inverso não é verdadeiro. Para incentivar o uso mais amplo da MLA, introduzimos o **TransMLA**, um método pós-treinamento que converte modelos pré-treinados amplamente utilizados baseados em GQA (por exemplo, LLaMA, Qwen, Mixtral) em modelos baseados em MLA. Após a conversão, o modelo pode passar por treinamento adicional para aumentar a expressividade sem aumentar o tamanho do cache KV. Além disso, planejamos desenvolver técnicas de aceleração de inferência específicas para MLA, a fim de preservar a baixa latência em modelos transformados, permitindo assim uma destilação mais eficiente do Deepseek R1.
Os benchmarks multilingues anteriores concentram-se principalmente em tarefas de compreensão simples, mas, para os grandes modelos de linguagem (LLMs), enfatizamos a proficiência em seguir instruções, raciocínio, compreensão de contextos longos, geração de código, entre outros. No entanto, a medição dessas capacidades avançadas em diferentes idiomas ainda é pouco explorada. Para abordar essa disparidade, introduzimos o BenchMAX, um benchmark de avaliação multilíngue multidirecional que permite comparações justas dessas habilidades importantes entre idiomas. Para garantir alta qualidade, três anotadores nativos distintos anotam independentemente cada amostra em todas as tarefas após a tradução automática dos dados do inglês para 16 outros idiomas. Além disso, apresentamos um novo desafio de tradução decorrente da construção do conjunto de dados. Experimentos extensivos no BenchMAX revelam variações na eficácia das capacidades centrais entre idiomas, destacando lacunas de desempenho que não podem ser superadas simplesmente aumentando o tamanho do modelo. O BenchMAX serve como uma plataforma abrangente de avaliação multilíngue, oferecendo um ambiente promissor para promover o desenvolvimento de modelos de linguagem multilingues. O conjunto de dados e o código estão publicamente acessíveis.
Apresentamos uma lei de escalonamento de destilação que estima o desempenho do modelo destilado com base em um orçamento de computação e sua alocação entre o estudante e o professor. Nossos achados reduzem os riscos associados ao uso da destilação em larga escala; a alocação de computação para os modelos do professor e do estudante pode agora ser feita para maximizar o desempenho do estudante. Fornecemos receitas de destilação computacionalmente ótimas para quando 1) um professor já existe, ou 2) um professor precisa ser treinado. Se muitos estudantes forem destilados, ou se um professor já existir, a destilação supera o pré-treinamento supervisionado até um nível de computação que cresce de forma previsível com o tamanho do estudante. Se um estudante for destilado e um professor também precisar ser treinado, o aprendizado supervisionado deve ser realizado em seu lugar. Além disso, oferecemos insights de nosso estudo em larga escala sobre destilação, que aumentam nossa compreensão do processo e orientam o design experimental.
A geração de imagens condicionadas por texto tem ganhado atenção significativa nos últimos anos, processando prompts de texto cada vez mais longos e abrangentes. No cotidiano, textos densos e intrincados aparecem em contextos como anúncios, infográficos e sinalizações, onde a integração de texto e elementos visuais é essencial para transmitir informações complexas. No entanto, apesar desses avanços, a geração de imagens contendo textos longos continua sendo um desafio persistente, principalmente devido às limitações dos conjuntos de dados existentes, que frequentemente se concentram em textos mais curtos e simples. Para abordar essa lacuna, introduzimos o TextAtlas5M, um novo conjunto de dados especificamente projetado para avaliar a renderização de textos longos na geração de imagens condicionadas por texto. Nosso conjunto de dados consiste em 5 milhões de imagens geradas e coletadas com textos longos, abrangendo diversos tipos de dados, permitindo uma avaliação abrangente de modelos generativos em larga escala na geração de imagens com textos longos. Além disso, curamos um conjunto de testes aprimorado por humanos, o TextAtlasEval, composto por 3000 imagens em 3 domínios de dados, estabelecendo um dos benchmarks mais extensos para geração condicionada por texto. As avaliações sugerem que os benchmarks do TextAtlasEval apresentam desafios significativos mesmo para os modelos proprietários mais avançados (por exemplo, GPT4o com DallE-3), enquanto suas contrapartes de código aberto mostram uma lacuna de desempenho ainda maior. Essas evidências posicionam o TextAtlas5M como um conjunto de dados valioso para o treinamento e avaliação de futuras gerações de modelos de geração de imagens condicionadas por texto.
Os avanços recentes em modelos de reluzimento de imagens, impulsionados por conjuntos de dados em larga escala e modelos de difusão pré-treinados, permitiram a imposição de iluminação consistente. No entanto, o reluzimento de vídeos ainda está atrasado, principalmente devido aos custos excessivos de treinamento e à escassez de conjuntos de dados diversos e de alta qualidade para reluzimento de vídeos. A aplicação simples de modelos de reluzimento de imagens em uma base quadro a quadro leva a vários problemas: inconsistência na fonte de iluminação e inconsistência na aparência reluzida, resultando em cintilações nos vídeos gerados. Neste trabalho, propomos o Light-A-Video, uma abordagem sem necessidade de treinamento para alcançar um reluzimento de vídeo temporalmente suave. Adaptado de modelos de reluzimento de imagens, o Light-A-Video introduz duas técnicas principais para melhorar a consistência da iluminação. Primeiro, projetamos um módulo de Atenção de Luz Consistente (CLA), que melhora as interações entre quadros nas camadas de autoatenção para estabilizar a geração da fonte de iluminação de fundo. Segundo, aproveitando o princípio físico da independência do transporte de luz, aplicamos uma mistura linear entre a aparência do vídeo original e a aparência reluzida, utilizando uma estratégia de Fusão Progressiva de Luz (PLF) para garantir transições temporais suaves na iluminação. Experimentos mostram que o Light-A-Video melhora a consistência temporal do vídeo reluzido, mantendo a qualidade da imagem e garantindo transições de iluminação coerentes entre os quadros. Página do projeto: https://bujiazi.github.io/light-a-video.github.io/.
Neste trabalho, apresentamos o CineMaster, uma nova estrutura para geração de vídeos a partir de texto com consciência 3D e controle. Nosso objetivo é capacitar os usuários com um nível de controle comparável ao de diretores de cinema profissionais: posicionamento preciso de objetos dentro da cena, manipulação flexível tanto de objetos quanto da câmera no espaço 3D e controle intuitivo do layout sobre os quadros renderizados. Para alcançar isso, o CineMaster opera em duas etapas. Na primeira etapa, projetamos um fluxo de trabalho interativo que permite aos usuários construir intuitivamente sinais condicionais com consciência 3D, posicionando caixas delimitadoras de objetos e definindo movimentos da câmera no espaço 3D. Na segunda etapa, esses sinais de controle—compostos por mapas de profundidade renderizados, trajetórias da câmera e rótulos de classe de objetos—servem como orientação para um modelo de difusão de texto para vídeo, garantindo a geração do conteúdo de vídeo pretendido pelo usuário. Além disso, para superar a escassez de conjuntos de dados do mundo real com anotações de movimento de objetos 3D e poses da câmera, estabelecemos cuidadosamente um pipeline automatizado de anotação de dados que extrai caixas delimitadoras 3D e trajetórias da câmera de grandes volumes de dados de vídeo. Experimentos qualitativos e quantitativos extensivos demonstram que o CineMaster supera significativamente os métodos existentes e implementa uma geração de vídeo a partir de texto com consciência 3D de destaque. Página do projeto: https://cinemaster-dev.github.io/.
A previsão do próximo token tem sido o objetivo de treinamento padrão utilizado no pré-treinamento de grandes modelos de linguagem. As representações são aprendidas como resultado da otimização da perplexidade ao nível do token. Propomos o Continuous Concept Mixing (CoCoMix), um novo framework de pré-treinamento que combina a previsão discreta do próximo token com conceitos contínuos. Especificamente, o CoCoMix prevê conceitos contínuos aprendidos a partir de um autoencoder esparsamente pré-treinado e os mistura no estado oculto do modelo intercalando com as representações ocultas do token. Através de experimentos em múltiplos benchmarks, incluindo modelagem de linguagem e tarefas de raciocínio subsequentes, mostramos que o CoCoMix é mais eficiente em amostras e consistentemente supera a previsão padrão do próximo token, destilação de conhecimento e inserção de tokens de pausa. Descobrimos que combinar tanto a aprendizagem de conceitos quanto a intercalação em um framework de ponta a ponta é crucial para ganhos de desempenho. Além disso, o CoCoMix aprimora a interpretabilidade e a capacidade de direção, permitindo a inspeção direta e modificação do conceito previsto, oferecendo uma maneira transparente de guiar o processo de raciocínio interno do modelo.
Os agentes de interface gráfica do usuário (GUI) atuais alcançaram desempenho excepcional na fundamentação de elementos de GUI. No entanto, o planejamento continua sendo altamente desafiador, especialmente devido à sensibilidade ao estado inicial do ambiente. Especificamente, pequenas diferenças no estado inicial—como o software alvo não estar aberto ou a interface não estar em seu estado padrão—frequentemente levam a erros de planejamento. Esse problema é generalizado em cenários reais de usuários, mas os benchmarks existentes não o avaliam. Neste artigo, apresentamos o WorldGUI, um novo benchmark de GUI que projeta tarefas de GUI com diversos estados iniciais para simular interações reais entre computador e usuário. O benchmark abrange uma ampla gama de tarefas em 10 aplicativos de software populares, incluindo PowerPoint, VSCode e Adobe Acrobat. Além disso, para enfrentar os desafios das tarefas de automação de GUI dinâmica, propomos o GUI-Thinker, um framework holístico que utiliza um mecanismo de crítica para gerenciar efetivamente a imprevisibilidade e a complexidade das interações de GUI. Os resultados experimentais demonstram que o GUI-Thinker supera significativamente o Claude-3.5 (Uso de Computador) em 14,9% na taxa de sucesso em tarefas do WorldGUI. Essa melhoria destaca a eficácia do nosso framework baseado em pensamento crítico para aprimorar a automação de GUI.
Abordagens de modelagem de sequência linear, como a atenção linear, oferecem vantagens como treinamento em tempo linear e inferência com memória constante em relação ao comprimento das sequências. No entanto, os métodos existentes de paralelismo de sequência (SP) não são otimizados para a característica de produto-direito-primeiro da atenção linear ou utilizam uma estratégia de comunicação em anel, o que resulta em menor paralelismo de computação, limitando sua escalabilidade para sequências mais longas em sistemas distribuídos. Neste artigo, apresentamos o LASP-2, um novo método de SP para aprimorar tanto o paralelismo de comunicação quanto o de computação ao treinar modelos de transformadores com atenção linear em sequências de entrada muito longas. Em comparação com o trabalho anterior LASP, o LASP-2 repensa o requisito mínimo de comunicação para SP em camadas de atenção linear, reorganizando todo o fluxo de trabalho de comunicação-computação do LASP. Dessa forma, apenas uma única comunicação coletiva AllGather é necessária para estados de memória intermediários, cujos tamanhos são independentes do comprimento da sequência, resultando em melhorias significativas tanto no paralelismo de comunicação quanto no de computação, bem como em sua sobreposição. Além disso, estendemos o LASP-2 para o LASP-2H ao aplicar uma reformulação similar de comunicação a módulos de atenção padrão, oferecendo uma solução eficiente de SP para modelos híbridos que combinam camadas de atenção linear e padrão. Nossa avaliação em um modelo Linear-Llama3, uma variante do Llama3 com atenção linear substituindo a atenção padrão, demonstra a eficácia do LASP-2 e do LASP-2H. Especificamente, o LASP-2 alcança melhorias de velocidade de treinamento de 15,2% em relação ao LASP e 36,6% em relação ao Ring Attention, com um comprimento de sequência de 2048K em 64 GPUs. O código foi liberado como parte de: https://github.com/OpenSparseLLMs/Linear-MoE.
A capacidade de alcançar metas de longo prazo é um desafio fundamental no desenvolvimento atual de grandes modelos de linguagem (LLMs). Para lidar com isso, os LLMs pré-treinados podem ser ajustados com aprendizado por reforço (RL) para explorar soluções que otimizam um objetivo dado. No entanto, a exploração com LLMs é difícil, pois é necessário encontrar um equilíbrio entre descobrir novas soluções e permanecer próximo o suficiente do modelo pré-treinado, de modo a não degradar as capacidades básicas. Isso é tipicamente controlado com uma penalidade de Kullback-Leibler (KL). Neste artigo, investigamos a dinâmica de exploração de um pequeno modelo de linguagem em uma tarefa simples de aritmética. Mostramos como diferentes graus de pré-treinamento influenciam a exploração e demonstramos a importância dos "tokens críticos", que têm um impacto dramático no resultado final. Consequentemente, introduzimos uma modificação simples na penalidade de KL que favorece a exploração nos tokens críticos, aumentando a eficiência da etapa de ajuste fino de RL.
Métodos recentes de animação de imagens de personagens baseados em modelos de difusão, como o Animate Anyone, têm alcançado progressos significativos na geração de animações de personagens consistentes e generalizáveis. No entanto, essas abordagens falham em produzir associações razoáveis entre os personagens e seus ambientes. Para superar essa limitação, apresentamos o Animate Anyone 2, que visa animar personagens com affordance ambiental. Além de extrair sinais de movimento de vídeos de origem, capturamos adicionalmente representações ambientais como entradas condicionais. O ambiente é formulado como a região excluindo os personagens, e nosso modelo gera personagens para preencher essas regiões, mantendo coerência com o contexto ambiental. Propomos uma estratégia de máscara agnóstica à forma que caracteriza de forma mais eficaz a relação entre personagem e ambiente. Além disso, para melhorar a fidelidade das interações com objetos, utilizamos um guia de objetos para extrair características dos objetos interativos e empregamos a mistura espacial para injeção de características. Também introduzimos uma estratégia de modulação de pose que permite ao modelo lidar com padrões de movimento mais diversos. Os resultados experimentais demonstram o desempenho superior do método proposto.
Embora os avanços recentes em IA para matemática tenham progredido na matemática pura, áreas da matemática aplicada, particularmente equações diferenciais parciais (EDPs), permanecem pouco exploradas, apesar de suas significativas aplicações no mundo real. Apresentamos o PDE-Controller, uma estrutura que permite que modelos de linguagem de grande escala (LLMs) controlem sistemas regidos por equações diferenciais parciais (EDPs). Nossa abordagem capacita os LLMs a transformar instruções informais em linguagem natural em especificações formais e, em seguida, executar etapas de raciocínio e planejamento para melhorar a utilidade do controle de EDPs. Construímos uma solução holística que inclui conjuntos de dados (tanto casos escritos por humanos quanto 2 milhões de amostras sintéticas), modelos de raciocínio matemático e métricas de avaliação inovadoras, todos os quais demandam esforço significativo. Nosso PDE-Controller supera significativamente a ativação dos mais recentes modelos de código aberto e GPT em raciocínio, autoformalização e síntese de programas, alcançando uma melhoria de até 62% no ganho de utilidade para o controle de EDPs. Ao preencher a lacuna entre a geração de linguagem e sistemas de EDPs, demonstramos o potencial dos LLMs em abordar desafios científicos e de engenharia complexos. Disponibilizaremos todos os dados, pontos de verificação do modelo e código em https://pde-controller.github.io/.
A Otimização Direta de Preferência (ODP) e suas variantes tornaram-se cada vez mais populares para alinhar modelos de linguagem com as preferências humanas. Esses métodos têm como objetivo ensinar os modelos a distinguir melhor entre respostas escolhidas (ou preferidas) e rejeitadas (ou não preferidas). No entanto, pesquisas anteriores identificaram que a probabilidade de respostas escolhidas frequentemente diminui durante o treinamento, e esse fenômeno é conhecido como deslocamento de probabilidade. Para enfrentar esse desafio, neste trabalho introduzimos \method para deslocar de forma controlada a distribuição da probabilidade escolhida. Em seguida, demonstramos que \method apresenta um trade-off fundamental entre melhorar a probabilidade escolhida e sacrificar a margem de recompensa, conforme apoiado tanto pela análise teórica quanto pela validação experimental. Além disso, demonstramos a superioridade de \method em relação à ODP em tarefas subsequentes, como MT-Bench e um experimento de taxa de vitória projetado. Acreditamos que este estudo mostra que o problema de deslocamento de probabilidade da ODP pode ser efetivamente mitigado com uma solução simples e fundamentada teoricamente. Nosso código está disponível em https://github.com/Meaquadddd/DPO-Shift.
Modelos de linguagem de grande escala (LLMs) recentes suportam contextos longos, variando de 128K a 1M de tokens. Um método popular para avaliar essas capacidades é o teste "agulha no palheiro" (NIAH, do inglês *needle-in-a-haystack*), que envolve recuperar uma "agulha" (informação relevante) de um "palheiro" (contexto longo e irrelevante). Extensões dessa abordagem incluem o aumento de distratores, encadeamento de fatos e raciocínio em contexto. No entanto, nesses benchmarks, os modelos podem explorar correspondências literais existentes entre a agulha e o palheiro para simplificar a tarefa. Para abordar isso, introduzimos o NoLiMa, um benchmark que estende o NIAH com um conjunto de agulhas cuidadosamente projetado, onde perguntas e agulhas têm sobreposição lexical mínima, exigindo que os modelos inferam associações latentes para localizar a agulha dentro do palheiro. Avaliamos 12 LLMs populares que afirmam suportar contextos de pelo menos 128K tokens. Embora tenham um bom desempenho em contextos curtos (<1K), o desempenho degrada significativamente à medida que o comprimento do contexto aumenta. Em 32K, por exemplo, 10 modelos caem abaixo de 50% de suas linhas de base fortes em contextos curtos. Mesmo o GPT-4o, uma das exceções de melhor desempenho, experimenta uma redução de uma linha de base quase perfeita de 99,3% para 69,7%. Nossa análise sugere que essas quedas decorrem da maior dificuldade que o mecanismo de atenção enfrenta em contextos mais longos quando as correspondências literais estão ausentes, tornando mais difícil recuperar informações relevantes.
No campo da interpretação de imagens de sensoriamento remoto por radar de abertura sintética (SAR), embora os modelos de linguagem visual (VLMs) tenham alcançado progressos notáveis no processamento de linguagem natural e na compreensão de imagens, suas aplicações ainda são limitadas em domínios profissionais devido à insuficiência de expertise específica. Este artigo propõe de forma inovadora o primeiro conjunto de dados de diálogo multimodal em larga escala para imagens SAR, denominado SARChat-2M, que contém aproximadamente 2 milhões de pares de imagem-texto de alta qualidade, abrangendo diversos cenários com anotações detalhadas de alvos. Este conjunto de dados não apenas suporta várias tarefas-chave, como compreensão visual e detecção de objetos, mas também apresenta aspectos inovadores únicos: este estudo desenvolve um conjunto de dados e um benchmark de linguagem visual para o domínio SAR, capacitando e avaliando as capacidades dos VLMs na interpretação de imagens SAR, fornecendo um framework paradigmático para a construção de conjuntos de dados multimodais em diversos domínios verticais de sensoriamento remoto. Por meio de experimentos com 16 VLMs principais, a eficácia do conjunto de dados foi plenamente verificada, e o primeiro benchmark de diálogo multitarefa no campo SAR foi estabelecido com sucesso. O projeto será disponibilizado em https://github.com/JimmyMa99/SARChat, com o objetivo de promover o desenvolvimento aprofundado e a ampla aplicação de modelos de linguagem visual SAR.
A Previsão do Próximo Token (Next-Token Prediction, NTP) é uma abordagem de facto para a geração de vídeos autoregressivos (AR), mas sofre com dependências unidirecionais subótimas e velocidade de inferência lenta. Neste trabalho, propomos um framework semi-autoregressivo (semi-AR), denominado Previsão do Próximo Bloco (Next-Block Prediction, NBP), para a geração de vídeos. Ao decompor uniformemente o conteúdo do vídeo em blocos de tamanho igual (por exemplo, linhas ou quadros), deslocamos a unidade de geração de tokens individuais para blocos, permitindo que cada token no bloco atual preveja simultaneamente o token correspondente no próximo bloco. Diferentemente da modelagem AR tradicional, nosso framework emprega atenção bidirecional dentro de cada bloco, permitindo que os tokens capturem dependências espaciais mais robustas. Ao prever múltiplos tokens em paralelo, os modelos NBP reduzem significativamente o número de etapas de geração, resultando em inferência mais rápida e eficiente. Nosso modelo alcança pontuações FVD de 103,3 no UCF101 e 25,5 no K600, superando o modelo NTP básico em uma média de 4,4. Além disso, graças ao número reduzido de etapas de inferência, o modelo NBP gera 8,89 quadros (resolução 128x128) por segundo, alcançando uma aceleração de 11 vezes. Também exploramos escalas de modelo variando de 700M a 3B de parâmetros, observando melhorias significativas na qualidade de geração, com pontuações FVD caindo de 103,3 para 55,3 no UCF101 e de 25,5 para 19,5 no K600, demonstrando a escalabilidade de nossa abordagem.
A Geração com Recuperação (RAG) é uma técnica avançada projetada para lidar com os desafios do Conteúdo Gerado por Inteligência Artificial (AIGC). Ao integrar a recuperação de contexto na geração de conteúdo, a RAG fornece conhecimento externo confiável e atualizado, reduz alucinações e garante contexto relevante em uma ampla gama de tarefas. No entanto, apesar do sucesso e potencial da RAG, estudos recentes mostraram que o paradigma RAG também introduz novos riscos, incluindo problemas de robustez, preocupações com privacidade, ataques adversariais e questões de responsabilidade. Abordar esses riscos é fundamental para as futuras aplicações de sistemas RAG, pois impactam diretamente sua confiabilidade. Embora vários métodos tenham sido desenvolvidos para melhorar a confiabilidade dos métodos RAG, há uma falta de uma perspectiva e estrutura unificadas para a pesquisa nesse tópico. Assim, neste artigo, temos como objetivo preencher essa lacuna fornecendo um roteiro abrangente para o desenvolvimento de sistemas RAG confiáveis. Nossa discussão é baseada em cinco perspectivas-chave: confiabilidade, privacidade, segurança, justiça, explicabilidade e responsabilidade. Para cada perspectiva, apresentamos um framework e taxonomia gerais, oferecendo uma abordagem estruturada para compreender os desafios atuais, avaliar soluções existentes e identificar direções promissoras para pesquisas futuras. Para incentivar uma adoção mais ampla e inovação, também destacamos as aplicações subsequentes onde sistemas RAG confiáveis têm um impacto significativo.
Neste trabalho, propomos uma arquitetura de Módulos de LLM que possibilita a transferência de conhecimento de um modelo grande pré-treinado para um modelo menor utilizando um mecanismo de Atenção Cruzada Aprimorada. No esquema proposto, o modelo Qwen2-1.5B é congelado, e suas representações são passadas através de camadas de atenção especialmente projetadas para o modelo GPT-Neo-125M, que é treinado com recursos computacionais limitados. Resultados experimentais no conjunto de dados Bespoke-Stratos-17k demonstram que, após 15 épocas de treinamento, o modelo combinado gera respostas de qualidade comparável àquelas obtidas por destilação. Discutimos as vantagens da abordagem modular, fornecemos exemplos de consultas de entrada e análises comparativas, e delineamos perspectivas para a extensão futura do método.
A fusão de modelos agrega Modelos de Linguagem de Grande Escala (LLMs) ajustados em diferentes tarefas em um mais robusto. No entanto, conflitos de parâmetros entre os modelos levam à degradação de desempenho na média. Enquanto o roteamento de modelos aborda esse problema selecionando modelos individuais durante a inferência, ele impõe custos excessivos de armazenamento e computação e não aproveita o conhecimento comum de diferentes modelos. Neste trabalho, observamos que diferentes camadas apresentam níveis variados de conflitos de parâmetros. Com base nessa percepção, médias são feitas em camadas com conflitos mínimos de parâmetros e é utilizado um novo roteamento de especialistas em nível de tarefa para camadas com conflitos significativos. Para reduzir ainda mais os custos de armazenamento, inspirados na esparsidade aritmética de tarefas, separamos vários especialistas ajustados em um especialista denso e vários especialistas esparsos. Considerando as amostras fora da distribuição, selecionamos e fundimos especialistas apropriados com base na incerteza da tarefa dos dados de entrada. Realizamos experimentos extensivos em LLaMA e Qwen com escalas de parâmetros variadas e avaliamos em tarefas de raciocínio do mundo real. Os resultados demonstram que nosso método consistentemente alcança melhorias significativas de desempenho, exigindo menos custo do sistema em comparação com métodos existentes.
Propomos um novo framework dinâmico de segurança que otimiza o raciocínio de segurança do modelo de linguagem (LM) no momento da inferência sem modificar os pesos do modelo. Construindo sobre os avanços recentes em métodos de autocrítica, nossa abordagem utiliza um mecanismo de metacrítica que atualiza iterativamente prompts de segurança - denominados especificações - para conduzir o processo de crítica e revisão de forma adaptativa. Esta otimização em tempo de teste não apenas melhora o desempenho contra solicitações de violação de segurança adversárias, mas também em diversas tarefas gerais relacionadas à segurança, como evitar danos morais ou buscar respostas honestas. Nossas avaliações empíricas em vários modelos de linguagem demonstram que prompts de segurança otimizados dinamicamente resultam em pontuações de segurança significativamente mais altas em comparação com prompts de sistema fixos e defesas estáticas de autocrítica. O código será disponibilizado em https://github.com/vicgalle/meta-self-critique.git.
A aprendizagem de representação contrastiva densa (DCRL, do inglês *Dense Contrastive Representation Learning*) tem melhorado significativamente a eficiência de aprendizado para tarefas de predição densa em imagens, demonstrando seu grande potencial para reduzir os altos custos associados à coleta de imagens médicas e à anotação densa. No entanto, as propriedades das imagens médicas tornam a descoberta de correspondências pouco confiável, trazendo um problema em aberto de pares falsos positivos e negativos (FP&N) em grande escala na DCRL. Neste artigo, propomos a aprendizagem de similaridade densa visual geométrica (GEMINI, do inglês *GEoMetric vIsual deNse sImilarity*), que incorpora o *prior* de homeomorfismo à DCRL e permite uma descoberta confiável de correspondências para um contraste denso eficaz. Propomos uma aprendizagem de homeomorfismo deformável (DHL, do inglês *Deformable Homeomorphism Learning*), que modela o homeomorfismo de imagens médicas e aprende a estimar um mapeamento deformável para prever a correspondência de pixels sob preservação topológica. Isso reduz efetivamente o espaço de busca de emparelhamento e conduz uma aprendizagem implícita e suave de pares negativos por meio de um gradiente. Também propomos uma similaridade semântica geométrica (GSS, do inglês *Geometric Semantic Similarity*), que extrai informações semânticas nas características para medir o grau de alinhamento na aprendizagem de correspondências. Isso promoverá a eficiência de aprendizado e o desempenho da deformação, construindo pares positivos de forma confiável. Implementamos duas variantes práticas em duas tarefas típicas de aprendizagem de representação em nossos experimentos. Nossos resultados promissores em sete conjuntos de dados, que superam os métodos existentes, mostram nossa grande superioridade. Disponibilizaremos nosso código em um link complementar: https://github.com/YutingHe-list/GEMINI.