Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado um potencial significativo em diversas aplicações, despertando amplo interesse tanto de pesquisadores quanto de profissionais. No entanto, uma avaliação abrangente de suas capacidades de contexto longo permanece pouco explorada. Para abordar essas lacunas, introduzimos o benchmark MultiModal Needle-in-a-haystack (MMNeedle), especificamente projetado para avaliar as capacidades de contexto longo dos MLLMs. Além da entrada de múltiplas imagens, empregamos a técnica de costura de imagens para aumentar ainda mais o comprimento do contexto de entrada e desenvolvemos um protocolo para gerar automaticamente rótulos para recuperação em nível de sub-imagem. Essencialmente, o MMNeedle avalia os MLLMs testando sua capacidade de localizar uma sub-imagem alvo (agulha) dentro de um conjunto de imagens (palheiro) com base em instruções textuais e descrições do conteúdo das imagens. Essa configuração exige um entendimento avançado de contextos visuais extensos e uma recuperação eficiente de informações em entradas de imagens de contexto longo. Com esse benchmark, avaliamos os MLLMs de última geração, abrangendo tanto modelos baseados em API quanto modelos de código aberto. Os resultados revelam que o GPT-4o supera consistentemente outros modelos em cenários de contexto longo, mas sofre com problemas de alucinação em amostras negativas, ou seja, quando as agulhas não estão presentes nos palheiros. Nossa avaliação abrangente de contexto longo dos MLLMs também lança luz sobre a considerável lacuna de desempenho entre modelos baseados em API e modelos de código aberto. Todo o código, dados e instruções necessários para reproduzir os principais resultados estão disponíveis em https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.
Atualmente, os campos de processamento de código e linguagem natural estão evoluindo rapidamente. Em particular, os modelos estão se tornando cada vez melhores em processar janelas de contexto longas - os tamanhos de contexto suportados aumentaram em ordens de magnitude nos últimos anos. No entanto, há uma escassez de benchmarks para processamento de código que vão além de um único arquivo de contexto, enquanto os mais populares são limitados a um único método. Com este trabalho, nosso objetivo é preencher essa lacuna introduzindo o Long Code Arena, um conjunto de seis benchmarks para tarefas de processamento de código que exigem contexto em nível de projeto. Essas tarefas cobrem diferentes aspectos do processamento de código: geração de código baseada em bibliotecas, reparo de builds de CI, conclusão de código em nível de projeto, geração de mensagens de commit, localização de bugs e sumarização de módulos. Para cada tarefa, fornecemos um conjunto de dados manualmente verificado para testes, uma suíte de avaliação e soluções de base de código aberto baseadas em LLMs populares para demonstrar o uso do conjunto de dados e simplificar a adoção por outros pesquisadores. Publicamos a página do benchmark no HuggingFace Spaces com o leaderboard, links para o HuggingFace Hub para todos os conjuntos de dados e o link para o repositório GitHub com as soluções de base: https://huggingface.co/spaces/JetBrains-Research/long-code-arena.
Os transformadores de visão (ViTs) emergiram como uma área de foco significativa, particularmente por sua capacidade de serem treinados conjuntamente com grandes modelos de linguagem e de servirem como modelos de base robustos para visão. No entanto, o desenvolvimento de métodos de explicação confiáveis para ViTs tem ficado para trás, especialmente no contexto de interpretações pós-hoc das previsões dos ViTs. As abordagens existentes de seleção de subimagens, como modelos de atribuição de características e modelos conceituais, são insuficientes nesse aspecto. Este artigo propõe cinco desideratos para explicar ViTs -- fidelidade, estabilidade, esparsidade, estrutura multinível e parcimônia -- e demonstra a inadequação dos métodos atuais em atender a esses critérios de forma abrangente. Introduzimos um framework de explicação bayesiana variacional, denominado ProbAbilistic Concept Explainers (PACE), que modela as distribuições dos embeddings de patches para fornecer explicações conceituais pós-hoc confiáveis. Nossa análise qualitativa revela as distribuições dos conceitos em nível de patch, elucidando a eficácia dos ViTs ao modelar a distribuição conjunta dos embeddings de patches e das previsões do ViT. Além disso, essas explicações em nível de patch preenchem a lacuna entre as explicações em nível de imagem e em nível de conjunto de dados, completando assim a estrutura multinível do PACE. Por meio de extensos experimentos em conjuntos de dados sintéticos e do mundo real, demonstramos que o PACE supera os métodos state-of-the-art em termos dos desideratos definidos.
Apresentamos o Self-MoE, uma abordagem que transforma um LLM monolítico em um sistema composicional e modular de especialistas autoespecializados, denominado MiXSE (MiXture of Self-specialized Experts). Nossa abordagem aproveita a autoespecialização, que constrói módulos de especialistas utilizando dados sintéticos autogerados, cada um equipado com um LLM base compartilhado e incorporando roteamento auto-otimizado. Isso permite o tratamento dinâmico e específico de diversas tarefas-alvo, aprimorando as capacidades gerais sem a necessidade de dados extensivamente rotulados por humanos ou parâmetros adicionais. Nossos resultados empíricos revelam que a especialização de LLMs pode apresentar possíveis compensações no desempenho em tarefas não especializadas. Por outro lado, nosso Self-MoE demonstra melhorias substanciais em relação ao LLM base em diversos benchmarks, como conhecimento, raciocínio, matemática e codificação. Ele também supera consistentemente outros métodos, incluindo fusão de instâncias e fusão de pesos, ao mesmo tempo que oferece maior flexibilidade e interpretabilidade por design, com especialistas semânticos e roteamento. Nossas descobertas destacam o papel crítico da modularidade e o potencial de autoatualização na criação de sistemas eficientes, escaláveis e adaptáveis.
A integração de modelos de linguagem pré-treinados (PLMs), como BERT e GPT, revolucionou o processamento de linguagem natural (NLP), especialmente para o inglês, mas também criou desequilíbrios linguísticos. Este artigo identifica estrategicamente a necessidade de equidade linguística ao examinar várias técnicas de edição de conhecimento em contextos multilíngues. Avaliamos o desempenho de modelos como Mistral, TowerInstruct, OpenHathi, Tamil-Llama e Kan-Llama em idiomas como inglês, alemão, francês, italiano, espanhol, hindi, tâmil e canarês. Nossa pesquisa identifica discrepâncias significativas em modelos normais e mesclados em relação à consistência translinguística. Empregamos estratégias como "cada idioma por si mesmo" (ELFI) e "cada idioma para os outros" (ELFO) para testar a resistência desses modelos. Nossos resultados demonstram o potencial dos LLMs para superar barreiras linguísticas, estabelecendo as bases para pesquisas futuras visando alcançar a inclusividade linguística em tecnologias de IA.
Modelos de fala auto-supervisionados (SSL, do inglês Self-Supervised Learning) têm sido amplamente adotados recentemente para diversas tarefas de processamento de fala. O padrão geral de uso é empregar modelos SSL como extratores de características e, em seguida, treinar uma cabeça de predição específica para resolver uma tarefa particular. No entanto, foi demonstrado que diferentes camadas dos modelos SSL capturam diferentes tipos de informação, e os métodos para combiná-las não são bem estudados. Para isso, estendemos o framework geral de utilização de modelos SSL propondo uma interface que conecta o upstream (modelo pré-treinado) e o downstream (tarefa específica). Sob essa perspectiva, a técnica dominante de combinar características por meio de uma soma ponderada por camada pode ser vista como uma interface específica. Propomos vários designs alternativos de interface e demonstramos que a interface de soma ponderada é subótima para muitas tarefas. Em particular, mostramos que uma interface convolucional cuja profundidade escala logaritmicamente com a profundidade do modelo upstream supera consistentemente muitos outros designs de interface.
O aprendizado por reforço com feedback humano (RLHF, na sigla em inglês) tornou-se o método dominante para alinhar modelos de grande escala às preferências dos usuários. Diferentemente do ajuste fino (fine-tuning), para o qual existem muitos estudos sobre a memorização de dados de treinamento, não está claro como a memorização é afetada ou introduzida no processo de alinhamento via RLHF. Compreender essa relação é importante, pois dados reais de usuários podem ser coletados e usados para alinhar modelos de grande escala; se os dados dos usuários forem memorizados durante o RLHF e posteriormente regurgitados, isso pode levantar preocupações de privacidade. Neste trabalho, analisamos como a memorização de dados de treinamento pode surgir e se propagar em cada fase do RLHF. Nosso estudo foca em modelos de conclusão de código, já que a conclusão de código é um dos casos de uso mais populares para modelos de linguagem de grande escala. Descobrimos que o RLHF reduz significativamente a chance de que os dados usados para modelagem de recompensa e aprendizado por reforço sejam memorizados, em comparação com o alinhamento via ajuste fino direto nesses dados. No entanto, exemplos já memorizados durante a etapa de ajuste fino do RLHF permanecerão memorizados na maioria dos casos após a aplicação do RLHF.
A tarefa de "desaprendizagem" de certos conceitos em grandes modelos de linguagem (LLMs, na sigla em inglês) tem atraído grande atenção recentemente, devido à sua importância para mitigar comportamentos indesejáveis dos modelos, como a geração de informações prejudiciais, privadas ou incorretas. Os protocolos atuais para avaliar métodos de desaprendizagem dependem amplamente de testes comportamentais, sem monitorar a presença do conhecimento desaprendido nos parâmetros do modelo. Esse conhecimento residual pode ser explorado de forma adversária para recuperar as informações apagadas após a desaprendizagem. Argumentamos que a desaprendizagem também deve ser avaliada internamente, considerando as mudanças nos traços de conhecimento paramétrico dos conceitos desaprendidos. Para isso, propomos uma metodologia geral para elicitar direções no espaço de parâmetros (denominadas "vetores de conceito") que codificam conceitos concretos, e construímos o ConceptVectors, um conjunto de dados de referência contendo centenas de conceitos comuns e seus traços de conhecimento paramétrico em dois LLMs de código aberto. A avaliação no ConceptVectors mostra que os métodos de desaprendizagem existentes têm impacto mínimo nos vetores de conceito, enquanto a ablação direta desses vetores remove claramente o conhecimento associado dos LLMs e reduz significativamente sua suscetibilidade à manipulação adversária. Nossos resultados destacam limitações nas avaliações de desaprendizagem baseadas em comportamento e apelam para que trabalhos futuros incluam avaliações baseadas em parâmetros. Para apoiar isso, disponibilizamos nosso código e conjunto de referência em https://github.com/yihuaihong/ConceptVectors.