Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o DeepSeek-Coder-V2, um modelo de linguagem de código de Mistura de Especialistas (MoE) de código aberto que alcança desempenho comparável ao GPT4-Turbo em tarefas específicas de código. Especificamente, o DeepSeek-Coder-V2 é pré-treinado adicionalmente a partir de um ponto de verificação intermediário do DeepSeek-V2 com mais 6 trilhões de tokens. Por meio desse pré-treinamento contínuo, o DeepSeek-Coder-V2 aprimora substancialmente as capacidades de codificação e raciocínio matemático do DeepSeek-V2, mantendo desempenho comparável em tarefas gerais de linguagem. Em comparação com o DeepSeek-Coder-33B, o DeepSeek-Coder-V2 demonstra avanços significativos em vários aspectos de tarefas relacionadas a código, bem como em raciocínio e capacidades gerais. Além disso, o DeepSeek-Coder-V2 amplia seu suporte para linguagens de programação de 86 para 338, enquanto estende o comprimento de contexto de 16K para 128K. Em avaliações de benchmarks padrão, o DeepSeek-Coder-V2 alcança desempenho superior em comparação com modelos de código fechado, como GPT4-Turbo, Claude 3 Opus e Gemini 1.5 Pro, em benchmarks de codificação e matemática.
A estimativa precisa de profundidade em imagens de 360 graus é crucial para aplicações de realidade virtual, navegação autônoma e mídia imersiva. Os métodos existentes de estimativa de profundidade projetados para imagens de perspectiva falham quando aplicados a imagens de 360 graus devido a diferentes projeções de câmera e distorções, enquanto os métodos específicos para 360 graus têm desempenho inferior devido à falta de pares de dados rotulados. Propomos um novo framework de estimativa de profundidade que utiliza efetivamente dados não rotulados de 360 graus. Nossa abordagem emprega modelos de estimativa de profundidade de perspectiva de última geração como modelos professores para gerar rótulos pseudo-supervisionados por meio de uma técnica de projeção cúbica de seis faces, permitindo a rotulação eficiente de profundidade em imagens de 360 graus. Esse método aproveita a crescente disponibilidade de grandes conjuntos de dados. Nossa abordagem inclui duas etapas principais: geração offline de máscaras para regiões inválidas e um regime de treinamento conjunto semi-supervisionado online. Testamos nossa abordagem em conjuntos de dados de referência, como Matterport3D e Stanford2D3D, mostrando melhorias significativas na precisão da estimativa de profundidade, especialmente em cenários zero-shot. Nosso pipeline de treinamento proposto pode aprimorar qualquer estimador de profundidade monocular de 360 graus e demonstra uma transferência eficaz de conhecimento entre diferentes projeções de câmera e tipos de dados. Veja os resultados em nossa página do projeto: https://albert100121.github.io/Depth-Anywhere/
O alinhamento humano em modelos de linguagem de grande escala (LLMs) é uma área ativa de pesquisa. Um trabalho recente e revolucionário, a otimização direta de preferências (DPO), simplificou significativamente o processo em relação a trabalhos anteriores em aprendizado por reforço com feedback humano (RLHF), ao contornar a etapa de aprendizado de recompensa no RLHF. Após o treinamento, a DPO fornece um modelo de recompensa implícito. Neste trabalho, fazemos uma observação inédita de que esse modelo de recompensa implícito pode, por si só, ser usado de forma iterativa para alinhar ainda mais o LLM. Nossa abordagem consiste em utilizar as recompensas de um modelo LLM atual para construir um conjunto de dados de preferências, que é então usado em rodadas subsequentes de DPO. Incorporamos refinamentos que reduzem o viés no comprimento das respostas e melhoram a qualidade do conjunto de dados de preferências para aprimorar ainda mais nossa abordagem. Nossa abordagem, denominada autoalinhamento com recompensas implícitas da DPO (DICE), mostra grandes melhorias no alinhamento e alcança desempenho superior ao Gemini Pro no AlpacaEval 2, atingindo uma taxa de vitória controlada por comprimento de 27,55% em relação ao GPT-4 Turbo, mas com apenas 8 bilhões de parâmetros e sem feedback externo. Nosso código está disponível em https://github.com/sail-sg/dice.
Modelos grandes de linguagem e visão (LLVMs, na sigla em inglês) têm sido impulsionados pelo poder de generalização dos modelos grandes de linguagem (LLMs) e pelo surgimento do ajuste fino por instruções visuais. Além de escaloná-los diretamente, esses modelos permitem que os LLVMs demonstrem desempenhos poderosos em tarefas de linguagem visual (VL) ao cobrir diversas tarefas por meio de instruções em linguagem natural. No entanto, os LLVMs de código aberto existentes que têm desempenho comparável aos LLVMs de código fechado, como o GPT-4V, são frequentemente considerados muito grandes (por exemplo, com 26B, 34B e 110B de parâmetros), possuindo um número maior de camadas. Esses modelos grandes demandam recursos de alto custo e alta performance tanto para treinamento quanto para inferência. Para abordar esse problema, apresentamos uma nova família eficiente de LLVMs com tamanhos de modelo LLM de 1,8B, 3,8B e 7B, chamada Traversal of Layers (TroL), que permite a reutilização de camadas de maneira token-wise. Essa técnica de travessia de camadas simula o efeito de revisitar e retraçar o fluxo de respostas, aumentando o número de camadas de propagação direta sem adicionar fisicamente mais camadas. Demonstramos que o TroL emprega uma abordagem simples de travessia de camadas, mas supera eficientemente os LLVMs de código aberto com tamanhos de modelo maiores e rivaliza com os desempenhos dos LLVMs de código fechado de tamanhos substanciais.
Apresentamos o ChatGLM, uma família em evolução de modelos de linguagem de grande escala que temos desenvolvido ao longo do tempo. Este relatório concentra-se principalmente na série de linguagem GLM-4, que inclui GLM-4, GLM-4-Air e GLM-4-9B. Eles representam nossos modelos mais capazes, treinados com todos os insights e lições obtidos das três gerações anteriores do ChatGLM. Até o momento, os modelos GLM-4 foram pré-treinados em dez trilhões de tokens, principalmente em chinês e inglês, juntamente com um pequeno conjunto de corpus de 24 idiomas, e alinhados principalmente para uso em chinês e inglês. O alinhamento de alta qualidade é alcançado por meio de um processo de pós-treinamento em múltiplas etapas, que envolve ajuste fino supervisionado e aprendizado a partir de feedback humano. As avaliações mostram que o GLM-4 1) rivaliza de perto ou supera o GPT-4 em termos de métricas gerais como MMLU, GSM8K, MATH, BBH, GPQA e HumanEval, 2) se aproxima do GPT-4-Turbo na capacidade de seguir instruções, conforme medido pelo IFEval, 3) iguala o GPT-4 Turbo (128K) e o Claude 3 em tarefas de contexto longo, e 4) supera o GPT-4 em alinhamentos de chinês, conforme medido pelo AlignBench. O modelo GLM-4 All Tools é ainda mais alinhado para compreender a intenção do usuário e decidir autonomamente quando e quais ferramentas usar — incluindo navegador web, interpretador Python, modelo de texto para imagem e funções definidas pelo usuário — para concluir tarefas complexas de forma eficaz. Em aplicações práticas, ele iguala e até supera o GPT-4 All Tools em tarefas como acessar informações online por meio de navegação na web e resolver problemas matemáticos usando o interpretador Python. Ao longo do processo, disponibilizamos uma série de modelos em código aberto, incluindo ChatGLM-6B (três gerações), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM e CodeGeeX, atraindo mais de 10 milhões de downloads no Hugging Face apenas no ano de 2023. Os modelos abertos podem ser acessados através de https://github.com/THUDM e https://huggingface.co/THUDM.
Os Modelos de Visão-Linguagem (VLMs) têm alcançado sucesso notável em várias tarefas multimodais, mas frequentemente enfrentam limitações devido à janela de contexto restrita e ao alto custo computacional de processar entradas de imagens de alta resolução e vídeos. A compressão visual pode aliviar esse problema ao reduzir a quantidade de tokens visuais. Abordagens anteriores comprimem tokens visuais com módulos externos e forçam os LLMs (Large Language Models) a entender os tokens comprimidos, resultando em perda de informação visual. No entanto, o paradigma de compreensão de tokens visuais pelos LLMs não é totalmente utilizado no processo de aprendizado de compressão. Propomos o VoCo-LLaMA, a primeira abordagem para comprimir tokens visuais usando LLMs. Ao introduzir tokens de Compressão Visual durante a fase de ajuste fino de instruções visuais e aproveitar a destilação de atenção, nosso método destila como os LLMs compreendem tokens visuais em seu processamento de tokens VoCo. O VoCo-LLaMA facilita a compressão visual eficaz e melhora a eficiência computacional durante a etapa de inferência. Especificamente, nosso método alcança perda mínima de desempenho com uma taxa de compressão de 576 vezes, resultando em até 94,8% menos FLOPs e 69,6% de aceleração no tempo de inferência. Além disso, por meio do treinamento contínuo usando sequências de tokens comprimidos de séries temporais de quadros de vídeo, o VoCo-LLaMA demonstra a capacidade de entender correlações temporais, superando métodos anteriores em benchmarks populares de questionamento e resposta de vídeo. Nossa abordagem apresenta uma maneira promissora de desbloquear todo o potencial da janela contextual dos VLMs, permitindo aplicações multimodais mais escaláveis. A página do projeto, juntamente com o código associado, pode ser acessada via https://yxxxb.github.io/VoCo-LLaMA-page/{este link}.
Agentes de software surgiram como ferramentas promissoras para lidar com tarefas complexas de engenharia de software. No entanto, os trabalhos existentes simplificam demais os fluxos de trabalho de desenvolvimento de software ao seguirem o modelo em cascata. Assim, propomos o AgileCoder, um sistema multiagente que integra a Metodologia Ágil (MA) em sua estrutura. Esse sistema atribui papéis específicos da MA, como Gerente de Produto, Desenvolvedor e Testador, a diferentes agentes, que então colaboram no desenvolvimento de software com base nas entradas do usuário. O AgileCoder aumenta a eficiência do desenvolvimento ao organizar o trabalho em sprints, focando no desenvolvimento incremental do software por meio desses sprints. Além disso, introduzimos o Dynamic Code Graph Generator, um módulo que cria um Grafo de Dependência de Código dinamicamente à medida que atualizações são feitas na base de código. Isso permite que os agentes compreendam melhor a base de código, levando a uma geração e modificação de código mais precisa ao longo do processo de desenvolvimento de software. O AgileCoder supera benchmarks existentes, como ChatDev e MetaGPT, estabelecendo um novo padrão e demonstrando as capacidades de sistemas multiagente em ambientes avançados de engenharia de software. Nosso código-fonte pode ser encontrado em https://github.com/FSoft-AI4Code/AgileCoder.
A Geração Aumentada por Recuperação (RAG, do inglês *Retrieval Augmented Generation*) aprimora a capacidade dos modelos de linguagem de raciocinar utilizando contexto externo para enriquecer as respostas a um prompt do usuário. Essa abordagem ganhou popularidade devido a aplicações práticas em diversos usos de modelos de linguagem, como em buscas, sistemas de perguntas e respostas e chatbots. No entanto, a natureza exata de como essa abordagem funciona ainda não é claramente compreendida. Neste artigo, examinamos mecanicamente o pipeline do RAG para destacar que os modelos de linguagem tomam atalhos e têm uma forte tendência a utilizar apenas as informações de contexto para responder à pergunta, dependendo minimamente de sua memória paramétrica. Investigamos esse comportamento mecanicista nos modelos de linguagem com: (i) Análise de Mediação Causal, para mostrar que a memória paramétrica é minimamente utilizada ao responder a uma pergunta, e (ii) Contribuições de Atenção e *Knockouts*, para demonstrar que o fluxo residual do último token não é enriquecido pelo token do assunto na pergunta, mas sim por outros tokens informativos no contexto. Constatamos que esse comportamento de atalho é pronunciado tanto nos modelos da família LLaMa quanto na família Phi.
O ajuste fino supervisionado aprimora as habilidades de resolução de problemas dos modelos de linguagem em diversas tarefas de raciocínio matemático. Para maximizar esses benefícios, pesquisas existentes concentram-se em ampliar o conjunto de treinamento com várias técnicas de aumento de dados, o que é eficaz para cenários padrão de perguntas e respostas de rodada única. Nosso trabalho introduz uma técnica inovadora voltada para cultivar uma compreensão mais profunda dos problemas de treinamento em questão, melhorando o desempenho não apenas em cenários padrão, mas também em situações mais complexas que exigem pensamento reflexivo. Especificamente, propomos o aumento reflexivo, um método que incorpora a reflexão sobre o problema em cada instância de treinamento. Ele treina o modelo para considerar perspectivas alternativas e engajar-se com abstrações e analogias, promovendo assim uma compreensão abrangente por meio do raciocínio reflexivo. Experimentos extensivos validam a conquista de nosso objetivo, destacando as vantagens únicas de nosso método e sua natureza complementar em relação às técnicas de aumento existentes.
Modelos de linguagem alinhados à segurança frequentemente exibem mecanismos de segurança frágeis e desequilibrados, aumentando a probabilidade de gerar conteúdo inseguro. Além disso, a incorporação de novos conhecimentos por meio de técnicas de edição em modelos de linguagem pode comprometer ainda mais a segurança. Para abordar esses problemas, propomos o SafeInfer, uma estratégia de alinhamento de segurança adaptativa ao contexto, aplicada durante a decodificação, para gerar respostas seguras a consultas dos usuários. O SafeInfer compreende duas fases: a fase de amplificação de segurança, que emprega exemplos de demonstração seguros para ajustar os estados ocultos do modelo e aumentar a probabilidade de saídas mais seguras, e a fase de decodificação guiada por segurança, que influencia a seleção de tokens com base em distribuições otimizadas para segurança, garantindo que o conteúdo gerado esteja em conformidade com diretrizes éticas. Adicionalmente, apresentamos o HarmEval, um novo benchmark para avaliações extensivas de segurança, projetado para abordar cenários de uso indevido em conformidade com as políticas das principais gigantes de tecnologia de IA.
Modelos de Linguagem de Grande Escala (LLMs) são treinados em vastas quantidades de dados, a maioria dos quais é automaticamente coletada da internet. Esses dados incluem documentos enciclopédicos que abrigam uma grande quantidade de conhecimento geral (por exemplo, a Wikipedia), mas também podem se sobrepor a conjuntos de dados de benchmark usados para avaliar LLMs. Consequentemente, avaliar modelos em divisões de teste que podem ter vazado para o conjunto de treinamento tende a levar a conclusões enganosas. Para promover uma avaliação sólida de modelos de linguagem, introduzimos um novo conjunto de dados de teste chamado RepLiQA, adequado para tarefas de resposta a perguntas e recuperação de tópicos. RepLiQA é uma coleção de cinco divisões de conjuntos de teste, quatro das quais não foram liberadas na internet ou expostas a APIs de LLM antes desta publicação. Cada amostra no RepLiQA compreende (1) um documento de referência elaborado por um anotador humano e que descreve um cenário imaginário (por exemplo, um artigo de notícias) ausente da internet; (2) uma pergunta sobre o tópico do documento; (3) uma resposta verdadeira derivada diretamente das informações no documento; e (4) o parágrafo extraído do documento de referência que contém a resposta. Dessa forma, respostas precisas só podem ser geradas se um modelo conseguir encontrar conteúdo relevante dentro do documento fornecido. Executamos um benchmark em grande escala que inclui vários LLMs state-of-the-art para revelar diferenças de desempenho entre modelos de vários tipos e tamanhos em um cenário de modelagem de linguagem condicional ao contexto. As divisões liberadas do RepLiQA podem ser encontradas aqui: https://huggingface.co/datasets/ServiceNow/repliqa.
Garantir o alinhamento seguro de grandes modelos de linguagem (LLMs) com os valores humanos é crucial à medida que eles se tornam essenciais para aplicações como tradução e resposta a perguntas. Os métodos atuais de alinhamento enfrentam dificuldades com intenções dinâmicas dos usuários e objetivos complexos, tornando os modelos vulneráveis à geração de conteúdo prejudicial. Propomos a Aritmética de Segurança, uma estrutura livre de treinamento que aprimora a segurança dos LLMs em diferentes cenários: modelos base, modelos ajustados por supervisão (SFT) e modelos editados. A Aritmética de Segurança envolve a Remoção de Direção de Dano para evitar conteúdo prejudicial e o Alinhamento de Segurança para promover respostas seguras. Além disso, apresentamos o NoIntentEdit, um conjunto de dados que destaca instâncias de edição que poderiam comprometer a segurança do modelo se usadas inadvertidamente. Nossos experimentos mostram que a Aritmética de Segurança melhora significativamente as medidas de segurança, reduz o excesso de segurança e mantém a utilidade do modelo, superando os métodos existentes na garantia da geração de conteúdo seguro.
Modelos de linguagem normalmente tokenizam texto bruto em sequências de identificadores de subpalavras a partir de um vocabulário pré-definido, um processo inerentemente sensível a erros tipográficos, variações de comprimento e amplamente alheio à estrutura interna dos tokens — problemas que denominamos de maldição da tokenização. Neste estudo, exploramos essas desvantagens e demonstramos que modelos de linguagem de grande escala (LLMs) permanecem suscetíveis a esses problemas. Este estudo investiga sistematicamente esses desafios e seu impacto nos LLMs por meio de três questões de pesquisa críticas: (1) resolução de problemas complexos, (2) sondagem da estrutura dos tokens e (3) resiliência a variações tipográficas. Nossas descobertas revelam que a escalonamento de parâmetros do modelo pode mitigar o problema da tokenização; no entanto, os LLMs ainda sofrem com vieses induzidos por erros de digitação e outras variações de formato de texto. Nossos experimentos mostram que a regularização de subpalavras, como o BPE-dropout, pode mitigar esse problema. Disponibilizaremos nosso código e dados para facilitar pesquisas futuras.
A evolução da Inteligência Artificial (IA) tem sido significativamente acelerada pelos avanços em Modelos de Linguagem de Grande Escala (LLMs) e Modelos Multimodais de Grande Escala (LMMs), demonstrando gradualmente habilidades de raciocínio cognitivo na resolução de problemas e na descoberta científica (ou seja, IA4Science) que antes eram exclusivas do intelecto humano. Para avaliar de forma abrangente o desempenho dos modelos atuais em habilidades de raciocínio cognitivo, introduzimos o OlympicArena, que inclui 11.163 problemas bilíngues em modalidades de apenas texto e texto intercalado com imagens. Esses desafios abrangem uma ampla gama de disciplinas, cobrindo sete áreas e 62 competições olímpicas internacionais, rigorosamente examinadas para evitar vazamento de dados. Argumentamos que os desafios presentes nos problemas das competições olímpicas são ideais para avaliar o raciocínio cognitivo da IA devido à sua complexidade e natureza interdisciplinar, que são essenciais para enfrentar desafios científicos complexos e facilitar descobertas. Além de avaliar o desempenho em várias disciplinas usando critérios de resposta única, conduzimos experimentos e análises detalhadas de múltiplas perspectivas. Investigamos as habilidades de raciocínio cognitivo dos modelos, seu desempenho em diferentes modalidades e seus resultados em avaliações de nível de processo, que são vitais para tarefas que exigem raciocínio complexo com soluções extensas. Nossas extensas avaliações revelam que mesmo modelos avançados como o GPT-4o alcançam apenas uma precisão geral de 39,97%, ilustrando as limitações atuais da IA em raciocínio complexo e integração multimodal. Por meio do OlympicArena, visamos avançar a IA em direção à superinteligência, capacitando-a para enfrentar desafios mais complexos na ciência e além. Também fornecemos um conjunto abrangente de recursos para apoiar a pesquisa em IA, incluindo um conjunto de dados de referência, uma plataforma de anotação de código aberto, uma ferramenta de avaliação detalhada e um quadro de líderes com funcionalidades de submissão automática.
O avanço dos grandes modelos de linguagem (LLMs) ampliou significativamente o escopo de aplicações em processamento de linguagem natural, com modelos multi-modais (LLMs) estendendo essas capacidades para integrar e interpretar dados visuais. No entanto, os benchmarks existentes para modelos de linguagem visual (VLMs) concentram-se predominantemente em entradas de imagem única, negligenciando o aspecto crucial do entendimento de múltiplas imagens. Neste artigo, introduzimos um Benchmark Relacional de Múltiplas Imagens (MIRB), projetado para avaliar a capacidade dos VLMs de comparar, analisar e raciocinar entre várias imagens. Nosso benchmark abrange quatro categorias: percepção, conhecimento do mundo visual, raciocínio e raciocínio multi-hop. Por meio de uma avaliação abrangente de uma ampla gama de modelos de código aberto e proprietários, demonstramos que, embora os VLMs de código aberto tenham se aproximado do desempenho do GPT-4V em tarefas de imagem única, uma lacuna significativa de desempenho permanece em tarefas de raciocínio com múltiplas imagens. Nossas descobertas também revelam que até mesmo o modelo GPT-4V, estado da arte, enfrenta dificuldades com nosso benchmark, destacando a necessidade de mais pesquisa e desenvolvimento nessa área. Acreditamos que nossa contribuição com o MIRB pode servir como um ambiente de teste para o desenvolvimento da próxima geração de modelos multi-modais.
Apesar dos avanços recentes nas técnicas de reconstrução humana de alta fidelidade, os requisitos para imagens densamente capturadas ou otimizações demoradas por instância dificultam significativamente suas aplicações em cenários mais amplos. Para enfrentar esses desafios, apresentamos o HumanSplat, que prevê as propriedades de 3D Gaussian Splatting de qualquer humano a partir de uma única imagem de entrada de maneira generalizável. Em particular, o HumanSplat compreende um modelo de difusão multi-visão 2D e um transformador de reconstrução latente com prioridades de estrutura humana que integram habilmente prioridades geométricas e características semânticas em um framework unificado. Uma função de perda hierárquica que incorpora informações semânticas humanas foi projetada para alcançar modelagem de textura de alta fidelidade e restringir melhor as múltiplas visões estimadas. Experimentos abrangentes em benchmarks padrão e imagens do mundo real demonstram que o HumanSplat supera os métodos state-of-the-art existentes na síntese de novas visões foto-realistas.
Dados tabulares -- dados estruturados, heterogêneos, no estilo de planilhas, com linhas e colunas -- são amplamente utilizados na prática em diversos domínios. No entanto, embora modelos de base recentes tenham reduzido a necessidade de desenvolver conjuntos de dados e preditores específicos para tarefas em domínios como modelagem de linguagem e visão computacional, esse paradigma de aprendizado por transferência não teve um impacto semelhante no domínio tabular. Neste trabalho, buscamos reduzir essa lacuna e apresentamos o TabuLa-8B, um modelo de linguagem para predição tabular. Definimos um processo para extrair um grande conjunto de dados de treinamento de alta qualidade do corpus TabLib, propondo métodos para filtragem e controle de qualidade de dados tabulares. Utilizando o conjunto de dados resultante, que compreende mais de 1,6 bilhão de linhas de 3,1 milhões de tabelas únicas, ajustamos finamente um modelo de linguagem grande (LLM) Llama 3-8B para predição de dados tabulares (classificação e regressão binned) usando um esquema inovador de empacotamento e atenção para predição tabular. Por meio da avaliação em um conjunto de teste de 329 conjuntos de dados, descobrimos que o TabuLa-8B tem uma precisão zero-shot em tabelas não vistas que é mais de 15 pontos percentuais (pp) superior ao chute aleatório, um feito que não é possível com os modelos de predição tabular state-of-the-art existentes (por exemplo, XGBoost, TabPFN). No cenário de poucos exemplos (1-32 exemplos), sem qualquer ajuste fino nos conjuntos de dados alvo, o TabuLa-8B é 5-15 pp mais preciso do que os modelos XGBoost e TabPFN que são explicitamente treinados com a mesma quantidade, ou até 16 vezes mais dados. Disponibilizamos nosso modelo, código e dados juntamente com a publicação deste artigo.
Para avaliar o conhecimento em modelos de linguagem de grande escala (LLMs, na sigla em inglês), os métodos atuais consultam o modelo e avaliam suas respostas geradas. Neste trabalho, questionamos se a avaliação pode ser feita antes que o modelo gere qualquer texto. Mais concretamente, é possível estimar o quanto um modelo é conhecedor sobre uma determinada entidade, apenas a partir de sua computação interna? Estudamos essa questão com duas tarefas: dada uma entidade sujeito, o objetivo é prever (a) a capacidade do modelo de responder a perguntas comuns sobre a entidade e (b) a factualidade das respostas geradas pelo modelo sobre a entidade. Experimentos com uma variedade de LLMs mostram que o KEEN, uma sonda simples treinada sobre representações internas do sujeito, tem sucesso em ambas as tarefas — correlacionando-se fortemente tanto com a precisão de perguntas e respostas (QA) do modelo por sujeito quanto com o FActScore, uma métrica recente de factualidade em geração de texto aberta. Além disso, o KEEN alinha-se naturalmente com o comportamento de hesitação do modelo e reflete fielmente mudanças no conhecimento do modelo após o ajuste fino. Por fim, mostramos uma variante do KEEN mais interpretável e igualmente eficiente, que destaca um pequeno conjunto de tokens que se correlaciona com a falta de conhecimento do modelo. Sendo simples e leve, o KEEN pode ser utilizado para identificar lacunas e agrupamentos de conhecimento sobre entidades em LLMs, além de orientar decisões como o aumento de consultas com recuperação de informações.
A binarização, que converte parâmetros de peso em valores binários, surgiu como uma estratégia eficaz para reduzir o tamanho de grandes modelos de linguagem (LLMs). No entanto, técnicas típicas de binarização diminuem significativamente a eficácia linguística dos LLMs. Para resolver esse problema, introduzimos uma nova técnica de binarização chamada Mixture of Scales (BinaryMoS). Diferente dos métodos convencionais, o BinaryMoS emprega múltiplos especialistas em escalonamento para pesos binários, combinando dinamicamente esses especialistas para cada token a fim de gerar fatores de escalonamento de forma adaptativa. Essa abordagem adaptativa por token aumenta o poder de representação dos LLMs binarizados, permitindo ajustes contextuais nos valores dos pesos binários. Além disso, como esse processo adaptativo envolve apenas os fatores de escalonamento e não toda a matriz de pesos, o BinaryMoS mantém uma eficiência de compressão semelhante aos métodos tradicionais de binarização estática. Nossos resultados experimentais mostram que o BinaryMoS supera as técnicas convencionais de binarização em várias tarefas de processamento de linguagem natural e até mesmo supera métodos de quantização de 2 bits, tudo isso mantendo um tamanho de modelo semelhante às técnicas de binarização estática.
O conhecimento médico é dependente do contexto e requer raciocínio consistente em diversas expressões linguísticas de frases semanticamente equivalentes. Isso é particularmente crucial para os nomes de medicamentos, onde os pacientes frequentemente usam nomes comerciais como Advil ou Tylenol em vez de seus equivalentes genéricos. Para estudar isso, criamos um novo conjunto de dados de robustez, RABBITS, para avaliar diferenças de desempenho em benchmarks médicos após a substituição de nomes comerciais e genéricos de medicamentos usando anotações de especialistas médicos. Avaliamos tanto modelos de linguagem de código aberto quanto baseados em API no MedQA e MedMCQA, revelando uma queda consistente no desempenho variando de 1 a 10\%. Além disso, identificamos uma possível fonte dessa fragilidade como a contaminação de dados de teste em conjuntos de dados de pré-treinamento amplamente utilizados. Todo o código está acessível em https://github.com/BittermanLab/RABBITS, e um leaderboard no HuggingFace está disponível em https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
Modelos de difusão texto-para-imagem (T2I) demonstraram capacidades impressionantes de geração de imagens. No entanto, sua intensidade computacional impede que organizações com recursos limitados implantem modelos T2I após ajustá-los em seus dados internos de destino. Embora técnicas de poda ofereçam uma solução potencial para reduzir a carga computacional dos modelos T2I, métodos de poda estática utilizam o mesmo modelo podado para todos os prompts de entrada, ignorando as necessidades variáveis de capacidade de diferentes prompts. A poda dinâmica aborda essa questão utilizando uma sub-rede separada para cada prompt, mas impede o paralelismo em lote em GPUs. Para superar essas limitações, introduzimos a Poda Adaptativa Personalizada por Prompt (APTP), um novo método de poda baseado em prompt projetado para modelos de difusão T2I. Central à nossa abordagem é um modelo de roteamento de prompt, que aprende a determinar a capacidade necessária para um prompt de texto de entrada e o direciona para um código de arquitetura, dado um orçamento computacional total desejado para os prompts. Cada código de arquitetura representa um modelo especializado adaptado aos prompts atribuídos a ele, e o número de códigos é um hiperparâmetro. Treinamos o roteador de prompt e os códigos de arquitetura usando aprendizado contrastivo, garantindo que prompts semelhantes sejam mapeados para códigos próximos. Além disso, empregamos transporte ótimo para evitar que os códigos colapsem em um único. Demonstramos a eficácia da APTP podando o Stable Diffusion (SD) V2.1 usando CC3M e COCO como conjuntos de dados de destino. A APTP supera as linhas de base de poda de modelo único em termos de pontuações FID, CLIP e CMMD. Nossa análise dos clusters aprendidos pela APTP revela que eles são semanticamente significativos. Também mostramos que a APTP pode descobrir automaticamente prompts previamente identificados como desafiadores para o SD, por exemplo, prompts para gerar imagens de texto, atribuindo-os a códigos de maior capacidade.
A rápida evolução dos modelos de linguagem tem exigido o desenvolvimento de benchmarks mais desafiadores. Os benchmarks estáticos atuais frequentemente têm dificuldade em distinguir de forma consistente as capacidades de diferentes modelos e falham em se alinhar com as preferências dos usuários no mundo real. Por outro lado, plataformas colaborativas ao vivo, como o Chatbot Arena, coletam uma ampla gama de prompts naturais e feedback dos usuários. No entanto, esses prompts variam em sofisticação e o feedback não pode ser aplicado offline a novos modelos. Para garantir que os benchmarks acompanhem o ritmo do desenvolvimento dos LLMs, abordamos como é possível avaliar benchmarks com base em sua capacidade de separar modelos com confiança e seu alinhamento com as preferências humanas. Sob esses princípios, desenvolvemos o BenchBuilder, um benchmark dinâmico que filtra prompts de alta qualidade a partir de fontes de dados ao vivo para permitir avaliação offline com prompts novos e desafiadores. O BenchBuilder identifica sete indicadores de um prompt de alta qualidade, como a necessidade de conhecimento de domínio, e utiliza um anotador LLM para selecionar um subconjunto de prompts de alta qualidade de vários clusters de tópicos. O processo de avaliação do LLM emprega um juiz LLM para garantir um benchmark totalmente automatizado, de alta qualidade e em constante atualização. Aplicamos o BenchBuilder em prompts do Chatbot Arena para criar o Arena-Hard-Auto v0.1: 500 prompts desafiadores de usuários em uma ampla variedade de tarefas. O Arena-Hard-Auto v0.1 oferece intervalos de confiança 3x mais estreitos que o MT-Bench e alcança um estado da arte de 89,1% de concordância com as classificações de preferência humana, tudo a um custo de apenas US$ 25 e sem a necessidade de anotadores humanos. O pipeline do BenchBuilder aprimora os benchmarks de avaliação e fornece uma ferramenta valiosa para desenvolvedores, permitindo que extraiam benchmarks de alta qualidade a partir de grandes volumes de dados com esforço mínimo.
O alinhamento direto a partir de preferências (DAP, do inglês Direct Alignment from Preferences) emergiu como um paradigma promissor para alinhar grandes modelos de linguagem (LLMs, do inglês Large Language Models) aos desejos humanos a partir de conjuntos de dados de preferências pré-coletados e offline. Embora estudos recentes indiquem que os métodos existentes de DAP offline podem se beneficiar diretamente de amostras de treinamento online, destacamos a necessidade de desenvolver algoritmos específicos de DAP online para aproveitar plenamente o poder do treinamento online. Especificamente, identificamos que o LLM aprendido deve aderir à proximidade do LLM de comportamento, que coleta as amostras de treinamento. Para isso, propomos a Otimização de Preferências online em proximidade ao LLM de Comportamento (BPO, do inglês Behavior LLM Proximity Optimization), enfatizando a importância de construir uma região de confiança adequada para o alinhamento de LLMs. Realizamos experimentos extensivos para validar a eficácia e a aplicabilidade de nossa abordagem, integrando-a a vários métodos de DAP, resultando em melhorias significativas de desempenho em uma ampla gama de tarefas ao treinar com a mesma quantidade de dados de preferência. Mesmo ao introduzir apenas uma fase adicional de coleta de dados, nosso BPO online melhora sua linha de base de DAP offline de 72,0% para 80,2% no TL;DR e de 82,2% para 89,1% no Anthropic Helpfulness em termos de taxa de vitória contra o texto de referência humano.
A edição de vídeo é um pilar fundamental da mídia digital, abrangendo desde entretenimento e educação até comunicação profissional. No entanto, métodos anteriores frequentemente negligenciam a necessidade de compreender de forma abrangente tanto os contextos globais quanto locais, resultando em edições imprecisas e inconsistentes na dimensão espaço-temporal, especialmente para vídeos longos. Neste artigo, apresentamos o VIA, um framework unificado de Adaptação Espaço-temporal de Vídeo (VIdeo Adaptation) para edição global e local de vídeos, expandindo os limites da edição consistente de vídeos com duração de minutos. Primeiro, para garantir a consistência local dentro de quadros individuais, a base do VIA é um novo método de adaptação de edição em tempo de teste, que adapta um modelo pré-treinado de edição de imagens para melhorar a consistência entre as possíveis direções de edição e a instrução textual, além de adaptar variáveis latentes mascaradas para controle local preciso. Além disso, para manter a consistência global ao longo da sequência de vídeo, introduzimos a adaptação espaço-temporal, que adapta variáveis de atenção consistentes em quadros-chave e as aplica estrategicamente em toda a sequência para realizar os efeitos de edição. Experimentos extensivos demonstram que, em comparação com métodos de referência, nossa abordagem VIA produz edições mais fiéis aos vídeos originais, mais coerentes no contexto espaço-temporal e mais precisas no controle local. Mais importante ainda, mostramos que o VIA pode alcançar a edição consistente de vídeos longos em minutos, desbloqueando o potencial para tarefas avançadas de edição de vídeo em sequências longas.
Avaliar a eficácia dos modelos de linguagem de grande escala (LLMs, na sigla em inglês) na resolução de diversas tarefas é essencial para compreender seus pontos fortes e fracos. As técnicas convencionais de avaliação geralmente aplicam uma única estratégia de prompt de forma uniforme em diferentes conjuntos de dados, sem considerar os diferentes graus de complexidade das tarefas. Introduzimos a Taxonomia de Prompt Hierárquico (HPT, na sigla em inglês), uma taxonomia que emprega um Framework de Prompt Hierárquico (HPF, na sigla em inglês) composto por cinco estratégias de prompt distintas, organizadas da mais simples à mais complexa, para avaliar os LLMs de forma mais precisa e oferecer uma perspectiva mais clara. Essa taxonomia atribui uma pontuação, chamada de Pontuação de Prompt Hierárquico (HP-Score, na sigla em inglês), tanto aos conjuntos de dados quanto aos LLMs com base nas regras da taxonomia, proporcionando uma compreensão detalhada de sua capacidade de resolver diversas tarefas e oferecendo uma medida universal da complexidade das tarefas. Além disso, introduzimos o Framework de Prompt Hierárquico Adaptativo, que automatiza a seleção das estratégias de prompt apropriadas para cada tarefa. Este estudo compara os frameworks de prompt hierárquico manual e adaptativo utilizando quatro LLMs ajustados por instrução, nomeadamente Llama 3 8B, Phi 3 3.8B, Mistral 7B e Gemma 7B, em quatro conjuntos de dados: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT) e SamSum. Os experimentos demonstram a eficácia da HPT, fornecendo uma maneira confiável de comparar diferentes tarefas e capacidades dos LLMs. Este artigo contribui para o desenvolvimento de uma métrica de avaliação universal que pode ser usada para avaliar tanto a complexidade dos conjuntos de dados quanto as capacidades dos LLMs. A implementação tanto do HPF manual quanto do HPF adaptativo está disponível publicamente.
Modelos de linguagem habilitados para visão (VLMs, na sigla em inglês) são agora utilizados para construir agentes multimodais autônomos capazes de realizar ações em ambientes reais. Neste artigo, demonstramos que agentes multimodais introduzem novos riscos de segurança, embora atacar esses agentes seja mais desafiador do que ataques anteriores devido ao acesso limitado e ao conhecimento restrito sobre o ambiente. Nossos ataques utilizam strings de texto adversariais para guiar perturbações baseadas em gradiente sobre uma imagem de gatilho no ambiente: (1) nosso ataque ao captioner ataca captioners de caixa branca, caso sejam usados para processar imagens em legendas como entradas adicionais para o VLM; (2) nosso ataque ao CLIP ataca um conjunto de modelos CLIP em conjunto, o que pode ser transferido para VLMs proprietários. Para avaliar os ataques, criamos o VisualWebArena-Adv, um conjunto de tarefas adversariais baseadas no VisualWebArena, um ambiente para tarefas de agentes multimodais baseados na web. Dentro de uma norma L-infinito de 16/256 em uma única imagem, o ataque ao captioner pode fazer com que um agente GPT-4V aumentado por captioner execute os objetivos adversariais com uma taxa de sucesso de 75%. Quando removemos o captioner ou usamos o GPT-4V para gerar suas próprias legendas, o ataque ao CLIP pode alcançar taxas de sucesso de 21% e 43%, respectivamente. Experimentos com agentes baseados em outros VLMs, como Gemini-1.5, Claude-3 e GPT-4o, mostram diferenças interessantes em sua robustez. Uma análise mais aprofundada revela vários fatores-chave que contribuem para o sucesso do ataque, e também discutimos as implicações para defesas. Página do projeto: https://chenwu.io/attack-agent Código e dados: https://github.com/ChenWu98/agent-attack
Neste artigo, destacamos que o mapeamento subótimo entre ruído e dados leva a um treinamento lento de modelos de difusão. Durante o treinamento de difusão, os métodos atuais difundem cada imagem por todo o espaço de ruído, resultando em uma mistura de todas as imagens em cada ponto da camada de ruído. Enfatizamos que essa mistura aleatória do mapeamento ruído-dados complica a otimização da função de remoção de ruído em modelos de difusão. Inspirados pelo fenômeno da imiscibilidade na física, propomos a Difusão Imiscível, um método simples e eficaz para melhorar a mistura aleatória do mapeamento ruído-dados. Na física, a miscibilidade pode variar de acordo com várias forças intermoleculares. Assim, a imiscibilidade significa que a mistura das fontes moleculares é distinguível. Inspirados por isso, propomos uma estratégia de treinamento de atribuição seguida de difusão. Especificamente, antes de difundir os dados da imagem em ruído, atribuímos um ruído alvo de difusão para os dados da imagem, minimizando a distância total entre pares imagem-ruído em um mini-lote. A atribuição funciona de forma análoga a forças externas para separar as áreas difusíveis das imagens, mitigando assim as dificuldades inerentes ao treinamento de difusão. Nossa abordagem é notavelmente simples, exigindo apenas uma linha de código para restringir a área difusível de cada imagem, enquanto preserva a distribuição gaussiana do ruído. Isso garante que cada imagem seja projetada apenas para ruídos próximos. Para lidar com a alta complexidade do algoritmo de atribuição, empregamos um método de atribuição quantizada para reduzir a sobrecarga computacional a um nível insignificante. Experimentos demonstram que nosso método alcança um treinamento até 3x mais rápido para modelos de consistência e DDIM no conjunto de dados CIFAR, e até 1,3x mais rápido no conjunto de dados CelebA para modelos de consistência. Além disso, realizamos uma análise detalhada sobre a Difusão Imiscível, que esclarece como ela melhora a velocidade de treinamento de difusão enquanto aumenta a fidelidade.
Modelos de grande escala para geração de música a partir de texto alcançaram progressos significativos, facilitando a criação de composições musicais de alta qualidade e variadas a partir de prompts de texto fornecidos. No entanto, os prompts de texto de entrada podem não capturar com precisão os requisitos do usuário, especialmente quando o objetivo é gerar música que incorpore um conceito específico derivado de uma coleção de referência designada. Neste artigo, propomos um novo método para geração personalizada de música a partir de texto, que pode capturar o conceito de uma música de referência de dois minutos e gerar uma nova peça musical que se alinhe com esse conceito. Isso é alcançado por meio do ajuste fino de um modelo pré-treinado de geração de música a partir de texto utilizando a música de referência. No entanto, o ajuste fino direto de todos os parâmetros leva a problemas de sobreajuste. Para resolver essa questão, propomos um método de Ajuste de Parâmetros Pivôs que permite ao modelo assimilar o novo conceito enquanto preserva suas capacidades generativas originais. Além disso, identificamos um potencial conflito de conceitos ao introduzir múltiplos conceitos no modelo pré-treinado. Apresentamos uma estratégia de aprimoramento de conceitos para distinguir múltiplos conceitos, permitindo que o modelo ajustado gere música incorporando conceitos individuais ou múltiplos simultaneamente. Como somos os primeiros a trabalhar na tarefa de geração personalizada de música, também introduzimos um novo conjunto de dados e protocolo de avaliação para essa nova tarefa. Nosso Jen1-DreamStyler proposto supera várias baselines em avaliações qualitativas e quantitativas. Demonstrações estarão disponíveis em https://www.jenmusic.ai/research#DreamStyler.
O superalinhamento, onde humanos são supervisores fracos de modelos super-humanos, tornou-se uma questão importante e amplamente discutida na era atual de rápido desenvolvimento dos Modelos de Linguagem de Grande Escala (LLMs). Um trabalho recente estuda preliminarmente esse problema utilizando modelos fracos para supervisionar modelos fortes. Ele descobre que alunos fortes supervisionados de forma fraca podem consistentemente superar professores fracos em direção ao objetivo de alinhamento, levando a um fenômeno de generalização de fraco para forte. No entanto, estamos preocupados que, por trás de um fenômeno tão promissor, possa existir um problema de decepção de fraco para forte, onde modelos fortes podem enganar modelos fracos exibindo um bom alinhamento em áreas conhecidas pelos modelos fracos, mas produzindo comportamentos desalinhados em casos que os modelos fracos não conhecem. Damos então um primeiro passo para explorar essa questão de segurança em um caso específico, mas realista, de alinhamento multiobjetivo, onde pode haver alguns objetivos de alinhamento em conflito entre si (por exemplo, utilidade versus segurança). Tal conflito provavelmente fará com que modelos fortes enganem modelos fracos em uma dimensão de alinhamento para obter alta recompensa em outra dimensão de alinhamento. Nossos experimentos tanto na tarefa de modelagem de recompensa quanto no cenário de otimização de preferências indicam: (1) a decepção de fraco para forte existe; (2) o fenômeno de decepção pode se intensificar à medida que a lacuna de capacidade entre modelos fracos e fortes aumenta. Também discutimos possíveis soluções e descobrimos que o bootstrapping com um modelo intermediário pode mitigar a decepção até certo ponto. Nosso trabalho destaca a necessidade urgente de prestar mais atenção à verdadeira confiabilidade do superalinhamento.
Neste artigo, apresentamos um método de Adaptação de Baixa Dimensão (LoRA) inspirado em subespaços, que é computacionalmente eficiente, fácil de implementar e prontamente aplicável a grandes modelos de linguagem, multimodais e de difusão. Inicialmente, decompomos equivalentemente os pesos do LoRA em dois subespaços e descobrimos que simplesmente misturá-los pode melhorar o desempenho. Para estudar esse fenômeno, revisitamos o problema através de uma lente de subespaço de granularidade fina, mostrando que tal modificação é equivalente a empregar um misturador fixo para fundir os subespaços. Para maior flexibilidade, aprendemos conjuntamente o misturador com os pesos originais do LoRA, e denominamos o método de Mistura de Subespaços LoRA (MoSLoRA). O MoSLoRA supera consistentemente o LoRA em tarefas de diferentes modalidades, incluindo raciocínio de senso comum, ajuste fino de instruções visuais e geração de texto para imagem orientada por assunto, demonstrando sua eficácia e robustez. Os códigos estão disponíveis em https://github.com/wutaiqiang/MoSLoRA{github}.