Artigos de pesquisa em IA selecionados diariamente com traduções
A perda contrastiva é uma abordagem poderosa para aprendizado de representações, onde tamanhos de lote maiores aprimoram o desempenho ao fornecer mais amostras negativas para distinguir melhor entre dados semelhantes e dissimilares. No entanto, o dimensionamento dos tamanhos de lote é limitado pelo crescimento quadrático no consumo de memória da GPU, principalmente devido à instanciação completa da matriz de similaridade. Para lidar com isso, propomos uma estratégia de cálculo baseada em blocos que divide o cálculo da perda contrastiva em blocos arbitrariamente pequenos, evitando a materialização completa da matriz de similaridade. Além disso, introduzimos uma estratégia de divisão em vários níveis para aproveitar a estrutura hierárquica de sistemas distribuídos, utilizando comunicação baseada em anel no nível da GPU para otimizar a sincronização e kernels fundidos no nível do núcleo CUDA para reduzir a sobrecarga de E/S. Resultados experimentais mostram que o método proposto dimensiona os tamanhos de lote para níveis sem precedentes. Por exemplo, ele permite o treinamento contrastivo de um modelo CLIP-ViT-L/14 com um tamanho de lote de 4M ou 12M usando 8 ou 32 A800 80GB sem sacrificar precisão alguma. Comparado às soluções de eficiência de memória do estado da arte, ele alcança uma redução de dois ordens de magnitude na memória mantendo uma velocidade comparável. O código será disponibilizado publicamente.
Os Modelos de Linguagem de Grande Escala (LLMs) sofrem de alucinações, referindo-se às informações não factuais no conteúdo gerado, apesar de suas capacidades superiores em diversas tarefas. Enquanto isso, a edição de conhecimento foi desenvolvida como um novo paradigma popular para corrigir o conhecimento factual errôneo codificado nos LLMs com a vantagem de evitar o retrabalho do zero. No entanto, um problema comum dos conjuntos de dados de avaliação existentes para edição de conhecimento é que eles não garantem que os LLMs realmente gerem respostas alucinadas às perguntas de avaliação antes da edição. Quando os LLMs são avaliados em tais conjuntos de dados após serem editados por diferentes técnicas, é difícil adotar diretamente o desempenho para avaliar a eficácia de diferentes métodos de edição de conhecimento na correção de alucinações. Assim, a questão fundamental permanece insuficientemente validada: A edição de conhecimento realmente pode corrigir alucinações nos LLMs? Propusemos o HalluEditBench para avaliar de forma abrangente os métodos de edição de conhecimento na correção de alucinações do mundo real. Primeiramente, construímos rigorosamente um extenso conjunto de dados de alucinações com 9 domínios, 26 tópicos e mais de 6.000 alucinações. Em seguida, avaliamos o desempenho dos métodos de edição de conhecimento de forma holística em cinco dimensões, incluindo Eficácia, Generalização, Portabilidade, Localidade e Robustez. Através do HalluEditBench, fornecemos novas perspectivas sobre os potenciais e limitações de diferentes métodos de edição de conhecimento na correção de alucinações, o que poderia inspirar melhorias futuras e facilitar o progresso no campo da edição de conhecimento.
Os modelos de longo contexto (LCMs) têm mostrado grande potencial no processamento de sequências de entrada longas (até mais de 100 mil tokens) de forma conveniente e eficaz. Com progressos significativos, pesquisas recentes apontaram que os LCMs podem localizar com precisão informações salientes a nível de token dentro do contexto. No entanto, o desempenho de geração desses LCMs ainda está longe de ser satisfatório e pode resultar em respostas desalinhadas, como alucinações. Para aprimorar a capacidade de geração dos LCMs, trabalhos existentes têm investigado os efeitos do tamanho e da qualidade dos dados tanto para pré-treinamento quanto para ajuste de instruções. Embora tenham alcançado melhorias significativas, os métodos anteriores falham em eficácia ou eficiência. Neste artigo, apresentamos o LOGO (Alinhamento de Longo Contexto via Otimização Eficiente de Preferência), uma estratégia de treinamento que introduz inicialmente a otimização de preferência para o alinhamento de longo contexto. Para superar o problema de limitação de memória da GPU causado pela sequência longa, o LOGO emprega uma estratégia de otimização de preferência sem referência e adota um método de síntese de posição para construir os dados de treinamento. Ao ser treinado com apenas 0,3 bilhão de dados em uma única máquina GPU 8xA800 por 16 horas, o LOGO permite que o modelo Llama-3-8B-Instruct-80K alcance um desempenho comparável ao do GPT-4 em tarefas do mundo real de longo contexto, preservando as capacidades originais do modelo em outras tarefas, como modelagem de linguagem e MMLU. Além disso, o LOGO pode ampliar o tamanho da janela de contexto do modelo enquanto aprimora seu desempenho de geração.
A disponibilidade de dados de alta qualidade é um dos fatores mais importantes para melhorar a capacidade de raciocínio dos LLMs. Trabalhos existentes têm demonstrado a eficácia da criação de mais dados de instrução a partir de perguntas iniciais ou bases de conhecimento. Pesquisas recentes indicam que escalar continuamente a síntese de dados a partir de modelos robustos (por exemplo, GPT-4) pode ainda mais elicitar desempenho de raciocínio. Embora promissor, a comunidade de código aberto ainda carece de dados de alta qualidade em escala e métodos escaláveis de síntese de dados com custos acessíveis. Para lidar com isso, apresentamos o ScaleQuest, um método de síntese de dados escalável e inovador que utiliza modelos de código aberto de "pequeno porte" (por exemplo, 7B) para gerar perguntas do zero sem a necessidade de dados iniciais com restrições de aumento complexas. Com o ScaleQuest eficiente, construímos automaticamente um conjunto de dados de raciocínio matemático consistindo de 1 milhão de pares problema-solução, que são mais eficazes do que conjuntos de dados de código aberto existentes. Ele pode aumentar universalmente o desempenho de modelos de código aberto mainstream (ou seja, Mistral, Llama3, DeepSeekMath e Qwen2-Math) obtendo ganhos de 29,2% a 46,4% em MATH. Notavelmente, apenas ajustando finamente o modelo Qwen2-Math-7B-Base com nosso conjunto de dados pode até mesmo superar o Qwen2-Math-7B-Instruct, um modelo forte e bem alinhado em dados de código fechado, e modelos proprietários como GPT-4-Turbo e Claude-3.5 Sonnet.
Propomos o Framer para interpolação de quadros interativos, que tem como objetivo produzir transições suaves entre dois quadros de imagens de acordo com a criatividade do usuário. Concretamente, além de receber os quadros iniciais e finais como entradas, nossa abordagem suporta a personalização do processo de transição ao adaptar a trajetória de alguns keypoints selecionados. Esse design apresenta duas claras vantagens. Primeiramente, a incorporação da interação humana mitiga o problema decorrente das inúmeras possibilidades de transformar uma imagem em outra, permitindo um controle mais preciso dos movimentos locais. Em segundo lugar, como a forma mais básica de interação, os keypoints ajudam a estabelecer a correspondência entre os quadros, aprimorando o modelo para lidar com casos desafiadores (por exemplo, objetos nos quadros iniciais e finais possuem formas e estilos diferentes). É importante destacar que nosso sistema também oferece um modo "autopiloto", no qual introduzimos um módulo para estimar os keypoints e refinar a trajetória automaticamente, a fim de simplificar o uso na prática. Resultados experimentais extensivos demonstram o desempenho atrativo do Framer em diversas aplicações, como morphing de imagens, geração de vídeos em time-lapse, interpolação de desenhos animados, etc. O código, o modelo e a interface serão disponibilizados para facilitar pesquisas futuras.
Apresentamos o conceito de um jogo infinito generativo, um videogame que transcende as fronteiras tradicionais de sistemas finitos e codificados rigidamente, utilizando modelos generativos. Inspirados pela distinção de James P. Carse entre jogos finitos e infinitos, aproveitamos os avanços recentes em IA generativa para criar Unbounded: um jogo de simulação de vida de personagem totalmente encapsulado em modelos generativos. Especificamente, Unbounded se inspira em simulações de vida sandbox e permite que você interaja com seu personagem virtual autônomo em um mundo virtual alimentando, brincando e orientando-o - com mecânicas de jogo sem fim geradas por um LLM, algumas das quais podem ser emergentes. Para desenvolver Unbounded, propomos inovações técnicas tanto nos domínios de geração de LLM quanto visual. Especificamente, apresentamos: (1) um modelo de linguagem grande (LLM) especializado e destilado que gera dinamicamente mecânicas de jogo, narrativas e interações de personagens em tempo real, e (2) um novo Adaptador de Prompt de Imagem Regional dinâmico (IP-Adapter) para modelos de visão que garante geração visual consistente e flexível de um personagem em vários ambientes. Avaliamos nosso sistema por meio de análises qualitativas e quantitativas, demonstrando melhorias significativas na simulação de vida de personagens, na instrução do usuário, na coerência narrativa e na consistência visual tanto para personagens quanto para os ambientes, em comparação com abordagens relacionadas tradicionais.
Resolver tarefas complexas de perguntas e respostas de gráficos requer habilidades avançadas de raciocínio visual em modelos de linguagem multimodais grandes (MLLMs). Estudos recentes destacam que essas habilidades consistem em duas partes principais: reconhecer informações-chave a partir de entradas visuais e realizar raciocínio sobre elas. Assim, uma abordagem promissora para aprimorar MLLMs é construir dados de treinamento relevantes focando nesses dois aspectos. No entanto, coletar e anotar gráficos e perguntas complexas é caro e demorado, e garantir a qualidade das respostas anotadas continua sendo um desafio. Neste artigo, propomos a Tradução de Código como Intermediário (CIT), um método de síntese de dados econômico, eficiente e facilmente escalável para destilar habilidades de raciocínio visual de LLMs para MLLMs. O código atua como um intermediário que traduz representações visuais de gráficos em representações textuais, permitindo que LLMs compreendam informações cruzadas modais. Especificamente, empregamos técnicas de síntese baseadas em texto para construir código de plotagem de gráficos e produzir o ReachQA, um conjunto de dados contendo 3 mil gráficos intensivos em raciocínio e 20 mil pares de perguntas e respostas para aprimorar tanto as habilidades de reconhecimento quanto de raciocínio. Experimentos mostram que, quando ajustados com nossos dados, os modelos não apenas se saem bem em benchmarks relacionados a gráficos, mas também demonstram habilidades aprimoradas de raciocínio multimodal em benchmarks matemáticos gerais como o MathVista. O código e o conjunto de dados estão disponíveis publicamente em https://github.com/hewei2001/ReachQA.
Neste relatório, apresentamos uma coleção de métodos para aprimorar a modelagem de recompensas para LLMs, focando especificamente em técnicas centradas em dados. Propomos estratégias eficazes de seleção e filtragem de dados para a curadoria de conjuntos de dados de preferência de código aberto de alta qualidade, culminando na coleção de dados Skywork-Reward, que contém apenas 80 mil pares de preferência - significativamente menor do que os conjuntos de dados existentes. Utilizando este conjunto de dados curado, desenvolvemos a série de modelos Skywork-Reward - Skywork-Reward-Gemma-27B e Skywork-Reward-Llama-3.1-8B - sendo o primeiro atualmente o líder do quadro de líderes do RewardBench. Notavelmente, nossas técnicas e conjuntos de dados aprimoraram diretamente o desempenho de muitos modelos bem classificados no RewardBench, destacando o impacto prático de nossas contribuições em aplicações de aprendizado de preferências do mundo real.
Grandes modelos de linguagem (LLMs) podem armazenar uma quantidade significativa de conhecimento factual em seus parâmetros. No entanto, o conhecimento paramétrico deles pode entrar em conflito com as informações fornecidas no contexto -- esse fenômeno, conhecido como conflitos de conhecimento entre contexto e memória, pode levar a comportamentos indesejáveis do modelo, como a dependência de informações desatualizadas ou incorretas. Ao analisar as ativações internas dos LLMs, descobrimos que eles podem registrar internamente os sinais de conflito de conhecimento em camadas intermediárias. Tais sinais nos permitem detectar se ocorre um conflito de conhecimento e usar estratégias de intervenção no momento da inferência para resolvê-lo. Neste trabalho, propomos o SpARE, um método de engenharia de representação sem treinamento que utiliza autoencoders esparsos (SAEs) pré-treinados para controlar o comportamento de seleção de conhecimento dos LLMs. O SpARE identifica as características funcionais que controlam os comportamentos de seleção de conhecimento e as aplica para editar as ativações internas dos LLMs no momento da inferência. Nossos resultados experimentais mostram que o SpARE pode controlar efetivamente o uso de qualquer fonte de conhecimento para resolver conflitos de conhecimento em tarefas de perguntas e respostas em domínio aberto, superando os métodos existentes de engenharia de representação (+10%) e os métodos de decodificação contrastiva (+15%).
Os avanços no treinamento distribuído e nos mecanismos de atenção eficientes expandiram significativamente os tamanhos das janelas de contexto dos grandes modelos de linguagem (LLMs). No entanto, trabalhos recentes revelam que os comprimentos efetivos de contexto dos LLMs de código aberto frequentemente ficam aquém, geralmente não ultrapassando a metade de seus comprimentos de treinamento. Neste trabalho, atribuímos essa limitação à distribuição de frequência enviesada para a esquerda das posições relativas formadas nas etapas de pré-treinamento e pós-treinamento dos LLMs, o que impede sua capacidade de reunir efetivamente informações distantes. Para enfrentar esse desafio, introduzimos a EMBEDDING de posição ShifTed Rotray (STRING). O STRING desloca posições bem treinadas para sobrescrever as posições originais ineficazes durante a inferência, aprimorando o desempenho dentro de seus comprimentos de treinamento existentes. Resultados experimentais mostram que, sem treinamento adicional, o STRING melhora drasticamente o desempenho dos últimos modelos em grande escala, como Llama3.1 70B e Qwen2 72B, em mais de 10 pontos nos populares benchmarks de contexto longo RULER e InfiniteBench, estabelecendo novos resultados de ponta para LLMs de código aberto. Comparado aos modelos comerciais, o Llama 3.1 70B com o \method alcança até melhor desempenho do que o GPT-4-128K e supera claramente o Claude 2 e o Kimi-chat.
A modelagem eficiente de linguagem de longo contexto continua sendo um desafio significativo no Processamento de Linguagem Natural (PLN). Enquanto os Transformers dominam as tarefas de linguagem, eles enfrentam dificuldades com sequências longas devido à complexidade computacional quadrática no treinamento e ao aumento linear dos custos de memória durante a inferência. Modelos recentes de Espaço de Estado (SSMs), como o Mamba, oferecem alternativas com uso de memória constante, mas têm desempenho inferior em tarefas que exigem extensa recuperação no contexto. Apresentamos o Taipan, uma arquitetura híbrida inovadora que combina o Mamba-2 com Camadas de Atenção Seletiva (SALs). Essas SALs identificam tokens que requerem interações de longo alcance, removem características menos importantes e depois aumentam suas representações usando o módulo de atenção. Esse método equilibra a eficiência do Mamba com o desempenho semelhante ao Transformer em tarefas intensivas em memória. Ao limitar o orçamento de atenção, o Taipan estende previsões precisas para comprimentos de contexto de até 1 milhão de tokens, preservando a eficiência computacional. Nossos experimentos demonstram o desempenho superior do Taipan em várias escalas e tarefas, oferecendo uma solução promissora para a modelagem eficiente de linguagem de longo contexto.
Segmentar um objeto em um vídeo apresenta desafios significativos. Cada pixel deve ser rotulado com precisão, e esses rótulos devem permanecer consistentes ao longo dos quadros. A dificuldade aumenta quando a segmentação é com granularidade arbitrária, o que significa que o número de segmentos pode variar arbitrariamente, e as máscaras são definidas com base em apenas uma ou algumas imagens de amostra. Neste artigo, abordamos essa questão empregando um modelo de difusão de texto para imagem pré-treinado complementado com um mecanismo de rastreamento adicional. Demonstramos que nossa abordagem pode gerenciar efetivamente vários cenários de segmentação e supera as alternativas de ponta.
Esta pesquisa aborda o problema da edição interativa na geração de movimento humano. Modelos anteriores de difusão de movimento carecem de modelagem explícita da correspondência texto-movimento em nível de palavra e de boa explicabilidade, restringindo assim sua capacidade de edição detalhada. Para lidar com esse problema, propomos um modelo de difusão de movimento baseado em atenção, chamado MotionCLR, com modelagem CLeaR de mecanismos de atenção. Tecnicamente, o MotionCLR modela as interações intra-modalidade e inter-modalidade com autoatenção e interatenção, respectivamente. Mais especificamente, o mecanismo de autoatenção visa medir a similaridade sequencial entre quadros e impacta a ordem dos recursos de movimento. Em contraste, o mecanismo de interatenção trabalha para encontrar a correspondência detalhada de sequência de palavras e ativar os passos correspondentes na sequência de movimento. Com base nessas propriedades-chave, desenvolvemos um conjunto versátil de métodos simples, porém eficazes, de edição de movimento por meio da manipulação de mapas de atenção, como (des) enfatização de movimento, substituição de movimento no local e geração de movimento com base em exemplos, etc. Para uma verificação adicional da explicabilidade do mecanismo de atenção, exploramos adicionalmente o potencial de contagem de ações e capacidade de geração de movimento fundamentada por meio de mapas de atenção. Nossos resultados experimentais mostram que nosso método apresenta boa capacidade de geração e edição com boa explicabilidade.
O desenvolvimento web envolve transformar designs de interface de usuário em páginas web funcionais, o que pode ser difícil tanto para iniciantes quanto para desenvolvedores experientes devido à complexidade das estruturas hierárquicas e estilos do HTML. Embora Modelos de Linguagem Grandes (LLMs) tenham mostrado promessa na geração de código-fonte, dois desafios principais persistem na geração de código UI-para-HTML: (1) representar efetivamente a estrutura hierárquica do HTML para LLMs e (2) preencher a lacuna entre a natureza visual dos designs de UI e o formato baseado em texto do código HTML. Para enfrentar esses desafios, apresentamos o Waffle, uma nova estratégia de ajuste fino que utiliza um mecanismo de atenção consciente da estrutura para melhorar a compreensão dos LLMs sobre a estrutura do HTML e uma abordagem de ajuste fino contrastante para alinhar a compreensão dos LLMs entre imagens de UI e código HTML. Modelos ajustados com o Waffle apresentam até 9,00 pp (ponto percentual) de correspondência HTML superior, 0,0982 de CW-SSIM superior, 32,99 de CLIP superior e 27,12 pp de LLEM superior em nosso novo benchmark WebSight-Test e em um benchmark existente Design2Code, superando os métodos atuais de ajuste fino.
Os últimos anos testemunharam um interesse significativo no desenvolvimento de grandes modelos multimodais (LMMs) capazes de realizar diversas tarefas de raciocínio visual e compreensão. Isso levou à introdução de múltiplos benchmarks de avaliação de LMMs para avaliar LMMs em diferentes tarefas. No entanto, a maioria dos benchmarks de avaliação de LMM existentes são predominantemente centrados no inglês. Neste trabalho, desenvolvemos um benchmark abrangente de avaliação de LMM para a língua árabe para representar uma grande população de mais de 400 milhões de falantes. O benchmark proposto, denominado CAMEL-Bench, compreende oito domínios diversos e 38 subdomínios, incluindo compreensão multi-imagem, percepção visual complexa, compreensão de documentos manuscritos, compreensão de vídeo, imagens médicas, doenças de plantas e compreensão do uso da terra com base em sensoriamento remoto para avaliar a generalização de cenários amplos. Nosso CAMEL-Bench é composto por cerca de 29.036 perguntas filtradas de um grande conjunto de amostras, cuja qualidade é verificada manualmente por falantes nativos para garantir uma avaliação confiável do modelo. Realizamos avaliações tanto de modelos fechados, incluindo a série GPT-4, quanto de LMMs de código aberto. Nossa análise revela a necessidade de melhorias substanciais, especialmente entre os melhores modelos de código aberto, com até mesmo o GPT-4o de código fechado alcançando uma pontuação geral de 62%. Nosso benchmark e scripts de avaliação são de código aberto.
Grandes Modelos de Linguagem (LLMs) frequentemente sofrem de alucinações, produzindo saídas não fiéis ou factualmente incorretas ao distorcer o contexto fornecido ou recordar incorretamente conhecimento interno. Estudos recentes identificaram cabeças de atenção específicas dentro da arquitetura Transformer, conhecidas como cabeças de recuperação, responsáveis por extrair informações contextuais relevantes. Nossa hipótese é que mascarar essas cabeças de recuperação pode induzir alucinações e que contrastar as saídas do LLM base e do LLM mascarado pode reduzir as alucinações. Para isso, propomos Decodificação por Contraste de Cabeças de Recuperação (DeCoRe), uma estratégia de decodificação inovadora sem treinamento que amplifica as informações encontradas no contexto e nos parâmetros do modelo. DeCoRe mitiga respostas potencialmente alucinadas contrastando dinamicamente as saídas do LLM base e do LLM mascarado, utilizando entropia condicional como guia. Nossos extensivos experimentos confirmam que DeCoRe melhora significativamente o desempenho em tarefas que exigem alta fidelidade contextual, como sumarização (XSum em 18,6%), seguimento de instruções (MemoTrap em 10,9%) e resposta a perguntas de livro aberto (NQ-Open em 2,4% e NQ-Swap em 5,5%).
Apresentamos o CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), um subconjunto de alta qualidade de 500GB do Corpora Chinês da Internet 3.0 (CCI3.0) (https://huggingface.co/datasets/BAAI/CCI3-Data), desenvolvido utilizando um novo pipeline híbrido de filtragem em duas etapas que aprimora significativamente a qualidade dos dados. Para avaliar sua eficácia, treinamos um modelo com 0.5B de parâmetros a partir do zero em 100B de tokens em vários conjuntos de dados, alcançando um desempenho superior em 10 benchmarks em uma configuração de zero-shot em comparação com CCI3.0, SkyPile e WanjuanV1. O processo de filtragem de alta qualidade destila efetivamente as capacidades do modelo Qwen2-72B-instruct em um modelo compacto de 0.5B, obtendo pontuações F1 ótimas para a classificação de dados da web chinesa. Acreditamos que este conjunto de dados de acesso aberto facilitará um acesso mais amplo a modelos de linguagem de alta qualidade.
Os modelos de difusão alcançam uma qualidade de geração superior, mas sofrem com a lentidão na geração devido à natureza iterativa da remoção de ruído. Em contraste, os modelos de consistência, uma nova família generativa, alcançam desempenho competitivo com uma amostragem significativamente mais rápida. Esses modelos são treinados através da destilação de consistência, que aproveita modelos de difusão pré-treinados, ou treinamento/ajuste de consistência diretamente a partir de dados brutos. Neste trabalho, propomos um novo framework para compreender os modelos de consistência, modelando o processo de remoção de ruído do modelo de difusão como um Processo de Decisão de Markov (MDP) e enquadrando o treinamento do modelo de consistência como a estimativa de valor através do Aprendizado por Diferença Temporal (TD). Mais importante ainda, este framework nos permite analisar as limitações das atuais estratégias de treinamento/ajuste de consistência. Construído sobre o Ajuste de Consistência Fácil (ECT), propomos o Ajuste de Consistência Estável (SCT), que incorpora aprendizado com redução de variância usando a identidade de pontuação. SCT resulta em melhorias significativas de desempenho em benchmarks como CIFAR-10 e ImageNet-64. Em ImageNet-64, SCT alcança FID de 1 passo de 2,42 e FID de 2 passos de 1,55, um novo estado da arte para modelos de consistência.
Os métodos atuais de marca d'água em imagens são vulneráveis a técnicas avançadas de edição de imagem possibilitadas por modelos de texto para imagem em larga escala. Esses modelos podem distorcer marcas d'água embutidas durante a edição, apresentando desafios significativos para a proteção de direitos autorais. Neste trabalho, apresentamos o W-Bench, o primeiro benchmark abrangente projetado para avaliar a robustez de métodos de marca d'água contra uma ampla gama de técnicas de edição de imagem, incluindo regeneração de imagem, edição global, edição local e geração de imagem para vídeo. Através de avaliações extensivas de onze métodos representativos de marca d'água contra técnicas de edição prevalentes, demonstramos que a maioria dos métodos falha em detectar marcas d'água após tais edições. Para lidar com essa limitação, propomos o VINE, um método de marca d'água que aumenta significativamente a robustez contra várias técnicas de edição de imagem, mantendo alta qualidade de imagem. Nossa abordagem envolve duas inovações-chave: (1) analisamos as características de frequência da edição de imagem e identificamos que distorções de desfoque exibem propriedades de frequência semelhantes, o que nos permite usá-las como ataques substitutos durante o treinamento para reforçar a robustez da marca d'água; (2) aproveitamos um modelo de difusão pré-treinado em larga escala, o SDXL-Turbo, adaptando-o para a tarefa de marca d'água para alcançar uma incorporação de marca d'água mais imperceptível e robusta. Resultados experimentais mostram que nosso método alcança um desempenho de marca d'água excepcional sob várias técnicas de edição de imagem, superando os métodos existentes tanto em qualidade de imagem quanto em robustez. O código está disponível em https://github.com/Shilin-LU/VINE.
Os Transformers podem capturar dependências de longo alcance usando autoatenção, permitindo que os tokens atendam diretamente a todos os outros. No entanto, empilhar várias camadas de atenção leva à concentração de atenção. Uma maneira natural de lidar com esse problema é usar atenção entre camadas, permitindo que informações das camadas anteriores sejam acessíveis diretamente às camadas posteriores. No entanto, essa abordagem é computacionalmente cara. Para resolver esse problema, propomos o Transformer com valor residual (ResFormer), que aproxima a atenção entre camadas através da adição de uma conexão residual dos valores da primeira camada para todas as camadas subsequentes. Com base nesse método, uma variante é o Transformer com valor de camada única (SVFormer), onde todas as camadas compartilham o mesmo valor de incorporação da primeira camada, reduzindo o cache KV em quase 50%. Evidências empíricas abrangentes demonstram que o ResFormer mitiga o problema de concentração de atenção em camadas mais profundas e aprimora a representação em várias camadas, superando o Transformer comum, DenseFormer e NeuTRENO em erro de treinamento, bem como em tarefas subsequentes. O SVFormer treina significativamente mais rápido que o Transformer comum e tem um desempenho melhor do que outros métodos como GQA e CLA, com o desempenho influenciado pelo comprimento da sequência e pela taxa de aprendizado acumulada.
Os avanços recentes na fusão multimodal testemunharam o notável sucesso dos modelos visão-linguagem (VL), que se destacam em várias aplicações multimodais, como descrição de imagens e resposta a perguntas visuais. No entanto, a construção de modelos VL requer recursos de hardware substanciais, onde a eficiência é limitada por dois fatores-chave: a sequência de entrada estendida do modelo de linguagem com características visuais exige mais operações computacionais, e um grande número de parâmetros aprendíveis adicionais aumenta a complexidade da memória. Esses desafios restringem significativamente a aplicabilidade mais ampla de tais modelos. Para preencher essa lacuna, propomos o ADEM-VL, um método eficiente de visão-linguagem que ajusta modelos VL com base em modelos de linguagem grandes pré-treinados (LLMs) adotando um mecanismo de atenção cruzada livre de parâmetros para medidas de similaridade na fusão multimodal. Esta abordagem requer apenas a incorporação de características visuais no espaço da linguagem, reduzindo significativamente o número de parâmetros treináveis e acelerando tanto o treinamento quanto a velocidade de inferência. Para aprimorar a aprendizagem de representação no módulo de fusão, introduzimos um esquema eficiente de geração de características multiescala que requer apenas uma passagem direta pelo codificador de visão. Além disso, propomos um esquema de fusão adaptativo que descarta dinamicamente informações visuais menos relevantes para cada token de texto com base em seu escore de atenção. Isso garante que o processo de fusão priorize as características visuais mais pertinentes. Com experimentos em várias tarefas, incluindo resposta a perguntas visuais, descrição de imagens e seguimento de instruções, demonstramos que nosso framework supera abordagens existentes. Especificamente, nosso método supera os métodos existentes em uma precisão média de 0,77% no conjunto de dados ScienceQA, com latência de treinamento e inferência reduzida, demonstrando a superioridade de nosso framework. O código está disponível em https://github.com/Hao840/ADEM-VL.
Grandes Modelos de Linguagem (LLMs) são considerados ter dificuldades com aprendizado aritmético devido às diferenças inerentes entre modelagem de linguagem e computação numérica, mas a evidência concreta tem sido escassa. Este trabalho responde a essa afirmação por meio de um experimento de duas etapas. Primeiramente, investigamos se os LLMs utilizam produtos parciais durante o aprendizado aritmético. Descobrimos que, embora os LLMs consigam identificar alguns produtos parciais após o aprendizado, eles falham em utilizá-los para tarefas aritméticas, ao contrário. Em seguida, exploramos como os LLMs abordam a aritmética de forma simbólica, dividindo tarefas em subgrupos, hipotetizando que as dificuldades surgem da complexidade e seleção dos subgrupos. Nossos resultados mostram que, quando a complexidade do subgrupo é fixa, os LLMs tratam uma coleção de diferentes operações aritméticas de forma semelhante. Ao analisar a precisão em nível de posição em diferentes tamanhos de treinamento, observamos ainda que segue um padrão em forma de U: os LLMs aprendem rapidamente os padrões mais fáceis nas primeiras e últimas posições, enquanto aprendem progressivamente os padrões mais difíceis nas posições intermediárias. Isso sugere que os LLMs selecionam subgrupos seguindo um paradigma de fácil para difícil durante o aprendizado. Nosso trabalho confirma que os LLMs são aprendizes puramente simbólicos em tarefas aritméticas e destaca a importância de compreendê-los profundamente por meio da quantificação em nível de subgrupo.
A edição de modelos tornou-se uma alternativa cada vez mais popular para atualizar eficientemente o conhecimento dentro dos modelos de linguagem. Os métodos atuais concentram-se principalmente na confiabilidade, generalização e localidade, com muitos métodos se destacando nessas áreas. Alguns trabalhos recentes revelam as armadilhas desses métodos de edição, como distorção ou conflito de conhecimento. No entanto, as habilidades gerais dos modelos de linguagem pós-edição permanecem inexploradas. Neste artigo, realizamos uma avaliação abrangente de vários métodos de edição e diferentes modelos de linguagem, e obtivemos as seguintes descobertas. (1) Os métodos de edição existentes levam a uma inevitável deterioração de desempenho em benchmarks gerais, indicando que os métodos de edição existentes mantêm as habilidades gerais do modelo com apenas algumas dezenas de edições. Quando o número de edições é ligeiramente maior, a estrutura de conhecimento intrínseco do modelo é perturbada ou até mesmo completamente danificada. (2) Modelos ajustados por instrução são mais robustos à edição, mostrando menos queda de desempenho no conhecimento geral após a edição. (3) Modelos de linguagem em grande escala são mais resistentes à edição em comparação com modelos pequenos. (4) A segurança do modelo editado é significativamente enfraquecida, mesmo para aqueles modelos alinhados com a segurança. Nossas descobertas indicam que os métodos de edição atuais são adequados apenas para atualizações de conhecimento em pequena escala dentro dos modelos de linguagem, o que motiva pesquisas adicionais sobre métodos de edição mais práticos e confiáveis. Os detalhes do código e da reprodução podem ser encontrados em https://github.com/lqinfdim/EditingEvaluation.
Neste artigo, fornecemos uma análise detalhada sobre as formulações de problemas matemáticos e as explorações de otimização probabilística para alguns dos componentes-chave no modelo Transformer [33] no campo da IA generativa. Exploramos e discutimos possíveis melhorias adicionais para os métodos atuais de ponta para algumas tecnologias subjacentes-chave de modelos de IA generativa do ponto de vista da otimização algorítmica e probabilística. Em particular, apresentamos uma solução ótima para codificação de subpalavras (SWE) com base em configurações iniciais semelhantes às do algoritmo de codificação de pares de bytes (BPE) em [9] com objetivos semelhantes aos da abordagem WordPiece em [28, 31] para maximizar a probabilidade dos dados de treinamento. Também apresentamos um método de otimização de entropia cruzada para otimizar hiperparâmetros para o modelo word2vec [17]. Além disso, propomos uma combinação fatorada de codificação posicional rotativa (RoPE) [32] e atenção com viés linear (ALiBi) [23] com uma série harmônica. Também apresentamos um método probabilístico FlashAttention [6, 7] (PrFlashAttention) com uma distribuição de probabilidade sobre distâncias de bloco na matriz para decidir qual bloco é provável de participar em uma rodada de cálculo de atenção, mantendo a forma de triângulo inferior do tensor para modelos de linguagem autoregressivos por meio do remodelamento dos tensores. Por fim, apresentamos a quantização adaptativa em escada (SAQ) do cache chave-valor (KV) para atenção multi-query (MQA) com base no framework apresentado em [16] para ter uma degradação gradual na quantização enquanto se alcança qualidade de modelo razoável e economia de custos.
O paradigma dominante para RLHF é o RL online e on-policy: gerando de forma síncrona a partir do grande modelo de linguagem (LLM), rotulando com um modelo de recompensa e aprendendo usando feedback sobre as próprias saídas do LLM. Embora eficaz, esse paradigma é computacionalmente ineficiente. Inspirados na literatura clássica de deep RL, propomos separar a geração e o aprendizado no RLHF. Isso possibilita a geração assíncrona de novas amostras enquanto treinamos simultaneamente em amostras antigas, resultando em um treinamento mais rápido e uma escalabilidade mais otimizada em termos de computação. No entanto, o treinamento assíncrono depende de um regime pouco explorado, o RLHF online mas off-policy: aprendendo em amostras de iterações anteriores do nosso modelo. Para compreender os desafios nesse regime, investigamos uma questão fundamental: até que ponto podemos tolerar a off-policy para acelerar o aprendizado de forma assíncrona, mantendo o desempenho? Entre vários algoritmos de RLHF que testamos, descobrimos que o DPO online é o mais robusto em relação aos dados off-policy, e a robustez aumenta com a escala do modelo de política. Estudamos mais otimizações de computação para RLHF assíncrono, mas observamos que elas implicam em um custo de desempenho, resultando em um trade-off. Por fim, verificamos a escalabilidade do RLHF assíncrono treinando o LLaMA 3.1 8B em uma tarefa de seguir instruções 40% mais rápido do que uma execução síncrona, mantendo o mesmo desempenho final.
A escalonamento de dados revolucionou áreas como processamento de linguagem natural e visão computacional, proporcionando modelos com notáveis capacidades de generalização. Neste artigo, investigamos se leis de escalonamento de dados semelhantes existem na robótica, especialmente na manipulação robótica, e se o escalonamento adequado de dados pode gerar políticas de robô de única tarefa que podem ser implementadas sem treinamento para qualquer objeto dentro da mesma categoria em qualquer ambiente. Para isso, realizamos um estudo empírico abrangente sobre escalonamento de dados em aprendizado por imitação. Ao coletar dados em inúmeros ambientes e objetos, estudamos como o desempenho de generalização de uma política muda com o número de ambientes de treinamento, objetos e demonstrações. Ao longo de nossa pesquisa, coletamos mais de 40.000 demonstrações e executamos mais de 15.000 execuções de robôs do mundo real sob um protocolo de avaliação rigoroso. Nossas descobertas revelam vários resultados intrigantes: o desempenho de generalização da política segue uma relação aproximadamente de lei de potência com o número de ambientes e objetos. A diversidade de ambientes e objetos é muito mais importante do que o número absoluto de demonstrações; uma vez que o número de demonstrações por ambiente ou objeto atinge um certo limite, demonstrações adicionais têm efeito mínimo. Com base nesses insights, propomos uma estratégia eficiente de coleta de dados. Com quatro coletores de dados trabalhando por uma tarde, coletamos dados suficientes para permitir que as políticas para duas tarefas alcancem aproximadamente taxas de sucesso de 90% em ambientes novos com objetos não vistos.
A seleção de dados é crucial para otimizar o desempenho do modelo de linguagem (LM) em tarefas específicas, no entanto, a maioria dos métodos existentes falha em considerar efetivamente a distribuição da tarefa alvo. Abordagens atuais geralmente ignoram completamente os requisitos específicos da tarefa ou dependem de aproximações que não capturam os padrões sutis necessários para tarefas como Autoformalização ou geração de código. Métodos que consideram a distribuição alvo muitas vezes dependem de representações simplistas, por vezes ruidosas, como características de n-grama hash, que podem resultar em colisões e introduzir ruído. Apresentamos o ZIP-FIT, um framework de seleção de dados que utiliza compressão gzip para medir diretamente o alinhamento entre os dados de treinamento potenciais e a distribuição da tarefa alvo. Em avaliações extensas em Autoformalização e geração de código Python, o ZIP-FIT supera significativamente baselines líderes como DSIR e D4. Modelos treinados com dados selecionados pelo ZIP-FIT alcançam sua menor perda de entropia cruzada até 85,1\% mais rapidamente do que os baselines, demonstrando que um melhor alinhamento da tarefa leva a uma aprendizagem mais eficiente. Além disso, o ZIP-FIT realiza a seleção até 65,8\% mais rapidamente do que o DSIR e duas ordens de magnitude mais rápido do que o D4. Notavelmente, o ZIP-FIT mostra que conjuntos de dados menores e bem alinhados frequentemente superam os maiores, mas menos direcionados, demonstrando que uma pequena quantidade de dados de alta qualidade é superior a uma grande quantidade de dados de baixa qualidade. Nossos resultados implicam que a seleção de dados consciente da tarefa é crucial para uma adaptação de domínio eficiente, e que a compressão oferece uma maneira fundamentada de medir o alinhamento da tarefa. Ao mostrar que a seleção de dados direcionada pode melhorar drasticamente o desempenho específico da tarefa, nosso trabalho fornece novas perspectivas sobre a relação entre qualidade dos dados, alinhamento da tarefa e eficiência da aprendizagem do modelo.
Consideramos a amostragem especulativa multi-rascunho, onde as sequências de propostas são amostradas independentemente de diferentes modelos de rascunho. Em cada etapa, um esquema de seleção de rascunho ao nível do token recebe uma lista de tokens válidos como entrada e produz um token de saída cuja distribuição corresponde à do modelo alvo. Trabalhos anteriores demonstraram que o esquema ótimo (que maximiza a probabilidade de aceitar um dos tokens de entrada) pode ser formulado como uma solução para um programa linear. Neste trabalho, mostramos que o esquema ótimo pode ser decomposto em uma solução de dois passos: no primeiro passo, um esquema do tipo amostragem de importância (IS) é utilizado para selecionar um token intermediário; no segundo passo, a amostragem especulativa (de um único rascunho) é aplicada para gerar o token de saída. Para o caso de dois modelos de rascunho idênticos, estabelecemos ainda 1) uma condição necessária e suficiente sobre as distribuições dos modelos alvo e de rascunho para que a probabilidade de aceitação seja igual a um e 2) fornecemos uma expressão explícita para a probabilidade de aceitação ótima. Nossa análise teórica também motiva uma nova classe de esquema de seleção ao nível do token baseado em amostragem de importância ponderada. Nossos resultados experimentais demonstram melhorias consistentes na eficiência de bloco alcançável e nas taxas de token em relação aos esquemas de referência em diversos cenários.
A prova de teoremas assistida por máquina refere-se ao processo de conduzir raciocínio estruturado para gerar automaticamente provas para teoremas matemáticos. Recentemente, houve um aumento de interesse em utilizar modelos de aprendizado de máquina em conjunto com assistentes de prova para realizar essa tarefa. Neste artigo, apresentamos o Pantograph, uma ferramenta que fornece uma interface versátil para o assistente de prova Lean 4 e permite uma busca eficiente de provas por meio de algoritmos de busca poderosos, como a Busca em Árvore de Monte Carlo. Além disso, o Pantograph possibilita o raciocínio em um nível mais alto ao permitir um tratamento mais robusto das etapas de inferência do Lean 4. Fornecemos uma visão geral da arquitetura e das funcionalidades do Pantograph. Também relatamos um caso ilustrativo: utilizando modelos de aprendizado de máquina e esboços de prova para provar teoremas do Lean 4. As funcionalidades inovadoras do Pantograph abrem caminho para modelos de aprendizado de máquina mais avançados realizarem buscas de provas complexas e raciocínio em um nível mais alto, capacitando futuros pesquisadores a projetar provadores de teoremas mais versáteis e poderosos.