Artigos de pesquisa em IA selecionados diariamente com traduções
A quantização pós-treinamento é o método principal para lidar com gargalos relacionados à memória na inferência de LLM, mas infelizmente, sofre de degradação significativa de desempenho abaixo de 4 bits de precisão. Uma abordagem alternativa envolve treinar modelos comprimidos diretamente com baixa largura de bits (por exemplo, modelos binários ou ternários). No entanto, o desempenho, dinâmica de treinamento e tendências de escalabilidade de tais modelos ainda não são bem compreendidos. Para abordar essa questão, treinamos e disponibilizamos abertamente o conjunto Spectra LLM, composto por 54 modelos de linguagem variando de 99M a 3.9B parâmetros, treinados em 300B tokens. O Spectra inclui FloatLMs, QuantLMs quantizados pós-treinamento (3, 4, 6 e 8 bits) e LLMs ternários (TriLMs) - nossa arquitetura aprimorada para modelagem de linguagem ternária, que supera significativamente os modelos ternários previamente propostos de um determinado tamanho (em bits), equiparando-se a modelos de meia precisão em escala. Por exemplo, o TriLM 3.9B é (bit a bit) menor que o FloatLM de meia precisão 830M, mas corresponde ao FloatLM de meia precisão 3.9B em avaliações de raciocínio comum e conhecimento. No entanto, o TriLM 3.9B também é tão tóxico e estereotipado quanto o FloatLM 3.9B, um modelo seis vezes maior em tamanho. Além disso, o TriLM 3.9B fica atrás do FloatLM em perplexidade em divisões de validação e corpora baseados na web, mas tem melhor desempenho em conjuntos de dados menos ruidosos como Lambada e PennTreeBank. Para aprimorar a compreensão de modelos de baixa largura de bits, estamos disponibilizando mais de 500 checkpoints intermediários do conjunto Spectra em https://github.com/NolanoOrg/SpectraSuite.
Apresentamos o GoldFinch, um modelo de sequência híbrido Linear Attention/Transformer que utiliza uma nova técnica para gerar de forma eficiente um KV-Cache altamente comprimido e reutilizável em tempo e espaço lineares em relação ao comprimento da sequência. O GoldFinch empilha o nosso novo transformador GOLD em cima de uma versão aprimorada da arquitetura Finch (RWKV-6). Treinamos modelos de classe de até 1.5B de parâmetros das arquiteturas Finch, Llama e GoldFinch, e observamos uma melhoria significativa no desempenho de modelagem em comparação com Finch e Llama. Nossas economias de tamanho de cache aumentam linearmente com a contagem de camadas do modelo, variando de 756 a 2550 vezes menores do que o cache tradicional do transformer para tamanhos comuns, possibilitando a inferência de comprimentos de contexto extremamente grandes mesmo em hardware limitado. Embora a geração autoregressiva tenha complexidade temporal O(n) por token devido à atenção, o cálculo de pré-preenchimento do estado inicial completo do cache para um contexto submetido custa apenas O(1) por token devido ao uso de uma rede neural recorrente (RNN) para gerar esse cache. Disponibilizamos nossos pesos treinados e código de treinamento sob a licença Apache 2.0 para uso comunitário.
Agentes LLM têm demonstrado um desempenho notável em várias aplicações, principalmente devido às suas capacidades avançadas em raciocínio, uso de conhecimento e ferramentas externas, chamada de APIs e execução de ações para interagir com ambientes. Agentes atuais geralmente utilizam um módulo de memória ou um mecanismo de geração aumentada por recuperação (RAG), recuperando conhecimento passado e instâncias com incorporações semelhantes de bases de conhecimento para informar o planejamento e execução de tarefas. No entanto, a dependência de bases de conhecimento não verificadas levanta preocupações significativas sobre sua segurança e confiabilidade. Para descobrir tais vulnerabilidades, propomos uma abordagem inovadora de red teaming, o AgentPoison, o primeiro ataque de backdoor direcionado a agentes LLM genéricos e baseados em RAG, envenenando sua memória de longo prazo ou base de conhecimento RAG. Em particular, formulamos o processo de geração de gatilho como uma otimização restrita para otimizar gatilhos de backdoor mapeando as instâncias acionadas para um espaço de incorporação único, garantindo que sempre que uma instrução do usuário contenha o gatilho de backdoor otimizado, as demonstrações maliciosas sejam recuperadas da memória envenenada ou base de conhecimento com alta probabilidade. Enquanto isso, instruções benignas sem o gatilho ainda manterão o desempenho normal. Ao contrário dos ataques de backdoor convencionais, o AgentPoison não requer treinamento adicional do modelo ou ajuste fino, e o gatilho de backdoor otimizado exibe superior transferibilidade, coerência contextual e furtividade. Experimentos extensos demonstram a eficácia do AgentPoison em atacar três tipos de agentes LLM do mundo real: agente de direção autônoma baseado em RAG, agente de QA intensivo em conhecimento e EHRAgent de saúde. Em cada agente, o AgentPoison alcança uma taxa média de sucesso de ataque superior a 80% com impacto mínimo no desempenho benigno (menos de 1%) com uma taxa de envenenamento inferior a 0,1%.
Os modelos de linguagem multimodais de grande escala (MLLMs) têm demonstrado avanços promissores na compreensão visual e linguística geral. No entanto, a representação de informações multimodais usando MLLMs ainda é amplamente inexplorada. Neste trabalho, introduzimos um novo framework, E5-V, projetado para adaptar MLLMs para alcançar incorporações multimodais universais. Nossas descobertas destacam o potencial significativo dos MLLMs na representação de entradas multimodais em comparação com abordagens anteriores. Ao alavancar MLLMs com prompts, o E5-V preenche efetivamente a lacuna de modalidade entre diferentes tipos de entradas, demonstrando um desempenho sólido em incorporações multimodais mesmo sem ajuste fino. Propomos uma abordagem de treinamento de única modalidade para o E5-V, onde o modelo é treinado exclusivamente em pares de texto. Este método demonstra melhorias significativas em relação ao treinamento multimodal tradicional em pares de imagem-texto, enquanto reduz os custos de treinamento em aproximadamente 95%. Além disso, essa abordagem elimina a necessidade de coleta de dados de treinamento multimodal dispendiosa. Experimentos extensivos em quatro tipos de tarefas demonstram a eficácia do E5-V. Como um modelo multimodal universal, o E5-V não apenas alcança, mas frequentemente supera o desempenho de ponta em cada tarefa, apesar de ser treinado em uma única modalidade.
Os avanços dos grandes modelos de base exigem benchmarks de ampla cobertura, baixo custo e sem contaminação. Apesar da contínua exploração das avaliações de modelos de linguagem, estudos abrangentes sobre a avaliação de Grandes Modelos Multimodais (LMMs) permanecem limitados. Neste trabalho, apresentamos o LMMS-EVAL, um framework de benchmark multimodal unificado e padronizado com mais de 50 tarefas e mais de 10 modelos para promover avaliações transparentes e reproduzíveis. Embora o LMMS-EVAL ofereça cobertura abrangente, observamos que ainda não consegue atingir baixo custo e zero contaminação. Para abordar esse trilema de avaliação, introduzimos o LMMS-EVAL LITE, um kit de ferramentas de avaliação podado que enfatiza tanto a cobertura quanto a eficiência. Além disso, apresentamos o Multimodal LIVEBENCH que utiliza notícias em constante atualização e fóruns online para avaliar as habilidades de generalização dos modelos em ambiente real, apresentando uma abordagem de avaliação de baixo custo e sem contaminação. Em resumo, nosso trabalho destaca a importância de considerar o trilema de avaliação e fornece soluções práticas para navegar entre os compromissos na avaliação de grandes modelos multimodais, abrindo caminho para benchmarking mais eficaz e confiável de LMMs. Disponibilizamos nosso código-fonte e mantemos o leaderboard do LIVEBENCH em https://github.com/EvolvingLMMs-Lab/lmms-eval e https://huggingface.co/spaces/lmms-lab/LiveBench.
À medida que os Modelos de Linguagem de Grande Escala (LLMs) alcançam progressos notáveis na compreensão e geração de linguagem, a eficiência do treinamento tornou-se uma preocupação crítica. Tradicionalmente, os LLMs são treinados para prever o próximo token em uma sequência. Apesar do sucesso do treinamento ao nível do token, ele sofre custos computacionais consideráveis devido à necessidade de processar um número extenso de tokens. Para mitigar esse problema, este artigo introduz o treinamento ao nível de patch para LLMs, que reduz o comprimento da sequência comprimindo vários tokens em um único patch. Durante o treinamento ao nível de patch, alimentamos o modelo de linguagem com sequências mais curtas de patches e o treinamos para prever o próximo patch, processando assim a maioria dos dados de treinamento a um custo computacional significativamente reduzido. Em seguida, o modelo continua o treinamento ao nível de token nos dados de treinamento restantes para se alinhar com o modo de inferência. Experimentos em uma ampla gama de modelos (370M-2.7B parâmetros) demonstram que o treinamento ao nível de patch pode reduzir os custos computacionais gerais para 0,5 vezes, sem comprometer o desempenho do modelo em comparação com o treinamento ao nível de token. Código-fonte: https://github.com/shaochenze/PatchTrain.
Os modelos modernos de síntese de texto para vídeo demonstram a geração coerente e fotorrealística de vídeos complexos a partir de uma descrição de texto. No entanto, a maioria dos modelos existentes carece de controle detalhado sobre o movimento da câmera, o que é crucial para aplicações relacionadas à criação de conteúdo, efeitos visuais e visão 3D. Recentemente, novos métodos demonstram a capacidade de gerar vídeos com poses de câmera controláveis, essas técnicas aproveitam modelos de difusão baseados em U-Net pré-treinados que desvendam explicitamente a geração espacial e temporal. Ainda assim, nenhum método existente permite o controle da câmera para novos modelos de difusão de vídeo baseados em transformer que processam informações espaciais e temporais em conjunto. Aqui, propomos domar transformers de vídeo para controle de câmera 3D usando um mecanismo de condicionamento semelhante ao ControlNet que incorpora embeddings de câmera espaço-temporais com base em coordenadas de Plücker. A abordagem demonstra desempenho de ponta para geração de vídeo controlável após o ajuste fino no conjunto de dados RealEstate10K. Até onde sabemos, nosso trabalho é o primeiro a permitir o controle de câmera para modelos de difusão de vídeo baseados em transformer.
Os avanços mais recentes alcançaram uma experimentação virtual realista (VTON) através do preenchimento localizado de vestuário usando modelos de difusão latente, melhorando significativamente a experiência de compras online dos consumidores. No entanto, as tecnologias VTON existentes negligenciam a necessidade de os comerciantes apresentarem os vestuários de forma abrangente, incluindo controle flexível sobre os vestuários, rostos opcionais, poses e cenários. Para abordar essa questão, definimos uma tarefa de vestimenta virtual (VD) focada em gerar imagens humanas livremente editáveis com vestuários fixos e condições opcionais. Enquanto isso, projetamos um índice abrangente de métrica de afinidade (CAMI) para avaliar a consistência entre as imagens geradas e os vestuários de referência. Em seguida, propomos o IMAGDressing-v1, que incorpora um UNet de vestuário que captura características semânticas do CLIP e características de textura do VAE. Apresentamos um módulo de atenção híbrido, incluindo uma autoatenção congelada e uma interatenção cruzada treinável, para integrar características de vestuário do UNet de vestuário em um UNet de desembaçamento congelado, garantindo que os usuários possam controlar diferentes cenários através de texto. O IMAGDressing-v1 pode ser combinado com outros plugins de extensão, como ControlNet e IP-Adapter, para melhorar a diversidade e controlabilidade das imagens geradas. Além disso, para lidar com a falta de dados, lançamos o conjunto de dados de emparelhamento de vestuário interativo (IGPair), contendo mais de 300.000 pares de roupas e imagens vestidas, e estabelecemos um pipeline padrão para montagem de dados. Experimentos extensivos demonstram que nosso IMAGDressing-v1 alcança desempenho de síntese de imagem humana de última geração sob várias condições controladas. O código e o modelo estarão disponíveis em https://github.com/muzishen/IMAGDressing.
A maioria dos modelos baseados em LLM para compreensão de vídeos atuais consegue processar vídeos em questão de minutos. No entanto, eles enfrentam dificuldades com vídeos longos devido a desafios como "ruído e redundância", bem como restrições de "memória e computação". Neste artigo, apresentamos Goldfish, uma metodologia adaptada para compreender vídeos de comprimentos arbitrários. Também introduzimos o benchmark TVQA-long, especificamente projetado para avaliar as capacidades dos modelos em compreender vídeos longos com perguntas em conteúdo visual e textual. O Goldfish aborda esses desafios com um mecanismo de recuperação eficiente que inicialmente reúne os principais trechos de vídeo relevantes para a instrução antes de fornecer a resposta desejada. Esse design do mecanismo de recuperação permite que o Goldfish processe eficientemente sequências de vídeo arbitrariamente longas, facilitando sua aplicação em contextos como filmes ou séries de televisão. Para facilitar o processo de recuperação, desenvolvemos o MiniGPT4-Video, que gera descrições detalhadas para os trechos de vídeo. Ao abordar a escassez de benchmarks para avaliação de vídeos longos, adaptamos o benchmark de vídeos curtos TVQA para análise de conteúdo estendido, agregando perguntas de episódios inteiros, mudando assim a avaliação de compreensão parcial para compreensão do episódio completo. Alcançamos uma taxa de precisão de 41,78% no benchmark TVQA-long, superando métodos anteriores em 14,94%. Nosso MiniGPT4-Video também demonstra um desempenho excepcional na compreensão de vídeos curtos, superando os métodos existentes de ponta em 3,23%, 2,03%, 16,5% e 23,59% nos benchmarks de vídeos curtos MSVD, MSRVTT, TGIF e TVQA, respectivamente. Esses resultados indicam que nossos modelos apresentam melhorias significativas tanto na compreensão de vídeos longos quanto curtos. Nossos modelos e código estão disponíveis publicamente em https://vision-cair.github.io/Goldfish_website/
O raciocínio complexo é uma habilidade impressionante demonstrada por grandes modelos de linguagem (LLMs). A maioria dos LLMs é habilidosa em raciocínio dedutivo, como a indução de pensamento em cadeia ou o uso iterativo de ferramentas para resolver tarefas desafiadoras passo a passo. Neste artigo, esperamos focar na avaliação e no ensino de LLMs para realizar raciocínio indutivo, ou seja, os LLMs devem inferir regras subjacentes observando exemplos ou transformações sequenciais. No entanto, coletar dados indutivos gerados por humanos em grande escala e diversificados é desafiador. Concentramo-nos na síntese de dados no domínio do código e propomos uma tarefa Case2Code explorando a expressividade e correção dos programas. Especificamente, coletamos um conjunto diversificado de programas executáveis, sintetizamos transformações de entrada e saída para cada programa e forçamos os LLMs a inferir as implementações de código subjacentes com base nos casos de I/O sintéticos. Primeiramente, avaliamos LLMs representativos na tarefa sintetizada Case2Code e demonstramos que a indução de caso para código é desafiadora para LLMs. Em seguida, sintetizamos amostras de treinamento Case2Code em grande escala para treinar LLMs a realizar raciocínio indutivo. Os resultados experimentais mostram que tal treinamento de indução beneficia não apenas o desempenho em Case2Code distribuído, mas também aprimora várias habilidades de codificação dos LLMs treinados, demonstrando o grande potencial de aprendizado de raciocínio indutivo por meio de dados sintéticos.
Enquanto a maioria dos modelos de geração de música usa condicionamento textual ou paramétrico (por exemplo, tempo, harmonia, gênero musical), propomos condicionar um sistema de geração de música baseado em modelos de linguagem com entrada de áudio. Nossa exploração envolve duas estratégias distintas. A primeira estratégia, denominada inversão textual, aproveita um modelo pré-treinado de texto para música para mapear a entrada de áudio para "pseudopalavras" correspondentes no espaço de incorporação textual. Para o segundo modelo, treinamos um modelo de linguagem musical do zero em conjunto com um condicionador de texto e um extrator de características de áudio quantizado. No momento da inferência, podemos misturar condicionamento textual e de áudio e equilibrá-los graças a um novo método de orientação de duplo classificador livre. Realizamos estudos automáticos e humanos que validam nossa abordagem. Vamos disponibilizar o código e fornecer amostras de música em https://musicgenstyle.github.io para mostrar a qualidade do nosso modelo.
A síntese de novas visualizações a partir de coleções de imagens não restritas no ambiente selvagem continua sendo uma tarefa significativa, porém desafiadora, devido a variações fotométricas e oclusores transitórios que complicam a reconstrução precisa da cena. Métodos anteriores abordaram essas questões integrando características de aparência por imagem em campos de radiância neurais (NeRFs). Embora a Splatagem Gaussiana 3D (3DGS) ofereça treinamento mais rápido e renderização em tempo real, adaptá-la para coleções de imagens não restritas é não trivial devido à arquitetura substancialmente diferente. Neste artigo, apresentamos o Splatfacto-W, uma abordagem que integra características de cor neurais gaussianas por Gaussiana e incrustações de aparência por imagem no processo de rasterização, juntamente com um modelo de fundo baseado em harmônicos esféricos para representar aparências fotométricas variadas e melhor descrever os fundos. Nossas principais contribuições incluem modelagem de aparência latente, manipulação eficiente de objetos transitórios e modelagem precisa de fundo. O Splatfacto-W oferece síntese de novas visualizações de alta qualidade e em tempo real com melhor consistência de cena em cenários no ambiente selvagem. Nosso método melhora o Pico de Relação Sinal-Ruído (PSNR) em média 5,3 dB em comparação com o 3DGS, aumenta a velocidade de treinamento em 150 vezes em comparação com métodos baseados em NeRF e alcança uma velocidade de renderização semelhante à do 3DGS. Resultados de vídeo adicionais e código integrado no Nerfstudio estão disponíveis em https://kevinxu02.github.io/splatfactow/.
A manipulação robótica em ambientes com muita desordem continua a ser um desafio significativo devido a oclusões e arranjos complexos de objetos. Desenvolvemos o ThinkGrasp, um sistema de manipulação visão-linguagem pronto para uso que faz uso do raciocínio contextual avançado do GPT-4o para estratégias de manipulação em ambientes com muita desordem. O ThinkGrasp pode identificar e gerar efetivamente poses de agarre para objetos-alvo, mesmo quando estão fortemente obstruídos ou quase invisíveis, utilizando linguagem orientada por objetivos para guiar a remoção de objetos obstrutivos. Esta abordagem descobre progressivamente o objeto-alvo e, por fim, o agarra com poucos passos e uma alta taxa de sucesso. Em experimentos simulados e reais, o ThinkGrasp alcançou uma alta taxa de sucesso e superou significativamente os métodos de ponta em ambientes com muita desordem ou com objetos diversos não vistos, demonstrando fortes capacidades de generalização.
A Interface Gráfica do Usuário (GUI) é como os usuários interagem com aplicativos móveis. Para garantir que funcione corretamente, engenheiros de teste precisam se certificar de que ele funcione conforme o previsto, com base em requisitos de teste geralmente escritos em linguagem natural. Embora os métodos de teste manual amplamente adotados e baseados em scripts sejam eficazes, eles exigem esforço substancial devido ao grande número de páginas de GUI e às iterações rápidas nos aplicativos móveis modernos. Este artigo apresenta o AUITestAgent, a primeira ferramenta de teste de GUI automática e orientada por linguagem natural para aplicativos móveis, capaz de automatizar completamente todo o processo de interação e verificação de funções da GUI. Uma vez que os requisitos de teste geralmente contêm comandos de interação e oráculos de verificação, o AUITestAgent pode extrair interações de GUI dos requisitos de teste por meio de agentes organizados dinamicamente. Em seguida, o AUITestAgent emprega uma estratégia de extração de dados multidimensional para recuperar dados relevantes aos requisitos de teste do rastreamento de interação e realizar a verificação. Experimentos em benchmarks personalizados demonstram que o AUITestAgent supera as ferramentas existentes na qualidade das interações de GUI geradas e alcança uma precisão de verificação de 94%. Além disso, a implantação em campo na Meituan mostrou a usabilidade prática do AUITestAgent, detectando 4 novos bugs funcionais durante 10 testes de regressão em dois meses.
Aproveitando os notáveis avanços em Modelos de Linguagem de Grande Escala (LLMs), há uma iniciativa em crescimento para utilizar os LLMs na navegação robótica com base em instruções. Essa tendência destaca o potencial dos LLMs para generalizar o raciocínio de navegação e a compreensão de linguagens diversas. No entanto, observa-se uma discrepância significativa no desempenho do agente ao integrar LLMs nas tarefas de navegação Visão-e-Linguagem (VLN) em comparação com modelos especializados anteriores. Além disso, a capacidade inerente da linguagem de interpretar e facilitar a comunicação nas interações do agente é frequentemente subutilizada nessas integrações. Neste trabalho, buscamos reduzir a divisão entre modelos especializados em VLN e paradigmas de navegação baseados em LLMs, ao mesmo tempo que mantemos a habilidade interpretativa dos LLMs na geração de raciocínio de navegação linguística. Ao alinhar o conteúdo visual em um LLM congelado, abrangemos a compreensão de observação visual para LLMs e exploramos uma maneira de incorporar LLMs e redes de políticas de navegação para previsões de ações eficazes e raciocínio de navegação. Demonstramos a eficiência de dados dos métodos propostos e eliminamos a lacuna entre agentes baseados em LM e especialistas em VLN de última geração.
Embora os LLMs tenham demonstrado um desempenho impressionante em vários domínios e tarefas, seus problemas de segurança tornaram-se cada vez mais graves. O desaprendizado de máquina (MU) surgiu como uma solução promissora para lidar com esses problemas, removendo a influência de dados indesejados no modelo alvo sem comprometer sua utilidade em outros aspectos. O MU normalmente pressupõe acesso total aos dados de treinamento originais para preservar a utilidade, o que é difícil de alcançar no desaprendizado de LLM. Métodos existentes de desaprendizado de LLM frequentemente pressupõem acesso aos dados mais afetados pelo desaprendizado de dados indesejados. No entanto, essa suposição subestima o entrelaçamento entre várias capacidades de LLM e ignora limitações de acesso a dados devido a várias questões. Além disso, esses métodos de desaprendizado de LLM não consideram suficientemente que solicitações de desaprendizado em cenários do mundo real estão continuamente surgindo. Para superar esses desafios e alcançar um desaprendizado prático de LLM, propomos o framework O3. O framework O3 inclui um detector Out-Of-Distribution (OOD) para medir a similaridade entre dados de entrada e de desaprendizado, e um adaptador ortogonal de baixa patente (LoRA) para desaprender continuamente os dados solicitados. O detector OOD é treinado com uma nova perda de entropia constrastiva e utiliza um mecanismo de pontuação agregado de camada local-global. O LoRA ortogonal alcança o desentrelaçamento de parâmetros entre solicitações contínuas de desaprendizado. Durante a inferência, nosso framework O3 pode decidir de forma inteligente se e em que medida carregar o LoRA de desaprendizado com base nas previsões do detector OOD. Notavelmente, a eficácia do O3 não depende de nenhum dado retido. Realizamos experimentos extensivos com o O3 e métodos de desaprendizado de LLM de última geração em três tarefas e sete conjuntos de dados. Os resultados indicam que o O3 consistentemente alcança o melhor equilíbrio entre eficácia de desaprendizado e preservação de utilidade, especialmente quando enfrenta solicitações contínuas de desaprendizado.
Os modelos de linguagem baseados em chat são projetados para serem úteis, no entanto, não devem atender a todas as solicitações dos usuários. Enquanto a maioria dos trabalhos existentes se concentra principalmente na recusa de consultas "inseguras", afirmamos que o escopo da não conformidade deve ser ampliado. Introduzimos uma taxonomia abrangente de não conformidade contextual descrevendo quando e como os modelos não devem atender às solicitações dos usuários. Nossa taxonomia abrange uma ampla gama de categorias, incluindo solicitações incompletas, não suportadas, indeterminadas e humanizantes (além de solicitações inseguras). Para testar as capacidades de não conformidade dos modelos de linguagem, usamos essa taxonomia para desenvolver uma nova suíte de avaliação com 1000 prompts de não conformidade. Descobrimos que a maioria dos modelos existentes apresenta taxas de conformidade significativamente altas em certas categorias anteriormente pouco estudadas, com modelos como o GPT-4 atendendo incorretamente a até 30% das solicitações. Para abordar essas lacunas, exploramos diferentes estratégias de treinamento usando um conjunto de treinamento de solicitações geradas sinteticamente e respostas não conformes esperadas. Nossos experimentos demonstram que, enquanto o ajuste fino direto de modelos ajustados por instrução pode levar tanto a uma super-recusa quanto a uma queda nas capacidades gerais, o uso de métodos eficientes em parâmetros como adaptadores de baixa classificação ajuda a encontrar um bom equilíbrio entre a não conformidade apropriada e outras capacidades.
Os métodos de Detecção de Erros Gramaticais (GED) dependem fortemente de corpora de erros anotados por humanos. No entanto, essas anotações não estão disponíveis em muitos idiomas de recursos limitados. Neste artigo, investigamos o GED nesse contexto. Aproveitando as capacidades de transferência interlingual de tarefas zero de modelos de linguagem pré-treinados multilíngues, treinamos um modelo usando dados de um conjunto diversificado de idiomas para gerar erros sintéticos em outros idiomas. Esses corpora de erros sintéticos são então utilizados para treinar um modelo GED. Especificamente, propomos um pipeline de ajuste fino em duas etapas, onde o modelo GED é primeiro ajustado fino em dados sintéticos multilíngues dos idiomas-alvo, seguido pelo ajuste fino em corpora GED anotados por humanos dos idiomas de origem. Esta abordagem supera os métodos atuais de GED sem anotação de estado da arte. Também analisamos os erros produzidos pelo nosso método e por outras bases fortes, constatando que nossa abordagem produz erros mais diversos e mais semelhantes aos erros humanos.
Os modelos de geração de vídeo (VGMs) demonstraram a capacidade de sintetizar saídas de alta qualidade. É importante compreender o potencial deles para produzir conteúdo inseguro, como vídeos violentos ou aterrorizantes. Neste trabalho, fornecemos uma compreensão abrangente da geração de vídeo inseguro. Para confirmar a possibilidade de que esses modelos possam de fato gerar vídeos inseguros, escolhemos prompts de geração de conteúdo inseguro coletados do 4chan e do Lexica, e três VGMs SOTA de código aberto para gerar vídeos inseguros. Após filtrar duplicatas e conteúdo mal gerado, criamos um conjunto inicial de 2112 vídeos inseguros a partir de um pool original de 5607 vídeos. Através de análise de clusterização e codificação temática desses vídeos gerados, identificamos 5 categorias de vídeos inseguros: Distorcido/Estranho, Aterrorizante, Pornográfico, Violento/Sangrento e Político. Com a aprovação do IRB, recrutamos participantes online para ajudar a rotular os vídeos gerados. Com base nas anotações enviadas por 403 participantes, identificamos 937 vídeos inseguros do conjunto inicial de vídeos. Com as informações rotuladas e os prompts correspondentes, criamos o primeiro conjunto de dados de vídeos inseguros gerados por VGMs. Estudamos então possíveis mecanismos de defesa para evitar a geração de vídeos inseguros. Os métodos de defesa existentes na geração de imagens focam em filtrar o prompt de entrada ou os resultados de saída. Propomos uma nova abordagem chamada Defesa de Variável Latente (LVD), que atua no processo de amostragem interna do modelo. O LVD pode alcançar uma precisão de defesa de 0,90, reduzindo o tempo e os recursos computacionais em 10x ao amostrar um grande número de prompts inseguros.