HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

17 papers found

PlanilhaLLM: Codificação de Planilhas para Modelos de Linguagem Grandes
SpreadsheetLLM: Encoding Spreadsheets for Large Language Models

Jul 12

ByYuzhang Tian, Jianbo Zhao, Haoyu Dong, Junyu Xiong, Shiyu Xia, Mengyu Zhou, Yun Lin, José Cambronero, Yeye He, Shi Han, Dongmei Zhang

139

As planilhas, com suas extensas grades bidimensionais, vários layouts e diversas opções de formatação, apresentam desafios notáveis para modelos de linguagem grandes (LLMs). Em resposta, introduzimos o SpreadsheetLLM, pioneirizando um método de codificação eficiente projetado para liberar e otimizar a capacidade poderosa de compreensão e raciocínio dos LLMs em planilhas. Inicialmente, propomos uma abordagem de serialização básica que incorpora endereços de células, valores e formatos. No entanto, essa abordagem foi limitada pelas restrições de tokens dos LLMs, tornando-a impraticável para a maioria das aplicações. Para enfrentar esse desafio, desenvolvemos o SheetCompressor, um inovador framework de codificação que comprime planilhas de forma eficaz para os LLMs. Ele é composto por três módulos: compressão baseada em âncoras estruturais, tradução de índice inverso e agregação consciente de formatos de dados. Isso melhora significativamente o desempenho na tarefa de detecção de tabelas de planilha, superando a abordagem básica em 25,6% no cenário de aprendizado em contexto do GPT4. Além disso, o LLM ajustado com o SheetCompressor possui uma razão média de compressão de 25 vezes, mas alcança um score F1 de 78,9%, de última geração, superando os melhores modelos existentes em 12,3%. Por fim, propomos a Cadeia de Planilhas para tarefas subsequentes de compreensão de planilhas e validamos em uma nova e exigente tarefa de QA de planilhas. Aproveitamos metodicamente o layout e a estrutura inerentes das planilhas, demonstrando que o SpreadsheetLLM é altamente eficaz em uma variedade de tarefas de planilha.

Memória Episódica semelhante à Humana para LLMs de Contexto Infinito
Human-like Episodic Memory for Infinite Context LLMs

Jul 12

ByZafeirios Fountas, Martin A Benfeghoul, Adnan Oomerjee, Fenia Christopoulou, Gerasimos Lampouras, Haitham Bou-Ammar, Jun Wang

Os grandes modelos de linguagem (LLMs) têm demonstrado capacidades notáveis, mas ainda têm dificuldades em processar contextos extensos, limitando sua capacidade de manter coerência e precisão em sequências longas. Em contraste, o cérebro humano se destaca na organização e recuperação de experiências episódicas em vastas escalas temporais, abrangendo toda uma vida. Neste trabalho, apresentamos o EM-LLM, uma abordagem inovadora que integra aspectos-chave da memória episódica humana e cognição de eventos nos LLMs, permitindo que lidem efetivamente com comprimentos de contexto praticamente infinitos, mantendo a eficiência computacional. O EM-LLM organiza sequências de tokens em eventos episódicos coerentes usando uma combinação de surpresa bayesiana e refinamento de fronteira teórica de grafos de forma online. Quando necessário, esses eventos são recuperados por meio de um processo de memória em duas etapas, combinando recuperação baseada em similaridade e contiguidade temporal para acesso eficiente e semelhante ao humano a informações relevantes. Experimentos no conjunto de dados LongBench demonstram o desempenho superior do EM-LLM, superando o modelo InfLLM estado-da-arte com uma melhoria relativa geral de 4,3% em várias tarefas, incluindo uma melhoria de 33% na tarefa de Recuperação de Passagens. Além disso, nossa análise revela correlações fortes entre a segmentação de eventos do EM-LLM e eventos percebidos pelos humanos, sugerindo uma ponte entre esse sistema artificial e seu equivalente biológico. Este trabalho não apenas avança as capacidades dos LLMs no processamento de contextos extensos, mas também fornece um arcabouço computacional para explorar mecanismos de memória humana, abrindo novos caminhos para pesquisas interdisciplinares em IA e ciência cognitiva.

Toto: Transformador Otimizado para Séries Temporais para Observabilidade
Toto: Time Series Optimized Transformer for Observability

Jul 10

ByBen Cohen, Emaad Khwaja, Kan Wang, Charles Masson, Elise Ramé, Youssef Doubli, Othmane Abou-Amal

Este relatório técnico descreve o Transformer Otimizado para Séries Temporais para Observabilidade (Toto), um novo modelo de fundação de ponta para previsão de séries temporais desenvolvido pela Datadog. Além de avançar o estado da arte em benchmarks de séries temporais generalizadas em domínios como eletricidade e clima, este modelo é o primeiro modelo de fundação de previsão de séries temporais de propósito geral especificamente ajustado para métricas de observabilidade. Toto foi treinado em um conjunto de dados de um trilhão de pontos de dados de séries temporais, o maior entre todos os modelos de fundação de séries temporais atualmente publicados. Juntamente com conjuntos de dados de séries temporais publicamente disponíveis, 75% dos dados usados para treinar o Toto consistem em pontos de dados numéricos totalmente anônimos da plataforma Datadog. Em nossos experimentos, Toto supera os modelos de fundação de séries temporais existentes em dados de observabilidade. Ele faz isso enquanto também se destaca em tarefas de previsão de propósito geral, alcançando desempenho de ponta em tarefas de zero-shot em múltiplos conjuntos de dados de benchmark abertos.

MUSCLE: Uma Estratégia de Atualização de Modelo para a Evolução Compatível de LLM
MUSCLE: A Model Update Strategy for Compatible LLM Evolution

Jul 12

ByJessica Echterhoff, Fartash Faghri, Raviteja Vemulapalli, Ting-Yao Hu, Chun-Liang Li, Oncel Tuzel, Hadi Pouransari

Os Modelos de Linguagem de Grande Escala (LLMs) são frequentemente atualizados devido a mudanças nos dados ou na arquitetura para melhorar seu desempenho. Ao atualizar os modelos, os desenvolvedores frequentemente concentram-se em aumentar as métricas gerais de desempenho com menos ênfase na compatibilidade com versões anteriores do modelo. No entanto, os usuários frequentemente constroem um modelo mental da funcionalidade e capacidades de um modelo de aprendizado de máquina específico com o qual estão interagindo. Eles precisam adaptar seu modelo mental a cada atualização -- uma tarefa exaustiva que pode levar à insatisfação do usuário. Na prática, os adaptadores de tarefas downstream ajustadas dependem de modelos base LLM pré-treinados. Quando esses modelos base são atualizados, esses modelos de tarefas downstream voltados para o usuário experimentam regressão de instância ou inversões negativas -- instâncias anteriormente corretas agora são previstas incorretamente. Isso ocorre mesmo quando os procedimentos de treinamento da tarefa downstream permanecem idênticos. Nosso trabalho tem como objetivo fornecer atualizações de modelo contínuas a um usuário de duas maneiras. Primeiramente, fornecemos métricas de avaliação para uma noção de compatibilidade com versões anteriores do modelo, especificamente para tarefas generativas, mas também aplicáveis a tarefas discriminativas. Observamos regressão e inconsistências entre diferentes versões de modelos em um conjunto diversificado de tarefas e atualizações de modelos. Em segundo lugar, propomos uma estratégia de treinamento para minimizar o número de inconsistências nas atualizações de modelos, envolvendo o treinamento de um modelo de compatibilidade que pode aprimorar os modelos de linguagem ajustados para tarefas. Reduzimos as inversões negativas -- instâncias em que uma versão anterior do modelo estava correta, mas um novo modelo está incorreto -- em até 40% do Llama 1 para o Llama 2.

Modelo de Cirurgia: Modulando o Comportamento do LLM Através da Edição Simples de Parâmetros
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing

Jul 11

ByHuanqian Wang, Yang Yue, Rui Lu, Jingxin Shi, Andrew Zhao, Shenzhi Wang, Shiji Song, Gao Huang

Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado um grande potencial como assistentes generalistas, exibindo poderosas capacidades de compreensão de tarefas e resolução de problemas. Para implantar os LLMs como assistentes de IA, é crucial que esses modelos demonstrem traços comportamentais desejáveis, como não toxicidade e resistência contra tentativas de violação. Os métodos atuais para desintoxicação ou prevenção de violações geralmente envolvem o Ajuste Fino Supervisionado (SFT) ou Aprendizado por Reforço a partir do Feedback Humano (RLHF), que requerem o ajuste fino de bilhões de parâmetros por meio de descida de gradiente com um custo computacional substancial. Além disso, modelos modificados por SFT e RLHF podem se desviar dos modelos pré-treinados, potencialmente levando a uma degradação nas capacidades fundamentais dos LLMs. Neste artigo, observamos que, surpreendentemente, editar diretamente um pequeno subconjunto de parâmetros pode modular de forma eficaz comportamentos específicos dos LLMs, como desintoxicação e resistência a violações. Especificamente, para um comportamento que pretendemos evitar, empregamos um classificador linear, que denominamos de sonda de comportamento, para classificar rótulos de comportamento binários dentro do espaço de estado oculto do LLM. Usando essa sonda, introduzimos um algoritmo para identificar um subconjunto crítico de parâmetros do LLM que influenciam significativamente esse comportamento-alvo. Em seguida, editamos diretamente esses parâmetros selecionados deslocando-os em direção à sonda de comportamento. Tal método de edição direta de parâmetros requer apenas recursos computacionais de nível de inferência. Experimentos demonstram que na tarefa representativa de desintoxicação, nossa abordagem alcança reduções de até 90,0\% na toxicidade no conjunto de dados RealToxicityPrompts e 49,2\% no ToxiGen, mantendo as capacidades gerais do LLM em áreas como senso comum, resposta a perguntas e matemática. Nosso código está disponível em https://github.com/lucywang720/model-surgery.

Relatório Técnico H2O-Danube3
H2O-Danube3 Technical Report

Jul 12

ByPascal Pfeiffer, Philipp Singer, Yauhen Babakhin, Gabor Fodor, Nischay Dhankhar, Sri Satish Ambati

Apresentamos o H2O-Danube3, uma série de pequenos modelos de linguagem composta por H2O-Danube3-4B, treinado em 6T tokens e H2O-Danube3-500M, treinado em 4T tokens. Nossos modelos são pré-treinados em dados da Web de alta qualidade, consistindo principalmente de tokens em inglês, em três etapas com diferentes combinações de dados antes do ajuste supervisionado final para a versão de chat. Os modelos apresentam métricas altamente competitivas em uma variedade de benchmarks acadêmicos, de chat e de ajuste fino. Graças à sua arquitetura compacta, o H2O-Danube3 pode ser executado de forma eficiente em um smartphone moderno, possibilitando inferência local e capacidades de processamento rápido mesmo em dispositivos móveis. Disponibilizamos todos os modelos abertamente sob a licença Apache 2.0, democratizando ainda mais os LLMs para um público mais amplo economicamente.

GAVEL: Gerando Jogos por Meio de Evolução e Modelos de Linguagem
GAVEL: Generating Games Via Evolution and Language Models

Jul 12

ByGraham Todd, Alexander Padula, Matthew Stephenson, Éric Piette, Dennis J. N. J. Soemers, Julian Togelius

Gerar automaticamente jogos novos e interessantes é uma tarefa complexa. Os desafios incluem representar as regras do jogo em uma forma computacionalmente viável, buscar através do amplo espaço de jogos potenciais sob a maioria dessas representações e avaliar com precisão a originalidade e qualidade de jogos previamente não vistos. Trabalhos anteriores na geração automatizada de jogos têm se concentrado principalmente em representações de regras relativamente restritas e dependido de heurísticas específicas do domínio. Neste trabalho, exploramos a geração de jogos novos no comparativamente expansivo idioma de descrição de jogos Ludii, que codifica as regras de mais de 1000 jogos de tabuleiro em uma variedade de estilos e modos de jogo. Nos inspiramos nos avanços recentes em grandes modelos de linguagem e computação evolutiva para treinar um modelo que muta e recombinar inteligentemente jogos e mecânicas expressas como código. Demonstramos tanto quantitativa quanto qualitativamente que nossa abordagem é capaz de gerar jogos novos e interessantes, incluindo em regiões do espaço de regras potenciais não cobertas por jogos existentes no conjunto de dados Ludii. Uma amostra dos jogos gerados está disponível para jogar online através do portal Ludii.

Camadas de Transformador como Pintores
Transformer Layers as Painters

Jul 12

ByQi Sun, Marc Pickett, Aakash Kumar Nain, Llion Jones

Apesar da sua adoção quase universal para grandes modelos de linguagem, os mecanismos internos dos transformadores não são bem compreendidos. Nosso objetivo é compreender melhor o impacto da remoção ou reorganização de informações ao longo das camadas de um transformador pré-treinado. Tal compreensão poderia resultar em um melhor uso dos modelos existentes, bem como em melhorias arquiteturais para produzir novas variantes. Apresentamos uma série de estudos empíricos em modelos congelados que mostram que as camadas inferiores e finais dos transformadores pré-treinados diferem das camadas intermediárias, mas que as camadas intermediárias têm uma quantidade surpreendente de uniformidade. Mostramos ainda que algumas classes de problemas têm robustez para pular camadas, executar as camadas em uma ordem diferente daquela em que foram treinadas, ou executar as camadas em paralelo. Nossas observações sugerem que mesmo modelos pré-treinados congelados podem trocar com elegância precisão por latência ao pular camadas ou executar as camadas em paralelo.

StyleSplat: Transferência de Estilo de Objetos 3D com Espalhamento Gaussiano
StyleSplat: 3D Object Style Transfer with Gaussian Splatting

Jul 12

BySahil Jain, Avik Kuthiala, Prabhdeep Singh Sethi, Prakanshul Saxena

Avanços recentes em campos de radiância abriram novas possibilidades para criar ativos e cenas 3D de alta qualidade. A transferência de estilo pode aprimorar esses ativos 3D com diversos estilos artísticos, transformando a expressão criativa. No entanto, as técnicas existentes frequentemente são lentas ou incapazes de localizar a transferência de estilo para objetos específicos. Apresentamos o StyleSplat, um método leve para estilizar objetos 3D em cenas representadas por Gaussianas 3D a partir de imagens de estilo de referência. Nossa abordagem primeiro aprende uma representação fotorrealista da cena usando splatting gaussiano 3D enquanto segmenta individualmente objetos 3D. Em seguida, utilizamos uma perda de correspondência de características de vizinho mais próximo para refinar as Gaussianas dos objetos selecionados, alinhando seus coeficientes harmônicos esféricos com a imagem de estilo para garantir consistência e apelo visual. O StyleSplat permite uma transferência de estilo rápida e personalizável, estilização localizada de múltiplos objetos dentro de uma cena, cada um com um estilo diferente. Demonstramos sua eficácia em várias cenas 3D e estilos, exibindo controle aprimorado e personalização na criação 3D.

SPIQA: Um Conjunto de Dados para Resposta a Perguntas Multimodais em Artigos Científicos
SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

Jul 12

ByShraman Pramanick, Rama Chellappa, Subhashini Venugopalan

A busca por respostas a perguntas em longos artigos científicos é uma área crucial de estudo que auxilia os leitores a abordarem rapidamente suas dúvidas. No entanto, os conjuntos de dados de perguntas e respostas (QA) existentes baseados em artigos científicos são limitados em escala e focam exclusivamente no conteúdo textual. Para lidar com essa limitação, apresentamos o SPIQA (Scientific Paper Image Question Answering), o primeiro conjunto de dados QA em larga escala especificamente projetado para interpretar figuras e tabelas complexas no contexto de artigos de pesquisa científica em várias áreas da ciência da computação. Aproveitando a amplitude de conhecimento e capacidade dos modelos de linguagem multilíngue multimodais (MLLMs) para entender figuras, empregamos curadoria automática e manual para criar o conjunto de dados. Criamos uma tarefa de busca de informações envolvendo múltiplas imagens que abrangem uma ampla variedade de gráficos, tabelas, diagramas esquemáticos e visualizações de resultados. O SPIQA é composto por 270 mil perguntas divididas em conjuntos de treinamento, validação e três divisões de avaliação diferentes. Através de experimentos extensivos com 12 modelos fundamentais proeminentes, avaliamos a capacidade dos sistemas multimodais atuais de compreender os aspectos sutis dos artigos de pesquisa. Além disso, propomos uma estratégia de avaliação Chain-of-Thought (CoT) com recuperação no contexto que permite uma avaliação detalhada e passo a passo, melhorando o desempenho do modelo. Exploramos ainda os limites superiores do aprimoramento de desempenho com informações textuais adicionais, destacando seu potencial promissor para pesquisas futuras e o impacto do conjunto de dados na revolução da forma como interagimos com a literatura científica.

Novas Desiderata para Otimização Direta de Preferências
New Desiderata for Direct Preference Optimization

Jul 12

ByXiangkun Hu, Tong He, David Wipf

No passado, os grandes modelos de linguagem geralmente dependiam de alguma forma de aprendizado por reforço com feedback humano (ARFH) para alinhar melhor as respostas do modelo com as preferências humanas. No entanto, devido às instabilidades frequentemente observadas ao implementar esses pipelines de ARFH, várias técnicas de reparametrização foram recentemente introduzidas para contornar a necessidade de aprender separadamente um modelo de recompensa de AR. Em vez disso, o ajuste direto para as preferências humanas é alcançado por meio da minimização de um único objetivo de treinamento em forma fechada, um processo originalmente denominado otimização direta de preferência (ODP) e seguido por vários descendentes notáveis. Embora eficaz em certos cenários do mundo real, introduzimos novos critérios de avaliação que destacam deficiências não resolvidas na capacidade dos métodos de ODP existentes de interpolar entre um modelo de referência pré-treinado e medidas empíricas de preferências humanas, bem como compensações inevitáveis na forma como respostas de baixa e alta qualidade são regularizadas e como as restrições são tratadas. Nossas percepções então motivam uma perda semelhante à ODP alternativa que mitiga comprovadamente essas limitações. Resultados empíricos servem para corroborar aspectos notáveis de nossas análises.

Caracterização de Métodos de Compressão de Prompt para Inferência de Contexto Longo
Characterizing Prompt Compression Methods for Long Context Inference

Jul 11

BySiddharth Jha, Lutfi Eren Erdogan, Sehoon Kim, Kurt Keutzer, Amir Gholami

A inferência de contexto longo apresenta desafios no nível do sistema com requisitos aumentados de computação e memória, bem como do ponto de vista da precisão em ser capaz de raciocinar sobre contextos longos. Recentemente, vários métodos foram propostos para comprimir o prompt a fim de reduzir o comprimento do contexto. No entanto, houve pouco trabalho comparando os diferentes métodos propostos em diferentes tarefas por meio de uma análise padronizada. Isso tem levado a resultados conflitantes. Para abordar isso, aqui realizamos uma caracterização e avaliação abrangentes de diferentes métodos de compressão de prompt. Em particular, analisamos métodos de compressão extrativa, compressão abstrativa baseada em sumarização e métodos de poda de tokens. Surpreendentemente, descobrimos que a compressão extrativa frequentemente supera todas as outras abordagens e permite uma compressão de até 10 vezes com degradação mínima da precisão. Curiosamente, também descobrimos que, apesar de várias alegações recentes, os métodos de poda de tokens frequentemente ficam atrás da compressão extrativa. Encontramos apenas melhorias marginais em tarefas de sumarização.

Serpente de Fala: Examinando o Desempenho e Eficiência da Mamba para Separação, Reconhecimento e Síntese de Fala
Speech Slytherin: Examining the Performance and Efficiency of Mamba for Speech Separation, Recognition, and Synthesis

Jul 13

ByXilin Jiang, Yinghao Aaron Li, Adrian Nicolas Florea, Cong Han, Nima Mesgarani

É muito cedo para concluir que Mamba é uma alternativa melhor aos transformers para fala antes de comparar Mamba com transformers em termos de desempenho e eficiência em várias tarefas relacionadas à fala. Para chegar a essa conclusão, propomos e avaliamos três modelos para três tarefas: Mamba-TasNet para separação de fala, ConMamba para reconhecimento de fala e VALL-M para síntese de fala. Os comparamos com transformers de tamanhos similares em desempenho, memória e velocidade. Nossos modelos híbridos Mamba ou Mamba-transformer mostram desempenho comparável ou superior aos seus equivalentes transformers: Sepformer, Conformer e VALL-E. Eles são mais eficientes que os transformers em memória e velocidade para fala com duração superior a um limite, inversamente relacionado à resolução de um token de fala. Mamba para separação é o mais eficiente, e Mamba para reconhecimento é o menos eficiente. Além disso, demonstramos que Mamba não é mais eficiente que o transformer para fala com duração inferior ao limite e tem desempenho inferior em modelos que requerem modelagem conjunta de texto e fala, como atenção cruzada ou mascarada de duas entradas. Portanto, argumentamos que a superioridade de Mamba ou transformer depende de problemas e modelos específicos. Código disponível em https://github.com/xi-j/Mamba-TasNet e https://github.com/xi-j/Mamba-ASR.

TCAN: Animação de Imagens Humanas com Orientação de Pose Temporalmente Consistente usando Modelos de Difusão
TCAN: Animating Human Images with Temporally Consistent Pose Guidance using Diffusion Models

Jul 12

ByJeongho Kim, Min-Jung Kim, Junsoo Lee, Jaegul Choo

Os modelos de difusão de animação de imagem humana impulsionados por pose têm demonstrado capacidades notáveis na síntese realista de vídeos humanos. Apesar dos resultados promissores alcançados por abordagens anteriores, desafios persistem na obtenção de animações temporalmente consistentes e na garantia de robustez com detectores de pose prontos para uso. Neste artigo, apresentamos o TCAN, um método de animação de imagem humana impulsionado por pose que é robusto a poses errôneas e consistente ao longo do tempo. Em contraste com métodos anteriores, utilizamos o ControlNet pré-treinado sem ajuste fino para aproveitar seu extenso conhecimento pré-adquirido a partir de inúmeras duplas de pose-imagem-legenda. Para manter o ControlNet congelado, adaptamos o LoRA às camadas UNet, permitindo que a rede alinhe o espaço latente entre as características de pose e aparência. Adicionalmente, ao introduzir uma camada temporal adicional ao ControlNet, aprimoramos a robustez contra outliers do detector de pose. Através da análise de mapas de atenção ao longo do eixo temporal, também projetamos um novo mapa de temperatura aproveitando informações de pose, permitindo um plano de fundo mais estático. Experimentos extensivos demonstram que o método proposto pode alcançar resultados promissores em tarefas de síntese de vídeo abrangendo várias poses, como chibi. Página do Projeto: https://eccv2024tcan.github.io/

Compreensão da Robustez de Recuperação para Legendagem de Imagens Aprimorada por Recuperação
Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning

Jun 4

ByWenyan Li, Jiaang Li, Rita Ramos, Raphael Tang, Desmond Elliott

Os avanços recentes em modelos de recuperação aprimorados para legendagem de imagens destacam o benefício de recuperar legendas relacionadas para modelos eficientes e leves com fortes capacidades de transferência de domínio. Embora esses modelos demonstrem o sucesso do aprimoramento por recuperação, os modelos de recuperação ainda estão longe da perfeição na prática: as informações recuperadas às vezes podem induzir o modelo ao erro, resultando em geração incorreta e desempenho inferior. Neste artigo, analisamos a robustez de um modelo de legendagem aprimorado por recuperação chamado SmallCap. Nossa análise mostra que o modelo é sensível a tokens que aparecem na maioria das legendas recuperadas, e a atribuição de entrada mostra que esses tokens provavelmente são copiados para a saída gerada. Diante dessas descobertas, propomos treinar o modelo amostrando legendas recuperadas de conjuntos mais diversos. Isso reduz a chance de o modelo aprender a copiar tokens majoritários e melhora tanto o desempenho em domínio quanto em transferência de domínio.

Recuse-se Sempre que se Sentir Inseguro: Melhorando a Segurança em Modelos de Linguagem com Aprendizado de Recusa Desacoplado
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training

Jul 12

ByYouliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Jiahao Xu, Tian Liang, Pinjia He, Zhaopeng Tu

Este estudo aborda uma lacuna crítica nas práticas de ajuste de segurança para Modelos de Linguagem de Grande Escala (LLMs) ao identificar e lidar com um viés de recusa dentro dos dados de ajuste de segurança, comprometendo a capacidade dos modelos de recusar adequadamente a geração de conteúdo inseguro. Introduzimos uma abordagem inovadora, Treinamento de Recusa Desacoplado (DeRTa), projetada para capacitar os LLMs a recusar conformidade com prompts prejudiciais em qualquer posição de resposta, melhorando significativamente suas capacidades de segurança. DeRTa incorpora dois componentes inovadores: (1) Estimação de Máxima Verossimilhança (MLE) com Prefixo de Resposta Prejudicial, que treina os modelos para reconhecer e evitar conteúdo inseguro anexando um segmento de resposta prejudicial ao início de uma resposta segura, e (2) Otimização de Transição Reforçada (RTO), que capacita os modelos com a habilidade de transitar de potencial dano para recusa de segurança de forma consistente ao longo da sequência de resposta prejudicial. Nossa avaliação empírica, realizada usando as famílias de modelos LLaMA3 e Mistral em seis cenários de ataque, demonstra que nosso método não apenas melhora a segurança do modelo sem comprometer o desempenho, mas também supera modelos conhecidos como o GPT-4 na defesa contra ataques. Importante ressaltar que nossa abordagem defende com sucesso métodos de ataque avançados recentes (por exemplo, CodeAttack) que conseguiram burlar o GPT-4 e o LLaMA3-70B-Instruct. Nosso código e dados podem ser encontrados em https://github.com/RobustNLP/DeRTa.

RRM: Ativos reluzentes usando Extração de Material guiada por Radiância
RRM: Relightable assets using Radiance guided Material extraction

Jul 8

ByDiego Gomez, Julien Philip, Adrien Kaiser, Élie Michel

A síntese de NeRFs sob iluminação arbitrária tornou-se um problema seminal nos últimos anos. Esforços recentes abordam o problema por meio da extração de parâmetros baseados em física que podem então ser renderizados sob iluminação arbitrária, mas eles são limitados na variedade de cenas que podem lidar, geralmente lidando mal com cenas brilhantes. Propomos RRM, um método que pode extrair os materiais, geometria e iluminação do ambiente de uma cena mesmo na presença de objetos altamente reflexivos. Nosso método consiste em uma representação de campo de radiância fisicamente consciente que informa parâmetros baseados em física, e uma estrutura de luz de ambiente expressiva baseada em uma Pirâmide Laplaciana. Demonstramos que nossas contribuições superam o estado da arte em tarefas de recuperação de parâmetros, levando a uma reluzência de alta fidelidade e síntese de novas visualizações em cenas superficiais.

Modelo de Cirurgia: Modulando o Comportamento do LLM Através da Edição Simples de Parâmetros
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing

Jul 11

ByHuanqian Wang, Yang Yue, Rui Lu, Jingxin Shi, Andrew Zhao, Shenzhi Wang, Shiji Song, Gao Huang