HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

14 papers found

Drivel-ologia: Desafiando LLMs na Interpretação de Nonsense com Profundidade
Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

Sep 4

ByYang Wang, Chenghao Xiao, Chia-Yi Hsiao, Zi Yan Chang, Chi-Li Chen, Tyler Loakman, Chenghua Lin

208

Apresentamos a Drivelologia, um fenômeno linguístico único caracterizado como "nonsense com profundidade", enunciados que são sintaticamente coerentes, mas pragmaticamente paradoxais, emocionalmente carregados ou retoricamente subversivos. Embora tais expressões possam se assemelhar a um nonsense superficial, elas codificam significados implícitos que exigem inferência contextual, raciocínio moral ou interpretação emocional. Constatamos que os atuais modelos de linguagem de grande escala (LLMs), apesar de se destacarem em muitas tarefas de processamento de linguagem natural (NLP), consistentemente falham em compreender a semântica em camadas do texto Drivelológico. Para investigar isso, construímos um pequeno, mas diversificado, conjunto de dados de referência com mais de 1.200 exemplos meticulosamente curados, incluindo instâncias selecionadas em inglês, mandarim, espanhol, francês, japonês e coreano. A anotação foi especialmente desafiadora: cada um dos exemplos exigiu uma revisão cuidadosa por especialistas para verificar se realmente refletia as características Drivelológicas. O processo envolveu múltiplas rodadas de discussão e adjudicação para resolver discordâncias, destacando a natureza sutil e subjetiva da Drivelologia. Avaliamos uma variedade de LLMs em tarefas de classificação, geração e raciocínio. Nossos resultados revelam limitações claras dos LLMs: os modelos frequentemente confundem Drivelologia com nonsense superficial, produzem justificativas incoerentes ou perdem completamente a função retórica implícita. Essas descobertas destacam uma lacuna representacional mais profunda na compreensão pragmática dos LLMs e desafiam a suposição de que fluência estatística implica compreensão cognitiva. Disponibilizamos nosso conjunto de dados e código para facilitar pesquisas futuras na modelagem da profundidade linguística além da coerência superficial.

De Editor para Estimador de Geometria Densa
From Editor to Dense Geometry Estimator

Sep 4

ByJiYuan Wang, Chunyu Lin, Lei Sun, Rongying Liu, Lang Nie, Mingxing Li, Kang Liao, Xiangxiang Chu, Yao Zhao

Aproveitar os priors visuais de modelos generativos pré-treinados de texto para imagem (T2I) tem mostrado sucesso em predição densa. No entanto, a predição densa é, por natureza, uma tarefa de imagem para imagem, sugerindo que modelos de edição de imagem, em vez de modelos generativos T2I, podem ser uma base mais adequada para ajuste fino. Motivados por isso, realizamos uma análise sistemática dos comportamentos de ajuste fino tanto de editores quanto de geradores para estimativa de geometria densa. Nossas descobertas mostram que os modelos de edição possuem priors estruturais inerentes, que permitem que eles convirjam de forma mais estável ao "refinar" suas características inatas e, por fim, alcancem um desempenho superior ao de seus equivalentes generativos. Com base nessas descobertas, introduzimos o FE2E, um framework que pioneiramente adapta um modelo de edição avançado baseado na arquitetura Diffusion Transformer (DiT) para predição de geometria densa. Especificamente, para adaptar o editor a essa tarefa determinística, reformulamos a função de perda original de correspondência de fluxo do editor no objetivo de treinamento de "velocidade consistente". Além disso, usamos quantização logarítmica para resolver o conflito de precisão entre o formato nativo BFloat16 do editor e a alta demanda de precisão de nossas tarefas. Adicionalmente, aproveitamos a atenção global do DiT para uma estimativa conjunta de profundidade e normais em uma única passagem, permitindo que seus sinais de supervisão se reforcem mutuamente. Sem aumentar o volume de dados de treinamento, o FE2E alcança melhorias impressionantes de desempenho em estimativa zero-shot de profundidade e normais monoculares em múltiplos conjuntos de dados. Notavelmente, ele alcança ganhos de desempenho superiores a 35% no conjunto de dados ETH3D e supera a série DepthAnything, que é treinada com 100 vezes mais dados. A página do projeto pode ser acessada {aqui} https://amap-ml.github.io/FE2E/.

Em Direção a uma Visão Unificada do Pós-Treinamento de Modelos de Linguagem de Grande Escala
Towards a Unified View of Large Language Model Post-Training

Sep 4

ByXingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou

Existem duas principais fontes de dados de treinamento para o pós-treinamento de modelos de linguagem modernos: dados online (rollouts gerados pelo modelo) e dados offline (demonstrações humanas ou de outros modelos). Esses dois tipos de dados são tipicamente utilizados por abordagens como Aprendizado por Reforço (RL) e Ajuste Fino Supervisionado (SFT), respectivamente. Neste artigo, mostramos que essas abordagens não são contraditórias, mas sim instâncias de um único processo de otimização. Derivamos um Estimador Unificado de Gradiente de Política e apresentamos os cálculos de uma ampla gama de abordagens de pós-treinamento como o gradiente de um objetivo comum sob diferentes suposições de distribuição de dados e vários tradeoffs de viés-variância. O estimador de gradiente é construído com quatro partes intercambiáveis: máscara de estabilização, denominador de política de referência, estimativa de vantagem e gradiente de verossimilhança. Motivados por nossas descobertas teóricas, propomos o Pós-Treinamento Híbrido (HPT), um algoritmo que seleciona dinamicamente diferentes sinais de treinamento. O HPT foi projetado para proporcionar tanto a exploração eficaz de demonstrações quanto a exploração estável, sem sacrificar os padrões de raciocínio aprendidos. Fornecemos experimentos extensivos e estudos de ablação para verificar a eficácia de nossa estrutura teórica unificada e do HPT. Em seis benchmarks de raciocínio matemático e dois conjuntos de dados fora da distribuição, o HPT supera consistentemente baselines robustos em modelos de diversas escalas e famílias.

Inverse IFEval: Os LLMs Podem Desaprender Convenções Persistentes de Treinamento para Seguir Instruções Reais?
Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

Sep 4

ByQinyan Zhang, Xinping Lei, Ruijie Miao, Yu Fu, Haojie Fan, Le Chang, Jiafan Hou, Dingling Zhang, Zhongfei Hou, Ziqiang Yang, Changxin Pu, Fei Hu, Jingkai Liu, Mengyun Liu, Yang Liu, Xiang Gao, Jiaheng Liu, Tong Yang, Zaiyuan Wang, Ge Zhang, Wenhao Huang

Modelos de Linguagem de Grande Escala (LLMs) alcançam um desempenho robusto em diversas tarefas, mas frequentemente exibem inércia cognitiva, lutando para seguir instruções que conflitam com os padrões padronizados aprendidos durante o ajuste fino supervisionado (SFT). Para avaliar essa limitação, propomos o Inverse IFEval, um benchmark que mede a Capacidade Contraintuitiva dos modelos — sua capacidade de superar vieses induzidos pelo treinamento e cumprir instruções adversariais. O Inverse IFEval introduz oito tipos de desafios, incluindo Correção de Perguntas, Falhas Textuais Intencionais, Código sem Comentários e Respostas Contrafactuais. Utilizando um pipeline com intervenção humana, construímos um conjunto de dados de 1012 perguntas de alta qualidade em chinês e inglês, abrangendo 23 domínios, avaliadas sob um framework otimizado de LLM-as-a-Judge. Experimentos com os principais LLMs existentes demonstram a necessidade do nosso benchmark proposto, o Inverse IFEval. Nossas descobertas enfatizam que futuros esforços de alinhamento não devem apenas buscar fluência e correção factual, mas também considerar a adaptabilidade em contextos não convencionais. Esperamos que o Inverse IFEval sirva tanto como uma ferramenta de diagnóstico quanto como uma base para o desenvolvimento de métodos que mitiguem a inércia cognitiva, reduzam o sobreajuste a padrões estreitos e, finalmente, aprimorem a confiabilidade dos LLMs em seguir instruções em cenários reais diversos e imprevisíveis.

DeepResearch Arena: O Primeiro Teste das Habilidades de Pesquisa de LLMs por meio de Tarefas Baseadas em Seminários
DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks

Sep 1

ByHaiyuan Wan, Chen Yang, Junchi Yu, Meiqi Tu, Jiaxuan Lu, Di Yu, Jianbao Cao, Ben Gao, Jiaqing Xie, Aoran Wang, Wenlong Zhang, Philip Torr, Dongzhan Zhou

Agentes de pesquisa profunda têm atraído crescente atenção por seu potencial para orquestrar fluxos de trabalho de pesquisa em múltiplas etapas, abrangendo síntese de literatura, design metodológico e verificação empírica. Apesar desses avanços, avaliar fielmente sua capacidade de pesquisa é bastante desafiador devido à dificuldade de coletar questões de pesquisa de ponta que genuinamente capturam a atenção e a curiosidade intelectual dos pesquisadores. Para abordar essa lacuna, introduzimos o DeepResearch Arena, um benchmark fundamentado em seminários acadêmicos que capturam rico discurso e interação de especialistas, refletindo melhor os ambientes de pesquisa do mundo real e reduzindo o risco de vazamento de dados. Para construir automaticamente o DeepResearch Arena, propomos um sistema de Geração Hierárquica de Tarefas Multi-Agentes (MAHTG) que extrai inspirações dignas de pesquisa a partir de transcrições de seminários. O sistema MAHTG ainda traduz essas inspirações em tarefas de pesquisa de alta qualidade, garantindo a rastreabilidade da formulação das tarefas de pesquisa enquanto filtra ruídos. Com o sistema MAHTG, curamos o DeepResearch Arena com mais de 10.000 tarefas de pesquisa de alta qualidade provenientes de mais de 200 seminários acadêmicos, abrangendo 12 disciplinas, como literatura, história e ciência. Nossa extensa avaliação mostra que o DeepResearch Arena apresenta desafios substanciais para os agentes state-of-the-art atuais, com claras lacunas de desempenho observadas entre diferentes modelos.

NER Retriever: Recuperação de Entidades Nomeadas em Zero-Shot com Embeddings Conscientes do Tipo
NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware Embeddings

Sep 4

ByOr Shachar, Uri Katz, Yoav Goldberg, Oren Glickman

Apresentamos o NER Retriever, uma estrutura de recuperação zero-shot para Recuperação de Entidades Nomeadas (NER) ad-hoc, uma variante do Reconhecimento de Entidades Nomeadas (NER), onde os tipos de interesse não são fornecidos antecipadamente, e uma descrição de tipo definida pelo usuário é usada para recuperar documentos que mencionam entidades desse tipo. Em vez de depender de esquemas fixos ou modelos ajustados, nosso método se baseia em representações internas de modelos de linguagem de grande escala (LLMs) para incorporar tanto menções de entidades quanto descrições de tipo abertas fornecidas pelo usuário em um espaço semântico compartilhado. Mostramos que as representações internas, especificamente os vetores de valor dos blocos intermediários do transformador, codificam informações de tipo de forma mais granular do que os embeddings comumente usados na camada superior. Para refinar essas representações, treinamos uma rede de projeção contrastiva leve que alinha entidades compatíveis com o tipo enquanto separa tipos não relacionados. Os embeddings de entidade resultantes são compactos, conscientes do tipo e bem adequados para busca de vizinhos mais próximos. Avaliado em três benchmarks, o NER Retriever supera significativamente as linhas de base de recuperação lexical e de nível de sentença densa. Nossas descobertas fornecem suporte empírico para a seleção de representações dentro de LLMs e demonstram uma solução prática para recuperação de entidades escalável e sem esquema. O código-fonte do NER Retriever está publicamente disponível em https://github.com/ShacharOr100/ner_retriever.

Modelos de Transição: Repensando o Objetivo de Aprendizado Generativo
Transition Models: Rethinking the Generative Learning Objective

Sep 4

ByZidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai

Um dilema fundamental na modelagem generativa persiste: modelos de difusão iterativa alcançam fidelidade excepcional, mas a um custo computacional significativo, enquanto alternativas eficientes com poucos passos são limitadas por um teto rígido de qualidade. Esse conflito entre passos de geração e qualidade da saída surge de objetivos de treinamento restritivos que focam exclusivamente em dinâmicas infinitesimais (PF-ODEs) ou na predição direta do ponto final. Nós abordamos esse desafio introduzindo uma equação exata de dinâmica em tempo contínuo que define analiticamente transições de estado em qualquer intervalo de tempo finito. Isso leva a um novo paradigma generativo, os Modelos de Transição (TiM), que se adaptam a transições com passos arbitrários, percorrendo de forma contínua a trajetória generativa desde saltos únicos até refinamentos detalhados com mais passos. Apesar de ter apenas 865 milhões de parâmetros, o TiM alcança desempenho de ponta, superando modelos líderes como SD3.5 (8 bilhões de parâmetros) e FLUX.1 (12 bilhões de parâmetros) em todas as contagens de passos avaliadas. Importante destacar que, diferentemente de geradores anteriores com poucos passos, o TiM demonstra melhoria monotônica na qualidade à medida que o orçamento de amostragem aumenta. Além disso, ao empregar nossa estratégia de resolução nativa, o TiM oferece fidelidade excepcional em resoluções de até 4096x4096.

Loong: Sintetizando Cadeias Longas de Pensamento em Escala por meio de Verificadores
Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers

Sep 3

ByXingyue Huang, Rishabh, Gregor Franke, Ziyi Yang, Jiamu Bai, Weijie Bai, Jinhe Bi, Zifeng Ding, Yiqun Duan, Chengyu Fan, Wendong Fan, Xin Gao, Ruohao Guo, Yuan He, Zhuangzhuang He, Xianglong Hu, Neil Johnson, Bowen Li, Fangru Lin, Siyu Lin, Tong Liu, Yunpu Ma, Hao Shen, Hao Sun, Beibei Wang, Fangyijie Wang, Hao Wang, Haoran Wang, Yang Wang, Yifeng Wang, Zhaowei Wang, Ziyang Wang, Yifan Wu, Zikai Xiao, Chengxing Xie, Fan Yang, Junxiao Yang, Qianshuo Ye, Ziyu Ye, Guangtao Zeng, Yuwen Ebony Zhang, Zeyu Zhang, Zihao Zhu, Bernard Ghanem, Philip Torr, Guohao Li

Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) demonstraram que suas capacidades de raciocínio podem ser significativamente aprimoradas por meio de Aprendizado por Reforço com Recompensa Verificável (RLVR), particularmente em domínios como matemática e programação, onde a correção da verdade fundamental pode ser automaticamente avaliada. No entanto, estender esse sucesso para outros domínios intensivos em raciocínio permanece desafiador devido à escassez de conjuntos de dados de alta qualidade e verificáveis e ao alto custo da supervisão humana. Neste trabalho, apresentamos o Projeto Loong: uma estrutura de código aberto para geração e verificação escalável de dados sintéticos em uma ampla gama de domínios intensivos em raciocínio. A estrutura consiste em dois componentes principais: (1) LoongBench, um conjunto de dados semente curado contendo 8.729 exemplos revisados por humanos em 12 domínios (por exemplo, Matemática Avançada, Química, Lógica), cada um emparelhado com código executável e metadados ricos; e (2) LoongEnv, um ambiente modular de geração de dados sintéticos que suporta múltiplas estratégias de prompt para produzir novas triplas de pergunta-resposta-código. Juntos, esses componentes formam um loop agente-ambiente que permite o aprendizado por reforço, onde um agente baseado em LLM é recompensado por gerar soluções de Cadeia de Pensamento (CoT) que estejam alinhadas com respostas executadas por código. Empiricamente, avaliamos o LoongBench em uma ampla gama de LLMs tanto de código aberto quanto proprietários para avaliar a cobertura de domínios e revelar gargalos de desempenho. Além disso, realizamos uma análise abrangente dos dados sintéticos gerados pelo LoongEnv, examinando correção, dificuldade e diversidade. O código e a documentação estão disponíveis em https://github.com/camel-ai/loong.

Video-MTR: Raciocínio Multi-Turn Reforçado para Compreensão de Vídeos Longos
Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding

Aug 28

ByYuan Xie, Tianshui Chen, Zheng Ge, Lionel Ni

A compreensão de vídeos de longa duração, caracterizada por dependências temporais de longo alcance e múltiplos eventos, continua sendo um desafio. Os métodos existentes frequentemente dependem de raciocínio estático ou de modelos visuo-linguísticos (VLMs) externos, que enfrentam problemas como complexidade e desempenho subótimo devido à falta de treinamento de ponta a ponta. Neste artigo, propomos o Video-MTR, um framework de raciocínio multi-turn reforçado projetado para permitir a seleção iterativa de segmentos-chave do vídeo e a compreensão de perguntas. Diferentemente do pipeline tradicional de raciocínio em vídeo, que gera previsões em uma única etapa, o Video-MTR realiza o raciocínio em múltiplas etapas, selecionando segmentos de vídeo progressivamente com base na compreensão evolutiva dos segmentos processados anteriormente e da pergunta atual. Esse processo iterativo permite uma análise mais refinada e contextualmente consciente do vídeo. Para garantir o processo de raciocínio intermediário, introduzimos um novo sistema de recompensa bi-nível com portas, combinando recompensas em nível de trajetória baseadas na correção da resposta e recompensas em nível de etapa que enfatizam a relevância entre quadro e consulta. Esse sistema otimiza tanto a seleção de segmentos de vídeo quanto a compreensão da pergunta, eliminando a necessidade de VLMs externos e permitindo o treinamento de ponta a ponta. Experimentos extensivos em benchmarks como VideoMME, MLVU e EgoSchema demonstram que o Video-MTR supera os métodos existentes tanto em precisão quanto em eficiência, avançando o estado da arte na compreensão de vídeos longos.

Fluxo de Poucos Passos para Geração 3D via Distilação de Transporte de Dados Marginais
Few-step Flow for 3D Generation via Marginal-Data Transport Distillation

Sep 4

ByZanwei Zhou, Taoran Yi, Jiemin Fang, Chen Yang, Lingxi Xie, Xinggang Wang, Wei Shen, Qi Tian

Modelos de geração 3D baseados em fluxo normalmente exigem dezenas de etapas de amostragem durante a inferência. Embora métodos de destilação em poucas etapas, particularmente os Modelos de Consistência (CMs), tenham alcançado avanços significativos na aceleração de modelos de difusão 2D, eles ainda são pouco explorados para tarefas mais complexas de geração 3D. Neste estudo, propomos uma nova estrutura, MDT-dist, para destilação de fluxo 3D em poucas etapas. Nossa abordagem é construída sobre um objetivo principal: destilar o modelo pré-treinado para aprender o Transporte de Dados Marginais. Aprender diretamente esse objetivo requer a integração dos campos de velocidade, enquanto essa integral é intratável de ser implementada. Portanto, propomos dois objetivos otimizáveis, Correspondência de Velocidade (VM) e Destilação de Velocidade (VD), para converter equivalentemente o alvo de otimização do nível de transporte para o nível de velocidade e de distribuição, respectivamente. A Correspondência de Velocidade (VM) aprende a corresponder de forma estável os campos de velocidade entre o aluno e o professor, mas inevitavelmente fornece estimativas de gradiente tendenciosas. A Destilação de Velocidade (VD) aprimora ainda mais o processo de otimização, aproveitando os campos de velocidade aprendidos para realizar a destilação de densidade de probabilidade. Quando avaliado no pioneiro framework de geração 3D TRELLIS, nosso método reduz as etapas de amostragem de cada transformador de fluxo de 25 para 1 ou 2, alcançando latências de 0,68s (1 etapa x 2) e 0,94s (2 etapas x 2) com acelerações de 9,0x e 6,5x no A800, enquanto mantém alta fidelidade visual e geométrica. Experimentos extensivos demonstram que nosso método supera significativamente os métodos de destilação CM existentes e permite que o TRELLIS alcance desempenho superior na geração 3D em poucas etapas.

Durian: Animação de Retratos com Dupla Referência e Transferência de Atributos
Durian: Dual Reference-guided Portrait Animation with Attribute Transfer

Sep 4

ByHyunsoo Cha, Byungjun Kim, Hanbyul Joo

Apresentamos o Durian, o primeiro método para gerar vídeos de animação de retratos com transferência de atributos faciais a partir de uma imagem de referência para um retrato alvo de maneira zero-shot. Para permitir uma transferência de atributos de alta fidelidade e espacialmente consistente entre os quadros, introduzimos redes de referência dupla que injetam características espaciais tanto da imagem do retrato quanto da imagem de atributos no processo de denoising de um modelo de difusão. Treinamos o modelo usando uma formulação de autorreconstrução, na qual dois quadros são amostrados do mesmo vídeo de retrato: um é tratado como referência de atributo e o outro como retrato alvo, e os quadros restantes são reconstruídos condicionados a essas entradas e suas máscaras correspondentes. Para suportar a transferência de atributos com extensão espacial variável, propomos uma estratégia de expansão de máscara usando geração de imagem condicionada por pontos-chave para o treinamento. Além disso, aumentamos ainda mais as imagens de atributos e retratos com transformações espaciais e de nível de aparência para melhorar a robustez ao desalinhamento posicional entre elas. Essas estratégias permitem que o modelo generalize efetivamente em diversos atributos e combinações de referência em cenários reais, apesar de ser treinado sem supervisão explícita de triplas. O Durian alcança desempenho de ponta em animação de retratos com transferência de atributos e, notavelmente, seu design de referência dupla permite a composição de múltiplos atributos em uma única passagem de geração sem treinamento adicional.

Drawing2CAD: Aprendizado Sequência a Sequência para Geração de CAD a partir de Desenhos Vetoriais
Drawing2CAD: Sequence-to-Sequence Learning for CAD Generation from Vector Drawings

Aug 26

ByFeiwei Qin, Shichao Lu, Junhao Hou, Changmiao Wang, Meie Fang, Ligang Liu

A modelagem generativa em Design Assistido por Computador (CAD) está impulsionando inovações significativas em aplicações industriais. Trabalhos recentes mostraram progressos notáveis na criação de modelos sólidos a partir de diversas entradas, como nuvens de pontos, malhas e descrições textuais. No entanto, esses métodos divergem fundamentalmente dos fluxos de trabalho industriais tradicionais que começam com desenhos de engenharia 2D. A geração automática de modelos CAD paramétricos a partir desses desenhos vetoriais 2D permanece pouco explorada, apesar de ser uma etapa crítica no design de engenharia. Para abordar essa lacuna, nossa principal percepção é reformular a geração de CAD como um problema de aprendizado sequência a sequência, onde primitivos vetoriais de desenho informam diretamente a geração de operações CAD paramétricas, preservando a precisão geométrica e a intenção de design ao longo do processo de transformação. Propomos o Drawing2CAD, um framework com três componentes técnicos principais: uma representação de primitivos vetoriais amigável à rede que preserva informações geométricas precisas, uma arquitetura transformer de decodificador duplo que desacopla a geração de tipo de comando e parâmetros enquanto mantém correspondência precisa, e uma função de perda de distribuição de alvo suave que acomoda a flexibilidade inerente nos parâmetros CAD. Para treinar e avaliar o Drawing2CAD, criamos o CAD-VGDrawing, um conjunto de dados de desenhos de engenharia emparelhados com modelos CAD paramétricos, e conduzimos experimentos detalhados para demonstrar a eficácia do nosso método. O código e o conjunto de dados estão disponíveis em https://github.com/lllssc/Drawing2CAD.

Ativações Delta: Uma Representação para Modelos de Linguagem de Grande Escala Ajustados
Delta Activations: A Representation for Finetuned Large Language Models

Sep 4

ByZhiqiu Xu, Amish Sethi, Mayur Naik, Ser-Nam Lim

O sucesso dos poderosos modelos de linguagem de grande escala (LLMs) de código aberto permitiu que a comunidade criasse uma vasta coleção de modelos pós-treinados adaptados a tarefas e domínios específicos. No entanto, navegar e compreender esses modelos continua sendo um desafio devido a metadados inconsistentes e repositórios não estruturados. Apresentamos as Ativações Delta, um método para representar modelos ajustados como embeddings vetoriais, medindo as mudanças em suas ativações internas em relação a um modelo base. Essa representação permite um agrupamento eficaz por domínio e tarefa, revelando estrutura no panorama de modelos. As Ativações Delta também demonstram propriedades desejáveis: são robustas em diferentes configurações de ajuste fino e exibem uma propriedade aditiva quando os conjuntos de dados de ajuste fino são misturados. Além disso, mostramos que as Ativações Delta podem incorporar tarefas por meio de ajuste fino com poucos exemplos e exploramos ainda mais seu uso para seleção e fusão de modelos. Esperamos que as Ativações Delta possam facilitar a prática de reutilizar modelos publicamente disponíveis. O código está disponível em https://github.com/OscarXZQ/delta_activations.

Falsa Sensação de Segurança: Por que a Detecção de Entradas Maliciosas Baseada em Sondagem Falha em Generalizar
False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize

Sep 4

ByCheng Wang, Zeming Wei, Qin Liu, Muhao Chen

Modelos de Linguagem de Grande Escala (LLMs) podem cumprir instruções prejudiciais, levantando sérias preocupações de segurança, apesar de suas capacidades impressionantes. Trabalhos recentes têm utilizado abordagens baseadas em sondagem para estudar a separabilidade de entradas maliciosas e benignas nas representações internas dos LLMs, e pesquisadores propuseram o uso de tais métodos de sondagem para detecção de segurança. Reexaminamos sistematicamente esse paradigma. Motivados pelo fraco desempenho fora da distribuição, levantamos a hipótese de que as sondagens aprendem padrões superficiais em vez de nocividade semântica. Por meio de experimentos controlados, confirmamos essa hipótese e identificamos os padrões específicos aprendidos: padrões instrucionais e palavras-chave. Nossa investigação segue uma abordagem sistemática, progredindo desde a demonstração de desempenho comparável de métodos simples de n-gramas, até experimentos controlados com conjuntos de dados semanticamente limpos, e análise detalhada das dependências de padrões. Esses resultados revelam uma falsa sensação de segurança em torno das abordagens atuais baseadas em sondagem e destacam a necessidade de redesenhar tanto os modelos quanto os protocolos de avaliação, para os quais fornecemos discussões adicionais na esperança de sugerir pesquisas responsáveis nessa direção. Disponibilizamos o projeto em código aberto em https://github.com/WangCheng0116/Why-Probe-Fails.

Loong: Sintetizando Cadeias Longas de Pensamento em Escala por meio de Verificadores
Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers

Sep 3