HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

30 papers found

DeepSeek-Coder-V2: Rompendo a Barreira dos Modelos de Código Fechado em Inteligência de Código
DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

Jun 17

ByDeepSeek-AI, Qihao Zhu, Daya Guo, Zhihong Shao, Dejian Yang, Peiyi Wang, Runxin Xu, Y. Wu, Yukun Li, Huazuo Gao, Shirong Ma, Wangding Zeng, Xiao Bi, Zihui Gu, Hanwei Xu, Damai Dai, Kai Dong, Liyue Zhang, Yishi Piao, Zhibin Gou, Zhenda Xie, Zhewen Hao, Bingxuan Wang, Junxiao Song, Deli Chen, Xin Xie, Kang Guan, Yuxiang You, Aixin Liu, Qiushi Du, Wenjun Gao, Xuan Lu, Qinyu Chen, Yaohui Wang, Chengqi Deng, Jiashi Li, Chenggang Zhao, Chong Ruan, Fuli Luo, Wenfeng Liang

Apresentamos o DeepSeek-Coder-V2, um modelo de linguagem de código de Mistura de Especialistas (MoE) de código aberto que alcança desempenho comparável ao GPT4-Turbo em tarefas específicas de código. Especificamente, o DeepSeek-Coder-V2 é pré-treinado adicionalmente a partir de um ponto de verificação intermediário do DeepSeek-V2 com mais 6 trilhões de tokens. Por meio desse pré-treinamento contínuo, o DeepSeek-Coder-V2 aprimora substancialmente as capacidades de codificação e raciocínio matemático do DeepSeek-V2, mantendo desempenho comparável em tarefas gerais de linguagem. Em comparação com o DeepSeek-Coder-33B, o DeepSeek-Coder-V2 demonstra avanços significativos em vários aspectos de tarefas relacionadas a código, bem como em raciocínio e capacidades gerais. Além disso, o DeepSeek-Coder-V2 amplia seu suporte para linguagens de programação de 86 para 338, enquanto estende o comprimento de contexto de 16K para 128K. Em avaliações de benchmarks padrão, o DeepSeek-Coder-V2 alcança desempenho superior em comparação com modelos de código fechado, como GPT4-Turbo, Claude 3 Opus e Gemini 1.5 Pro, em benchmarks de codificação e matemática.

Depth Anywhere: Aprimorando a Estimação de Profundidade Monocular 360° via Distilação de Perspectiva e Aumento de Dados Não Rotulados
Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation

Jun 18

ByNing-Hsu Wang, Yu-Lun Liu

A estimativa precisa de profundidade em imagens de 360 graus é crucial para aplicações de realidade virtual, navegação autônoma e mídia imersiva. Os métodos existentes de estimativa de profundidade projetados para imagens de perspectiva falham quando aplicados a imagens de 360 graus devido a diferentes projeções de câmera e distorções, enquanto os métodos específicos para 360 graus têm desempenho inferior devido à falta de pares de dados rotulados. Propomos um novo framework de estimativa de profundidade que utiliza efetivamente dados não rotulados de 360 graus. Nossa abordagem emprega modelos de estimativa de profundidade de perspectiva de última geração como modelos professores para gerar rótulos pseudo-supervisionados por meio de uma técnica de projeção cúbica de seis faces, permitindo a rotulação eficiente de profundidade em imagens de 360 graus. Esse método aproveita a crescente disponibilidade de grandes conjuntos de dados. Nossa abordagem inclui duas etapas principais: geração offline de máscaras para regiões inválidas e um regime de treinamento conjunto semi-supervisionado online. Testamos nossa abordagem em conjuntos de dados de referência, como Matterport3D e Stanford2D3D, mostrando melhorias significativas na precisão da estimativa de profundidade, especialmente em cenários zero-shot. Nosso pipeline de treinamento proposto pode aprimorar qualquer estimador de profundidade monocular de 360 graus e demonstra uma transferência eficaz de conhecimento entre diferentes projeções de câmera e tipos de dados. Veja os resultados em nossa página do projeto: https://albert100121.github.io/Depth-Anywhere/

Modelos de Linguagem Bootstrapping com Recompensas Implícitas de DPO
Bootstrapping Language Models with DPO Implicit Rewards

Jun 14

ByChangyu Chen, Zichen Liu, Chao Du, Tianyu Pang, Qian Liu, Arunesh Sinha, Pradeep Varakantham, Min Lin

O alinhamento humano em modelos de linguagem de grande escala (LLMs) é uma área ativa de pesquisa. Um trabalho recente e revolucionário, a otimização direta de preferências (DPO), simplificou significativamente o processo em relação a trabalhos anteriores em aprendizado por reforço com feedback humano (RLHF), ao contornar a etapa de aprendizado de recompensa no RLHF. Após o treinamento, a DPO fornece um modelo de recompensa implícito. Neste trabalho, fazemos uma observação inédita de que esse modelo de recompensa implícito pode, por si só, ser usado de forma iterativa para alinhar ainda mais o LLM. Nossa abordagem consiste em utilizar as recompensas de um modelo LLM atual para construir um conjunto de dados de preferências, que é então usado em rodadas subsequentes de DPO. Incorporamos refinamentos que reduzem o viés no comprimento das respostas e melhoram a qualidade do conjunto de dados de preferências para aprimorar ainda mais nossa abordagem. Nossa abordagem, denominada autoalinhamento com recompensas implícitas da DPO (DICE), mostra grandes melhorias no alinhamento e alcança desempenho superior ao Gemini Pro no AlpacaEval 2, atingindo uma taxa de vitória controlada por comprimento de 27,55% em relação ao GPT-4 Turbo, mas com apenas 8 bilhões de parâmetros e sem feedback externo. Nosso código está disponível em https://github.com/sail-sg/dice.

TroL: Travessia de Camadas para Modelos de Linguagem e Visão de Grande Escala
TroL: Traversal of Layers for Large Language and Vision Models

Jun 18

ByByung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro

Modelos grandes de linguagem e visão (LLVMs, na sigla em inglês) têm sido impulsionados pelo poder de generalização dos modelos grandes de linguagem (LLMs) e pelo surgimento do ajuste fino por instruções visuais. Além de escaloná-los diretamente, esses modelos permitem que os LLVMs demonstrem desempenhos poderosos em tarefas de linguagem visual (VL) ao cobrir diversas tarefas por meio de instruções em linguagem natural. No entanto, os LLVMs de código aberto existentes que têm desempenho comparável aos LLVMs de código fechado, como o GPT-4V, são frequentemente considerados muito grandes (por exemplo, com 26B, 34B e 110B de parâmetros), possuindo um número maior de camadas. Esses modelos grandes demandam recursos de alto custo e alta performance tanto para treinamento quanto para inferência. Para abordar esse problema, apresentamos uma nova família eficiente de LLVMs com tamanhos de modelo LLM de 1,8B, 3,8B e 7B, chamada Traversal of Layers (TroL), que permite a reutilização de camadas de maneira token-wise. Essa técnica de travessia de camadas simula o efeito de revisitar e retraçar o fluxo de respostas, aumentando o número de camadas de propagação direta sem adicionar fisicamente mais camadas. Demonstramos que o TroL emprega uma abordagem simples de travessia de camadas, mas supera eficientemente os LLVMs de código aberto com tamanhos de modelo maiores e rivaliza com os desempenhos dos LLVMs de código fechado de tamanhos substanciais.

ChatGLM: Uma Família de Modelos de Linguagem de Grande Escala, do GLM-130B ao GLM-4 All Tools
ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

Jun 18

ByTeam GLM, Aohan Zeng, Bin Xu, Bowen Wang, Chenhui Zhang, Da Yin, Diego Rojas, Guanyu Feng, Hanlin Zhao, Hanyu Lai, Hao Yu, Hongning Wang, Jiadai Sun, Jiajie Zhang, Jiale Cheng, Jiayi Gui, Jie Tang, Jing Zhang, Juanzi Li, Lei Zhao, Lindong Wu, Lucen Zhong, Mingdao Liu, Minlie Huang, Peng Zhang, Qinkai Zheng, Rui Lu, Shuaiqi Duan, Shudan Zhang, Shulin Cao, Shuxun Yang, Weng Lam Tam, Wenyi Zhao, Xiao Liu, Xiao Xia, Xiaohan Zhang, Xiaotao Gu, Xin Lv, Xinghan Liu, Xinyi Liu, Xinyue Yang, Xixuan Song, Xunkai Zhang, Yifan An, Yifan Xu, Yilin Niu, Yuantao Yang, Yueyan Li, Yushi Bai, Yuxiao Dong, Zehan Qi, Zhaoyu Wang, Zhen Yang, Zhengxiao Du, Zhenyu Hou, Zihan Wang

Apresentamos o ChatGLM, uma família em evolução de modelos de linguagem de grande escala que temos desenvolvido ao longo do tempo. Este relatório concentra-se principalmente na série de linguagem GLM-4, que inclui GLM-4, GLM-4-Air e GLM-4-9B. Eles representam nossos modelos mais capazes, treinados com todos os insights e lições obtidos das três gerações anteriores do ChatGLM. Até o momento, os modelos GLM-4 foram pré-treinados em dez trilhões de tokens, principalmente em chinês e inglês, juntamente com um pequeno conjunto de corpus de 24 idiomas, e alinhados principalmente para uso em chinês e inglês. O alinhamento de alta qualidade é alcançado por meio de um processo de pós-treinamento em múltiplas etapas, que envolve ajuste fino supervisionado e aprendizado a partir de feedback humano. As avaliações mostram que o GLM-4 1) rivaliza de perto ou supera o GPT-4 em termos de métricas gerais como MMLU, GSM8K, MATH, BBH, GPQA e HumanEval, 2) se aproxima do GPT-4-Turbo na capacidade de seguir instruções, conforme medido pelo IFEval, 3) iguala o GPT-4 Turbo (128K) e o Claude 3 em tarefas de contexto longo, e 4) supera o GPT-4 em alinhamentos de chinês, conforme medido pelo AlignBench. O modelo GLM-4 All Tools é ainda mais alinhado para compreender a intenção do usuário e decidir autonomamente quando e quais ferramentas usar — incluindo navegador web, interpretador Python, modelo de texto para imagem e funções definidas pelo usuário — para concluir tarefas complexas de forma eficaz. Em aplicações práticas, ele iguala e até supera o GPT-4 All Tools em tarefas como acessar informações online por meio de navegação na web e resolver problemas matemáticos usando o interpretador Python. Ao longo do processo, disponibilizamos uma série de modelos em código aberto, incluindo ChatGLM-6B (três gerações), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM e CodeGeeX, atraindo mais de 10 milhões de downloads no Hugging Face apenas no ano de 2023. Os modelos abertos podem ser acessados através de https://github.com/THUDM e https://huggingface.co/THUDM.

VoCo-LLaMA: Rumo à Compressão de Visão com Modelos de Linguagem de Grande Escala
VoCo-LLaMA: Towards Vision Compression with Large Language Models

Jun 18

ByXubing Ye, Yukang Gan, Xiaoke Huang, Yixiao Ge, Ying Shan, Yansong Tang

Os Modelos de Visão-Linguagem (VLMs) têm alcançado sucesso notável em várias tarefas multimodais, mas frequentemente enfrentam limitações devido à janela de contexto restrita e ao alto custo computacional de processar entradas de imagens de alta resolução e vídeos. A compressão visual pode aliviar esse problema ao reduzir a quantidade de tokens visuais. Abordagens anteriores comprimem tokens visuais com módulos externos e forçam os LLMs (Large Language Models) a entender os tokens comprimidos, resultando em perda de informação visual. No entanto, o paradigma de compreensão de tokens visuais pelos LLMs não é totalmente utilizado no processo de aprendizado de compressão. Propomos o VoCo-LLaMA, a primeira abordagem para comprimir tokens visuais usando LLMs. Ao introduzir tokens de Compressão Visual durante a fase de ajuste fino de instruções visuais e aproveitar a destilação de atenção, nosso método destila como os LLMs compreendem tokens visuais em seu processamento de tokens VoCo. O VoCo-LLaMA facilita a compressão visual eficaz e melhora a eficiência computacional durante a etapa de inferência. Especificamente, nosso método alcança perda mínima de desempenho com uma taxa de compressão de 576 vezes, resultando em até 94,8% menos FLOPs e 69,6% de aceleração no tempo de inferência. Além disso, por meio do treinamento contínuo usando sequências de tokens comprimidos de séries temporais de quadros de vídeo, o VoCo-LLaMA demonstra a capacidade de entender correlações temporais, superando métodos anteriores em benchmarks populares de questionamento e resposta de vídeo. Nossa abordagem apresenta uma maneira promissora de desbloquear todo o potencial da janela contextual dos VLMs, permitindo aplicações multimodais mais escaláveis. A página do projeto, juntamente com o código associado, pode ser acessada via https://yxxxb.github.io/VoCo-LLaMA-page/{este link}.

AgileCoder: Agentes Colaborativos Dinâmicos para Desenvolvimento de Software baseados na Metodologia Ágil
AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology

Jun 16

ByMinh Huynh Nguyen, Thang Phan Chau, Phong X. Nguyen, Nghi D. Q. Bui

Agentes de software surgiram como ferramentas promissoras para lidar com tarefas complexas de engenharia de software. No entanto, os trabalhos existentes simplificam demais os fluxos de trabalho de desenvolvimento de software ao seguirem o modelo em cascata. Assim, propomos o AgileCoder, um sistema multiagente que integra a Metodologia Ágil (MA) em sua estrutura. Esse sistema atribui papéis específicos da MA, como Gerente de Produto, Desenvolvedor e Testador, a diferentes agentes, que então colaboram no desenvolvimento de software com base nas entradas do usuário. O AgileCoder aumenta a eficiência do desenvolvimento ao organizar o trabalho em sprints, focando no desenvolvimento incremental do software por meio desses sprints. Além disso, introduzimos o Dynamic Code Graph Generator, um módulo que cria um Grafo de Dependência de Código dinamicamente à medida que atualizações são feitas na base de código. Isso permite que os agentes compreendam melhor a base de código, levando a uma geração e modificação de código mais precisa ao longo do processo de desenvolvimento de software. O AgileCoder supera benchmarks existentes, como ChatDev e MetaGPT, estabelecendo um novo padrão e demonstrando as capacidades de sistemas multiagente em ambientes avançados de engenharia de software. Nosso código-fonte pode ser encontrado em https://github.com/FSoft-AI4Code/AgileCoder.

De RAGs a parâmetros ricos: Investigando como os modelos de linguagem utilizam conhecimento externo em relação à informação paramétrica para consultas factuais
From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries

Jun 18

ByHitesh Wadhwa, Rahul Seetharaman, Somyaa Aggarwal, Reshmi Ghosh, Samyadeep Basu, Soundararajan Srinivasan, Wenlong Zhao, Shreyas Chaudhari, Ehsan Aghazadeh

A Geração Aumentada por Recuperação (RAG, do inglês *Retrieval Augmented Generation*) aprimora a capacidade dos modelos de linguagem de raciocinar utilizando contexto externo para enriquecer as respostas a um prompt do usuário. Essa abordagem ganhou popularidade devido a aplicações práticas em diversos usos de modelos de linguagem, como em buscas, sistemas de perguntas e respostas e chatbots. No entanto, a natureza exata de como essa abordagem funciona ainda não é claramente compreendida. Neste artigo, examinamos mecanicamente o pipeline do RAG para destacar que os modelos de linguagem tomam atalhos e têm uma forte tendência a utilizar apenas as informações de contexto para responder à pergunta, dependendo minimamente de sua memória paramétrica. Investigamos esse comportamento mecanicista nos modelos de linguagem com: (i) Análise de Mediação Causal, para mostrar que a memória paramétrica é minimamente utilizada ao responder a uma pergunta, e (ii) Contribuições de Atenção e *Knockouts*, para demonstrar que o fluxo residual do último token não é enriquecido pelo token do assunto na pergunta, mas sim por outros tokens informativos no contexto. Constatamos que esse comportamento de atalho é pronunciado tanto nos modelos da família LLaMa quanto na família Phi.

Aprender Além da Resposta: Treinando Modelos de Linguagem com Reflexão para Raciocínio Matemático
Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning

Jun 17

ByZhihan Zhang, Zhenwen Liang, Wenhao Yu, Dian Yu, Mengzhao Jia, Dong Yu, Meng Jiang

O ajuste fino supervisionado aprimora as habilidades de resolução de problemas dos modelos de linguagem em diversas tarefas de raciocínio matemático. Para maximizar esses benefícios, pesquisas existentes concentram-se em ampliar o conjunto de treinamento com várias técnicas de aumento de dados, o que é eficaz para cenários padrão de perguntas e respostas de rodada única. Nosso trabalho introduz uma técnica inovadora voltada para cultivar uma compreensão mais profunda dos problemas de treinamento em questão, melhorando o desempenho não apenas em cenários padrão, mas também em situações mais complexas que exigem pensamento reflexivo. Especificamente, propomos o aumento reflexivo, um método que incorpora a reflexão sobre o problema em cada instância de treinamento. Ele treina o modelo para considerar perspectivas alternativas e engajar-se com abstrações e analogias, promovendo assim uma compreensão abrangente por meio do raciocínio reflexivo. Experimentos extensivos validam a conquista de nosso objetivo, destacando as vantagens únicas de nosso método e sua natureza complementar em relação às técnicas de aumento existentes.

SafeInfer: Alinhamento de Segurança Adaptativo ao Contexto no Tempo de Decodificação para Modelos de Linguagem de Grande Escala
SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models

Jun 18

BySomnath Banerjee, Soham Tripathy, Sayan Layek, Shanu Kumar, Animesh Mukherjee, Rima Hazra

Modelos de linguagem alinhados à segurança frequentemente exibem mecanismos de segurança frágeis e desequilibrados, aumentando a probabilidade de gerar conteúdo inseguro. Além disso, a incorporação de novos conhecimentos por meio de técnicas de edição em modelos de linguagem pode comprometer ainda mais a segurança. Para abordar esses problemas, propomos o SafeInfer, uma estratégia de alinhamento de segurança adaptativa ao contexto, aplicada durante a decodificação, para gerar respostas seguras a consultas dos usuários. O SafeInfer compreende duas fases: a fase de amplificação de segurança, que emprega exemplos de demonstração seguros para ajustar os estados ocultos do modelo e aumentar a probabilidade de saídas mais seguras, e a fase de decodificação guiada por segurança, que influencia a seleção de tokens com base em distribuições otimizadas para segurança, garantindo que o conteúdo gerado esteja em conformidade com diretrizes éticas. Adicionalmente, apresentamos o HarmEval, um novo benchmark para avaliações extensivas de segurança, projetado para abordar cenários de uso indevido em conformidade com as políticas das principais gigantes de tecnologia de IA.

RepLiQA: Um Conjunto de Dados de Perguntas e Respostas para Avaliação de LLMs em Conteúdo Não Visto
RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content

Jun 17

ByJoao Monteiro, Pierre-Andre Noel, Etienne Marcotte, Sai Rajeswar, Valentina Zantedeschi, David Vazquez, Nicolas Chapados, Christopher Pal, Perouz Taslakian

Modelos de Linguagem de Grande Escala (LLMs) são treinados em vastas quantidades de dados, a maioria dos quais é automaticamente coletada da internet. Esses dados incluem documentos enciclopédicos que abrigam uma grande quantidade de conhecimento geral (por exemplo, a Wikipedia), mas também podem se sobrepor a conjuntos de dados de benchmark usados para avaliar LLMs. Consequentemente, avaliar modelos em divisões de teste que podem ter vazado para o conjunto de treinamento tende a levar a conclusões enganosas. Para promover uma avaliação sólida de modelos de linguagem, introduzimos um novo conjunto de dados de teste chamado RepLiQA, adequado para tarefas de resposta a perguntas e recuperação de tópicos. RepLiQA é uma coleção de cinco divisões de conjuntos de teste, quatro das quais não foram liberadas na internet ou expostas a APIs de LLM antes desta publicação. Cada amostra no RepLiQA compreende (1) um documento de referência elaborado por um anotador humano e que descreve um cenário imaginário (por exemplo, um artigo de notícias) ausente da internet; (2) uma pergunta sobre o tópico do documento; (3) uma resposta verdadeira derivada diretamente das informações no documento; e (4) o parágrafo extraído do documento de referência que contém a resposta. Dessa forma, respostas precisas só podem ser geradas se um modelo conseguir encontrar conteúdo relevante dentro do documento fornecido. Executamos um benchmark em grande escala que inclui vários LLMs state-of-the-art para revelar diferenças de desempenho entre modelos de vários tipos e tamanhos em um cenário de modelagem de linguagem condicional ao contexto. As divisões liberadas do RepLiQA podem ser encontradas aqui: https://huggingface.co/datasets/ServiceNow/repliqa.

Aritmética de Segurança: Um Framework para Alinhamento de Segurança em Tempo de Teste de Modelos de Linguagem por meio de Direcionamento de Parâmetros e Ativações
Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations

Jun 17

ByRima Hazra, Sayan Layek, Somnath Banerjee, Soujanya Poria

Garantir o alinhamento seguro de grandes modelos de linguagem (LLMs) com os valores humanos é crucial à medida que eles se tornam essenciais para aplicações como tradução e resposta a perguntas. Os métodos atuais de alinhamento enfrentam dificuldades com intenções dinâmicas dos usuários e objetivos complexos, tornando os modelos vulneráveis à geração de conteúdo prejudicial. Propomos a Aritmética de Segurança, uma estrutura livre de treinamento que aprimora a segurança dos LLMs em diferentes cenários: modelos base, modelos ajustados por supervisão (SFT) e modelos editados. A Aritmética de Segurança envolve a Remoção de Direção de Dano para evitar conteúdo prejudicial e o Alinhamento de Segurança para promover respostas seguras. Além disso, apresentamos o NoIntentEdit, um conjunto de dados que destaca instâncias de edição que poderiam comprometer a segurança do modelo se usadas inadvertidamente. Nossos experimentos mostram que a Aritmética de Segurança melhora significativamente as medidas de segurança, reduz o excesso de segurança e mantém a utilidade do modelo, superando os métodos existentes na garantia da geração de conteúdo seguro.

Tokenização Insuficiente: A Maldição da Tokenização
Tokenization Falling Short: The Curse of Tokenization

Jun 17

ByYekun Chai, Yewei Fang, Qiwei Peng, Xuhong Li

Modelos de linguagem normalmente tokenizam texto bruto em sequências de identificadores de subpalavras a partir de um vocabulário pré-definido, um processo inerentemente sensível a erros tipográficos, variações de comprimento e amplamente alheio à estrutura interna dos tokens — problemas que denominamos de maldição da tokenização. Neste estudo, exploramos essas desvantagens e demonstramos que modelos de linguagem de grande escala (LLMs) permanecem suscetíveis a esses problemas. Este estudo investiga sistematicamente esses desafios e seu impacto nos LLMs por meio de três questões de pesquisa críticas: (1) resolução de problemas complexos, (2) sondagem da estrutura dos tokens e (3) resiliência a variações tipográficas. Nossas descobertas revelam que a escalonamento de parâmetros do modelo pode mitigar o problema da tokenização; no entanto, os LLMs ainda sofrem com vieses induzidos por erros de digitação e outras variações de formato de texto. Nossos experimentos mostram que a regularização de subpalavras, como o BPE-dropout, pode mitigar esse problema. Disponibilizaremos nosso código e dados para facilitar pesquisas futuras.

OlympicArena: Avaliação de Raciocínio Cognitivo Multidisciplinar para Inteligência Artificial Superinteligente
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI

Jun 18

ByZhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu

A evolução da Inteligência Artificial (IA) tem sido significativamente acelerada pelos avanços em Modelos de Linguagem de Grande Escala (LLMs) e Modelos Multimodais de Grande Escala (LMMs), demonstrando gradualmente habilidades de raciocínio cognitivo na resolução de problemas e na descoberta científica (ou seja, IA4Science) que antes eram exclusivas do intelecto humano. Para avaliar de forma abrangente o desempenho dos modelos atuais em habilidades de raciocínio cognitivo, introduzimos o OlympicArena, que inclui 11.163 problemas bilíngues em modalidades de apenas texto e texto intercalado com imagens. Esses desafios abrangem uma ampla gama de disciplinas, cobrindo sete áreas e 62 competições olímpicas internacionais, rigorosamente examinadas para evitar vazamento de dados. Argumentamos que os desafios presentes nos problemas das competições olímpicas são ideais para avaliar o raciocínio cognitivo da IA devido à sua complexidade e natureza interdisciplinar, que são essenciais para enfrentar desafios científicos complexos e facilitar descobertas. Além de avaliar o desempenho em várias disciplinas usando critérios de resposta única, conduzimos experimentos e análises detalhadas de múltiplas perspectivas. Investigamos as habilidades de raciocínio cognitivo dos modelos, seu desempenho em diferentes modalidades e seus resultados em avaliações de nível de processo, que são vitais para tarefas que exigem raciocínio complexo com soluções extensas. Nossas extensas avaliações revelam que mesmo modelos avançados como o GPT-4o alcançam apenas uma precisão geral de 39,97%, ilustrando as limitações atuais da IA em raciocínio complexo e integração multimodal. Por meio do OlympicArena, visamos avançar a IA em direção à superinteligência, capacitando-a para enfrentar desafios mais complexos na ciência e além. Também fornecemos um conjunto abrangente de recursos para apoiar a pesquisa em IA, incluindo um conjunto de dados de referência, uma plataforma de anotação de código aberto, uma ferramenta de avaliação detalhada e um quadro de líderes com funcionalidades de submissão automática.

Avaliação da Compreensão de Múltiplas Imagens em Modelos de Visão e Linguagem: Percepção, Conhecimento, Raciocínio e Raciocínio Multi-Etapas
Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning

Jun 18

ByBingchen Zhao, Yongshuo Zong, Letian Zhang, Timothy Hospedales

O avanço dos grandes modelos de linguagem (LLMs) ampliou significativamente o escopo de aplicações em processamento de linguagem natural, com modelos multi-modais (LLMs) estendendo essas capacidades para integrar e interpretar dados visuais. No entanto, os benchmarks existentes para modelos de linguagem visual (VLMs) concentram-se predominantemente em entradas de imagem única, negligenciando o aspecto crucial do entendimento de múltiplas imagens. Neste artigo, introduzimos um Benchmark Relacional de Múltiplas Imagens (MIRB), projetado para avaliar a capacidade dos VLMs de comparar, analisar e raciocinar entre várias imagens. Nosso benchmark abrange quatro categorias: percepção, conhecimento do mundo visual, raciocínio e raciocínio multi-hop. Por meio de uma avaliação abrangente de uma ampla gama de modelos de código aberto e proprietários, demonstramos que, embora os VLMs de código aberto tenham se aproximado do desempenho do GPT-4V em tarefas de imagem única, uma lacuna significativa de desempenho permanece em tarefas de raciocínio com múltiplas imagens. Nossas descobertas também revelam que até mesmo o modelo GPT-4V, estado da arte, enfrenta dificuldades com nosso benchmark, destacando a necessidade de mais pesquisa e desenvolvimento nessa área. Acreditamos que nossa contribuição com o MIRB pode servir como um ambiente de teste para o desenvolvimento da próxima geração de modelos multi-modais.

HumanSplat: Representação Gaussiana Generalizável de Humanos a partir de uma Única Imagem com Prioridades Estruturais
HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors

Jun 18

ByPanwang Pan, Zhuo Su, Chenguo Lin, Zhen Fan, Yongjie Zhang, Zeming Li, Tingting Shen, Yadong Mu, Yebin Liu

Apesar dos avanços recentes nas técnicas de reconstrução humana de alta fidelidade, os requisitos para imagens densamente capturadas ou otimizações demoradas por instância dificultam significativamente suas aplicações em cenários mais amplos. Para enfrentar esses desafios, apresentamos o HumanSplat, que prevê as propriedades de 3D Gaussian Splatting de qualquer humano a partir de uma única imagem de entrada de maneira generalizável. Em particular, o HumanSplat compreende um modelo de difusão multi-visão 2D e um transformador de reconstrução latente com prioridades de estrutura humana que integram habilmente prioridades geométricas e características semânticas em um framework unificado. Uma função de perda hierárquica que incorpora informações semânticas humanas foi projetada para alcançar modelagem de textura de alta fidelidade e restringir melhor as múltiplas visões estimadas. Experimentos abrangentes em benchmarks padrão e imagens do mundo real demonstram que o HumanSplat supera os métodos state-of-the-art existentes na síntese de novas visões foto-realistas.

Aprendizado de Transferência em Grande Escala para Dados Tabulares via Modelagem de Linguagem
Large Scale Transfer Learning for Tabular Data via Language Modeling

Jun 17

ByJosh Gardner, Juan C. Perdomo, Ludwig Schmidt

Dados tabulares -- dados estruturados, heterogêneos, no estilo de planilhas, com linhas e colunas -- são amplamente utilizados na prática em diversos domínios. No entanto, embora modelos de base recentes tenham reduzido a necessidade de desenvolver conjuntos de dados e preditores específicos para tarefas em domínios como modelagem de linguagem e visão computacional, esse paradigma de aprendizado por transferência não teve um impacto semelhante no domínio tabular. Neste trabalho, buscamos reduzir essa lacuna e apresentamos o TabuLa-8B, um modelo de linguagem para predição tabular. Definimos um processo para extrair um grande conjunto de dados de treinamento de alta qualidade do corpus TabLib, propondo métodos para filtragem e controle de qualidade de dados tabulares. Utilizando o conjunto de dados resultante, que compreende mais de 1,6 bilhão de linhas de 3,1 milhões de tabelas únicas, ajustamos finamente um modelo de linguagem grande (LLM) Llama 3-8B para predição de dados tabulares (classificação e regressão binned) usando um esquema inovador de empacotamento e atenção para predição tabular. Por meio da avaliação em um conjunto de teste de 329 conjuntos de dados, descobrimos que o TabuLa-8B tem uma precisão zero-shot em tabelas não vistas que é mais de 15 pontos percentuais (pp) superior ao chute aleatório, um feito que não é possível com os modelos de predição tabular state-of-the-art existentes (por exemplo, XGBoost, TabPFN). No cenário de poucos exemplos (1-32 exemplos), sem qualquer ajuste fino nos conjuntos de dados alvo, o TabuLa-8B é 5-15 pp mais preciso do que os modelos XGBoost e TabPFN que são explicitamente treinados com a mesma quantidade, ou até 16 vezes mais dados. Disponibilizamos nosso modelo, código e dados juntamente com a publicação deste artigo.

Estimando o Conhecimento em Modelos de Linguagem de Grande Escala Sem Gerar um Único Token
Estimating Knowledge in Large Language Models Without Generating a Single Token

Jun 18

ByDaniela Gottesman, Mor Geva

Para avaliar o conhecimento em modelos de linguagem de grande escala (LLMs, na sigla em inglês), os métodos atuais consultam o modelo e avaliam suas respostas geradas. Neste trabalho, questionamos se a avaliação pode ser feita antes que o modelo gere qualquer texto. Mais concretamente, é possível estimar o quanto um modelo é conhecedor sobre uma determinada entidade, apenas a partir de sua computação interna? Estudamos essa questão com duas tarefas: dada uma entidade sujeito, o objetivo é prever (a) a capacidade do modelo de responder a perguntas comuns sobre a entidade e (b) a factualidade das respostas geradas pelo modelo sobre a entidade. Experimentos com uma variedade de LLMs mostram que o KEEN, uma sonda simples treinada sobre representações internas do sujeito, tem sucesso em ambas as tarefas — correlacionando-se fortemente tanto com a precisão de perguntas e respostas (QA) do modelo por sujeito quanto com o FActScore, uma métrica recente de factualidade em geração de texto aberta. Além disso, o KEEN alinha-se naturalmente com o comportamento de hesitação do modelo e reflete fielmente mudanças no conhecimento do modelo após o ajuste fino. Por fim, mostramos uma variante do KEEN mais interpretável e igualmente eficiente, que destaca um pequeno conjunto de tokens que se correlaciona com a falta de conhecimento do modelo. Sendo simples e leve, o KEEN pode ser utilizado para identificar lacunas e agrupamentos de conhecimento sobre entidades em LLMs, além de orientar decisões como o aumento de consultas com recuperação de informações.

Mistura de Escalas: Binarização Token-Adaptativa Eficiente em Memória para Modelos de Linguagem de Grande Porte
Mixture of Scales: Memory-Efficient Token-Adaptive Binarization for Large Language Models

Jun 18

ByDongwon Jo, Taesu Kim, Yulhwa Kim, Jae-Joon Kim

A binarização, que converte parâmetros de peso em valores binários, surgiu como uma estratégia eficaz para reduzir o tamanho de grandes modelos de linguagem (LLMs). No entanto, técnicas típicas de binarização diminuem significativamente a eficácia linguística dos LLMs. Para resolver esse problema, introduzimos uma nova técnica de binarização chamada Mixture of Scales (BinaryMoS). Diferente dos métodos convencionais, o BinaryMoS emprega múltiplos especialistas em escalonamento para pesos binários, combinando dinamicamente esses especialistas para cada token a fim de gerar fatores de escalonamento de forma adaptativa. Essa abordagem adaptativa por token aumenta o poder de representação dos LLMs binarizados, permitindo ajustes contextuais nos valores dos pesos binários. Além disso, como esse processo adaptativo envolve apenas os fatores de escalonamento e não toda a matriz de pesos, o BinaryMoS mantém uma eficiência de compressão semelhante aos métodos tradicionais de binarização estática. Nossos resultados experimentais mostram que o BinaryMoS supera as técnicas convencionais de binarização em várias tarefas de processamento de linguagem natural e até mesmo supera métodos de quantização de 2 bits, tudo isso mantendo um tamanho de modelo semelhante às técnicas de binarização estática.

Modelos de Linguagem são Surpreendentemente Frágeis a Nomes de Medicamentos em Benchmarks Biomédicos
Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks

Jun 17

ByJack Gallifant, Shan Chen, Pedro Moreira, Nikolaj Munch, Mingye Gao, Jackson Pond, Leo Anthony Celi, Hugo Aerts, Thomas Hartvigsen, Danielle Bitterman

O conhecimento médico é dependente do contexto e requer raciocínio consistente em diversas expressões linguísticas de frases semanticamente equivalentes. Isso é particularmente crucial para os nomes de medicamentos, onde os pacientes frequentemente usam nomes comerciais como Advil ou Tylenol em vez de seus equivalentes genéricos. Para estudar isso, criamos um novo conjunto de dados de robustez, RABBITS, para avaliar diferenças de desempenho em benchmarks médicos após a substituição de nomes comerciais e genéricos de medicamentos usando anotações de especialistas médicos. Avaliamos tanto modelos de linguagem de código aberto quanto baseados em API no MedQA e MedMCQA, revelando uma queda consistente no desempenho variando de 1 a 10\%. Além disso, identificamos uma possível fonte dessa fragilidade como a contaminação de dados de teste em conjuntos de dados de pré-treinamento amplamente utilizados. Todo o código está acessível em https://github.com/BittermanLab/RABBITS, e um leaderboard no HuggingFace está disponível em https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.

Nem Todos os Prompts São Iguais: Poda Baseada em Prompts de Modelos de Difusão Texto-para-Imagem
Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models

Jun 17

ByAlireza Ganjdanesh, Reza Shirkavand, Shangqian Gao, Heng Huang

Modelos de difusão texto-para-imagem (T2I) demonstraram capacidades impressionantes de geração de imagens. No entanto, sua intensidade computacional impede que organizações com recursos limitados implantem modelos T2I após ajustá-los em seus dados internos de destino. Embora técnicas de poda ofereçam uma solução potencial para reduzir a carga computacional dos modelos T2I, métodos de poda estática utilizam o mesmo modelo podado para todos os prompts de entrada, ignorando as necessidades variáveis de capacidade de diferentes prompts. A poda dinâmica aborda essa questão utilizando uma sub-rede separada para cada prompt, mas impede o paralelismo em lote em GPUs. Para superar essas limitações, introduzimos a Poda Adaptativa Personalizada por Prompt (APTP), um novo método de poda baseado em prompt projetado para modelos de difusão T2I. Central à nossa abordagem é um modelo de roteamento de prompt, que aprende a determinar a capacidade necessária para um prompt de texto de entrada e o direciona para um código de arquitetura, dado um orçamento computacional total desejado para os prompts. Cada código de arquitetura representa um modelo especializado adaptado aos prompts atribuídos a ele, e o número de códigos é um hiperparâmetro. Treinamos o roteador de prompt e os códigos de arquitetura usando aprendizado contrastivo, garantindo que prompts semelhantes sejam mapeados para códigos próximos. Além disso, empregamos transporte ótimo para evitar que os códigos colapsem em um único. Demonstramos a eficácia da APTP podando o Stable Diffusion (SD) V2.1 usando CC3M e COCO como conjuntos de dados de destino. A APTP supera as linhas de base de poda de modelo único em termos de pontuações FID, CLIP e CMMD. Nossa análise dos clusters aprendidos pela APTP revela que eles são semanticamente significativos. Também mostramos que a APTP pode descobrir automaticamente prompts previamente identificados como desafiadores para o SD, por exemplo, prompts para gerar imagens de texto, atribuindo-os a códigos de maior capacidade.

De Dados Coletados a Benchmarks de Alta Qualidade: Arena-Hard e o Pipeline BenchBuilder
From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline

Jun 17

ByTianle Li, Wei-Lin Chiang, Evan Frick, Lisa Dunlap, Tianhao Wu, Banghua Zhu, Joseph E. Gonzalez, Ion Stoica

A rápida evolução dos modelos de linguagem tem exigido o desenvolvimento de benchmarks mais desafiadores. Os benchmarks estáticos atuais frequentemente têm dificuldade em distinguir de forma consistente as capacidades de diferentes modelos e falham em se alinhar com as preferências dos usuários no mundo real. Por outro lado, plataformas colaborativas ao vivo, como o Chatbot Arena, coletam uma ampla gama de prompts naturais e feedback dos usuários. No entanto, esses prompts variam em sofisticação e o feedback não pode ser aplicado offline a novos modelos. Para garantir que os benchmarks acompanhem o ritmo do desenvolvimento dos LLMs, abordamos como é possível avaliar benchmarks com base em sua capacidade de separar modelos com confiança e seu alinhamento com as preferências humanas. Sob esses princípios, desenvolvemos o BenchBuilder, um benchmark dinâmico que filtra prompts de alta qualidade a partir de fontes de dados ao vivo para permitir avaliação offline com prompts novos e desafiadores. O BenchBuilder identifica sete indicadores de um prompt de alta qualidade, como a necessidade de conhecimento de domínio, e utiliza um anotador LLM para selecionar um subconjunto de prompts de alta qualidade de vários clusters de tópicos. O processo de avaliação do LLM emprega um juiz LLM para garantir um benchmark totalmente automatizado, de alta qualidade e em constante atualização. Aplicamos o BenchBuilder em prompts do Chatbot Arena para criar o Arena-Hard-Auto v0.1: 500 prompts desafiadores de usuários em uma ampla variedade de tarefas. O Arena-Hard-Auto v0.1 oferece intervalos de confiança 3x mais estreitos que o MT-Bench e alcança um estado da arte de 89,1% de concordância com as classificações de preferência humana, tudo a um custo de apenas US$ 25 e sem a necessidade de anotadores humanos. O pipeline do BenchBuilder aprimora os benchmarks de avaliação e fornece uma ferramenta valiosa para desenvolvedores, permitindo que extraiam benchmarks de alta qualidade a partir de grandes volumes de dados com esforço mínimo.

BPO: Potencializando o Aprendizado de Preferências Online ao Aderir à Proximidade do Comportamento de LLM
BPO: Supercharging Online Preference Learning by Adhering to the Proximity of Behavior LLM

Jun 18

ByWenda Xu, Jiachen Li, William Yang Wang, Lei Li

O alinhamento direto a partir de preferências (DAP, do inglês Direct Alignment from Preferences) emergiu como um paradigma promissor para alinhar grandes modelos de linguagem (LLMs, do inglês Large Language Models) aos desejos humanos a partir de conjuntos de dados de preferências pré-coletados e offline. Embora estudos recentes indiquem que os métodos existentes de DAP offline podem se beneficiar diretamente de amostras de treinamento online, destacamos a necessidade de desenvolver algoritmos específicos de DAP online para aproveitar plenamente o poder do treinamento online. Especificamente, identificamos que o LLM aprendido deve aderir à proximidade do LLM de comportamento, que coleta as amostras de treinamento. Para isso, propomos a Otimização de Preferências online em proximidade ao LLM de Comportamento (BPO, do inglês Behavior LLM Proximity Optimization), enfatizando a importância de construir uma região de confiança adequada para o alinhamento de LLMs. Realizamos experimentos extensivos para validar a eficácia e a aplicabilidade de nossa abordagem, integrando-a a vários métodos de DAP, resultando em melhorias significativas de desempenho em uma ampla gama de tarefas ao treinar com a mesma quantidade de dados de preferência. Mesmo ao introduzir apenas uma fase adicional de coleta de dados, nosso BPO online melhora sua linha de base de DAP offline de 72,0% para 80,2% no TL;DR e de 82,2% para 89,1% no Anthropic Helpfulness em termos de taxa de vitória contra o texto de referência humano.

VIA: Um Framework de Adaptação Espaço-Temporal para Vídeo em Edições Globais e Locais
VIA: A Spatiotemporal Video Adaptation Framework for Global and Local Video Editing

Jun 18

ByJing Gu, Yuwei Fang, Ivan Skorokhodov, Peter Wonka, Xinya Du, Sergey Tulyakov, Xin Eric Wang

A edição de vídeo é um pilar fundamental da mídia digital, abrangendo desde entretenimento e educação até comunicação profissional. No entanto, métodos anteriores frequentemente negligenciam a necessidade de compreender de forma abrangente tanto os contextos globais quanto locais, resultando em edições imprecisas e inconsistentes na dimensão espaço-temporal, especialmente para vídeos longos. Neste artigo, apresentamos o VIA, um framework unificado de Adaptação Espaço-temporal de Vídeo (VIdeo Adaptation) para edição global e local de vídeos, expandindo os limites da edição consistente de vídeos com duração de minutos. Primeiro, para garantir a consistência local dentro de quadros individuais, a base do VIA é um novo método de adaptação de edição em tempo de teste, que adapta um modelo pré-treinado de edição de imagens para melhorar a consistência entre as possíveis direções de edição e a instrução textual, além de adaptar variáveis latentes mascaradas para controle local preciso. Além disso, para manter a consistência global ao longo da sequência de vídeo, introduzimos a adaptação espaço-temporal, que adapta variáveis de atenção consistentes em quadros-chave e as aplica estrategicamente em toda a sequência para realizar os efeitos de edição. Experimentos extensivos demonstram que, em comparação com métodos de referência, nossa abordagem VIA produz edições mais fiéis aos vídeos originais, mais coerentes no contexto espaço-temporal e mais precisas no controle local. Mais importante ainda, mostramos que o VIA pode alcançar a edição consistente de vídeos longos em minutos, desbloqueando o potencial para tarefas avançadas de edição de vídeo em sequências longas.

Taxonomia de Prompting Hierárquico: Um Framework Universal de Avaliação para Modelos de Linguagem de Grande Escala
Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models

Jun 18

ByDevichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha

Avaliar a eficácia dos modelos de linguagem de grande escala (LLMs, na sigla em inglês) na resolução de diversas tarefas é essencial para compreender seus pontos fortes e fracos. As técnicas convencionais de avaliação geralmente aplicam uma única estratégia de prompt de forma uniforme em diferentes conjuntos de dados, sem considerar os diferentes graus de complexidade das tarefas. Introduzimos a Taxonomia de Prompt Hierárquico (HPT, na sigla em inglês), uma taxonomia que emprega um Framework de Prompt Hierárquico (HPF, na sigla em inglês) composto por cinco estratégias de prompt distintas, organizadas da mais simples à mais complexa, para avaliar os LLMs de forma mais precisa e oferecer uma perspectiva mais clara. Essa taxonomia atribui uma pontuação, chamada de Pontuação de Prompt Hierárquico (HP-Score, na sigla em inglês), tanto aos conjuntos de dados quanto aos LLMs com base nas regras da taxonomia, proporcionando uma compreensão detalhada de sua capacidade de resolver diversas tarefas e oferecendo uma medida universal da complexidade das tarefas. Além disso, introduzimos o Framework de Prompt Hierárquico Adaptativo, que automatiza a seleção das estratégias de prompt apropriadas para cada tarefa. Este estudo compara os frameworks de prompt hierárquico manual e adaptativo utilizando quatro LLMs ajustados por instrução, nomeadamente Llama 3 8B, Phi 3 3.8B, Mistral 7B e Gemma 7B, em quatro conjuntos de dados: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT) e SamSum. Os experimentos demonstram a eficácia da HPT, fornecendo uma maneira confiável de comparar diferentes tarefas e capacidades dos LLMs. Este artigo contribui para o desenvolvimento de uma métrica de avaliação universal que pode ser usada para avaliar tanto a complexidade dos conjuntos de dados quanto as capacidades dos LLMs. A implementação tanto do HPF manual quanto do HPF adaptativo está disponível publicamente.

Ataques Adversariais em Agentes Multimodais
Adversarial Attacks on Multimodal Agents

Jun 18

ByChen Henry Wu, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, Aditi Raghunathan

Modelos de linguagem habilitados para visão (VLMs, na sigla em inglês) são agora utilizados para construir agentes multimodais autônomos capazes de realizar ações em ambientes reais. Neste artigo, demonstramos que agentes multimodais introduzem novos riscos de segurança, embora atacar esses agentes seja mais desafiador do que ataques anteriores devido ao acesso limitado e ao conhecimento restrito sobre o ambiente. Nossos ataques utilizam strings de texto adversariais para guiar perturbações baseadas em gradiente sobre uma imagem de gatilho no ambiente: (1) nosso ataque ao captioner ataca captioners de caixa branca, caso sejam usados para processar imagens em legendas como entradas adicionais para o VLM; (2) nosso ataque ao CLIP ataca um conjunto de modelos CLIP em conjunto, o que pode ser transferido para VLMs proprietários. Para avaliar os ataques, criamos o VisualWebArena-Adv, um conjunto de tarefas adversariais baseadas no VisualWebArena, um ambiente para tarefas de agentes multimodais baseados na web. Dentro de uma norma L-infinito de 16/256 em uma única imagem, o ataque ao captioner pode fazer com que um agente GPT-4V aumentado por captioner execute os objetivos adversariais com uma taxa de sucesso de 75%. Quando removemos o captioner ou usamos o GPT-4V para gerar suas próprias legendas, o ataque ao CLIP pode alcançar taxas de sucesso de 21% e 43%, respectivamente. Experimentos com agentes baseados em outros VLMs, como Gemini-1.5, Claude-3 e GPT-4o, mostram diferenças interessantes em sua robustez. Uma análise mais aprofundada revela vários fatores-chave que contribuem para o sucesso do ataque, e também discutimos as implicações para defesas. Página do projeto: https://chenwu.io/attack-agent Código e dados: https://github.com/ChenWu98/agent-attack

Difusão Imiscível: Acelerando o Treinamento de Difusão com Atribuição de Ruído
Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment

Jun 18

ByYiheng Li, Heyang Jiang, Akio Kodaira, Masayoshi Tomizuka, Kurt Keutzer, Chenfeng Xu

Neste artigo, destacamos que o mapeamento subótimo entre ruído e dados leva a um treinamento lento de modelos de difusão. Durante o treinamento de difusão, os métodos atuais difundem cada imagem por todo o espaço de ruído, resultando em uma mistura de todas as imagens em cada ponto da camada de ruído. Enfatizamos que essa mistura aleatória do mapeamento ruído-dados complica a otimização da função de remoção de ruído em modelos de difusão. Inspirados pelo fenômeno da imiscibilidade na física, propomos a Difusão Imiscível, um método simples e eficaz para melhorar a mistura aleatória do mapeamento ruído-dados. Na física, a miscibilidade pode variar de acordo com várias forças intermoleculares. Assim, a imiscibilidade significa que a mistura das fontes moleculares é distinguível. Inspirados por isso, propomos uma estratégia de treinamento de atribuição seguida de difusão. Especificamente, antes de difundir os dados da imagem em ruído, atribuímos um ruído alvo de difusão para os dados da imagem, minimizando a distância total entre pares imagem-ruído em um mini-lote. A atribuição funciona de forma análoga a forças externas para separar as áreas difusíveis das imagens, mitigando assim as dificuldades inerentes ao treinamento de difusão. Nossa abordagem é notavelmente simples, exigindo apenas uma linha de código para restringir a área difusível de cada imagem, enquanto preserva a distribuição gaussiana do ruído. Isso garante que cada imagem seja projetada apenas para ruídos próximos. Para lidar com a alta complexidade do algoritmo de atribuição, empregamos um método de atribuição quantizada para reduzir a sobrecarga computacional a um nível insignificante. Experimentos demonstram que nosso método alcança um treinamento até 3x mais rápido para modelos de consistência e DDIM no conjunto de dados CIFAR, e até 1,3x mais rápido no conjunto de dados CelebA para modelos de consistência. Além disso, realizamos uma análise detalhada sobre a Difusão Imiscível, que esclarece como ela melhora a velocidade de treinamento de difusão enquanto aumenta a fidelidade.

JEN-1 DreamStyler: Aprendizado de Conceitos Musicais Personalizados por meio de Ajuste de Parâmetros Pivôs
JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning

Jun 18

ByBoyu Chen, Peike Li, Yao Yao, Alex Wang

Modelos de grande escala para geração de música a partir de texto alcançaram progressos significativos, facilitando a criação de composições musicais de alta qualidade e variadas a partir de prompts de texto fornecidos. No entanto, os prompts de texto de entrada podem não capturar com precisão os requisitos do usuário, especialmente quando o objetivo é gerar música que incorpore um conceito específico derivado de uma coleção de referência designada. Neste artigo, propomos um novo método para geração personalizada de música a partir de texto, que pode capturar o conceito de uma música de referência de dois minutos e gerar uma nova peça musical que se alinhe com esse conceito. Isso é alcançado por meio do ajuste fino de um modelo pré-treinado de geração de música a partir de texto utilizando a música de referência. No entanto, o ajuste fino direto de todos os parâmetros leva a problemas de sobreajuste. Para resolver essa questão, propomos um método de Ajuste de Parâmetros Pivôs que permite ao modelo assimilar o novo conceito enquanto preserva suas capacidades generativas originais. Além disso, identificamos um potencial conflito de conceitos ao introduzir múltiplos conceitos no modelo pré-treinado. Apresentamos uma estratégia de aprimoramento de conceitos para distinguir múltiplos conceitos, permitindo que o modelo ajustado gere música incorporando conceitos individuais ou múltiplos simultaneamente. Como somos os primeiros a trabalhar na tarefa de geração personalizada de música, também introduzimos um novo conjunto de dados e protocolo de avaliação para essa nova tarefa. Nosso Jen1-DreamStyler proposto supera várias baselines em avaliações qualitativas e quantitativas. Demonstrações estarão disponíveis em https://www.jenmusic.ai/research#DreamStyler.

Super(ficial)-alinhamento: Modelos Fortes Podem Enganar Modelos Fracos na Generalização de Fraco para Forte
Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization

Jun 17

ByWenkai Yang, Shiqi Shen, Guangyao Shen, Zhi Gong, Yankai Lin

O superalinhamento, onde humanos são supervisores fracos de modelos super-humanos, tornou-se uma questão importante e amplamente discutida na era atual de rápido desenvolvimento dos Modelos de Linguagem de Grande Escala (LLMs). Um trabalho recente estuda preliminarmente esse problema utilizando modelos fracos para supervisionar modelos fortes. Ele descobre que alunos fortes supervisionados de forma fraca podem consistentemente superar professores fracos em direção ao objetivo de alinhamento, levando a um fenômeno de generalização de fraco para forte. No entanto, estamos preocupados que, por trás de um fenômeno tão promissor, possa existir um problema de decepção de fraco para forte, onde modelos fortes podem enganar modelos fracos exibindo um bom alinhamento em áreas conhecidas pelos modelos fracos, mas produzindo comportamentos desalinhados em casos que os modelos fracos não conhecem. Damos então um primeiro passo para explorar essa questão de segurança em um caso específico, mas realista, de alinhamento multiobjetivo, onde pode haver alguns objetivos de alinhamento em conflito entre si (por exemplo, utilidade versus segurança). Tal conflito provavelmente fará com que modelos fortes enganem modelos fracos em uma dimensão de alinhamento para obter alta recompensa em outra dimensão de alinhamento. Nossos experimentos tanto na tarefa de modelagem de recompensa quanto no cenário de otimização de preferências indicam: (1) a decepção de fraco para forte existe; (2) o fenômeno de decepção pode se intensificar à medida que a lacuna de capacidade entre modelos fracos e fortes aumenta. Também discutimos possíveis soluções e descobrimos que o bootstrapping com um modelo intermediário pode mitigar a decepção até certo ponto. Nosso trabalho destaca a necessidade urgente de prestar mais atenção à verdadeira confiabilidade do superalinhamento.

Mistura de Subespaços na Adaptação de Baixo Rank
Mixture-of-Subspaces in Low-Rank Adaptation

Jun 16

ByTaiqiang Wu, Jiahao Wang, Zhe Zhao, Ngai Wong

Neste artigo, apresentamos um método de Adaptação de Baixa Dimensão (LoRA) inspirado em subespaços, que é computacionalmente eficiente, fácil de implementar e prontamente aplicável a grandes modelos de linguagem, multimodais e de difusão. Inicialmente, decompomos equivalentemente os pesos do LoRA em dois subespaços e descobrimos que simplesmente misturá-los pode melhorar o desempenho. Para estudar esse fenômeno, revisitamos o problema através de uma lente de subespaço de granularidade fina, mostrando que tal modificação é equivalente a empregar um misturador fixo para fundir os subespaços. Para maior flexibilidade, aprendemos conjuntamente o misturador com os pesos originais do LoRA, e denominamos o método de Mistura de Subespaços LoRA (MoSLoRA). O MoSLoRA supera consistentemente o LoRA em tarefas de diferentes modalidades, incluindo raciocínio de senso comum, ajuste fino de instruções visuais e geração de texto para imagem orientada por assunto, demonstrando sua eficácia e robustez. Os códigos estão disponíveis em https://github.com/wutaiqiang/MoSLoRA{github}.