HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

9 papers found

InternLM-XComposer-2.5: Um Modelo de Linguagem de Visão Grande Versátil Suportando Entrada e Saída Contextual Longa
InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

Jul 3

ByPan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang

Apresentamos o InternLM-XComposer-2.5 (IXC-2.5), um modelo de linguagem de visão ampla versátil que suporta entrada e saída contextual longa. O IXC-2.5 se destaca em várias aplicações de compreensão e composição de texto-imagem, alcançando capacidades de nível GPT-4V com apenas 7B de backend LLM. Treinado com 24 mil contextos de imagem-texto intercalados, ele pode se estender perfeitamente para 96 mil contextos longos via extrapolação RoPE. Essa capacidade de contexto longo permite que o IXC-2.5 se destaque em tarefas que exigem extensos contextos de entrada e saída. Comparado à sua versão anterior 2.0, o InternLM-XComposer-2.5 apresenta três grandes atualizações em compreensão de visão e linguagem: (1) Compreensão de Ultra-Alta Resolução, (2) Compreensão de Vídeo Detalhada e (3) Diálogo Multi-Turno Multi-Imagem. Além da compreensão, o IXC-2.5 se estende a duas aplicações envolventes usando parâmetros LoRA extras para composição de texto-imagem: (1) Criação de Páginas da Web e (2) Composição de Artigos de Texto-Imagem de Alta Qualidade. O IXC-2.5 foi avaliado em 28 benchmarks, superando modelos de código aberto de última geração em 16 benchmarks. Ele também supera ou compete de perto com o GPT-4V e o Gemini Pro em 16 tarefas-chave. O InternLM-XComposer-2.5 está publicamente disponível em https://github.com/InternLM/InternLM-XComposer.

TabReD: Um Benchmark de Aprendizado de Máquina em Tabelas na Natureza
TabReD: A Benchmark of Tabular Machine Learning in-the-Wild

Jun 27

ByIvan Rubachev, Nikolay Kartashev, Yury Gorishniy, Artem Babenko

Referências que refletem de perto cenários de aplicação final são essenciais para a adoção simplificada de novas pesquisas em aprendizado de máquina tabular (ML). Neste trabalho, examinamos benchmarks tabulares existentes e identificamos duas características comuns em dados tabulares de nível industrial que estão sub-representadas nos conjuntos de dados disponíveis para a comunidade acadêmica. Primeiramente, os dados tabulares frequentemente sofrem alterações ao longo do tempo em cenários de implementação do mundo real. Isso afeta o desempenho do modelo e requer divisões de treino e teste baseadas no tempo para uma avaliação correta do modelo. No entanto, conjuntos de dados tabulares acadêmicos existentes frequentemente carecem de metadados de timestamp para permitir tal avaliação. Em segundo lugar, uma parte considerável dos conjuntos de dados em ambientes de produção derivam de extensas aquisições de dados e pipelines de engenharia de características. Para cada conjunto de dados específico, isso pode ter um impacto diferente no número absoluto e relativo de características preditivas, não informativas e correlacionadas, o que por sua vez pode afetar a seleção do modelo. Para preencher as lacunas mencionadas nos benchmarks acadêmicos, apresentamos o TabReD - uma coleção de oito conjuntos de dados tabulares de nível industrial que abrangem uma ampla gama de domínios, desde finanças até serviços de entrega de alimentos. Avaliamos um grande número de modelos de ML tabulares no ambiente de dados rico em recursos e em evolução temporal facilitado pelo TabReD. Demonstramos que a avaliação em divisões de dados baseadas no tempo leva a uma classificação de métodos diferente, em comparação com a avaliação em divisões aleatórias mais comuns em benchmarks acadêmicos. Além disso, nos conjuntos de dados do TabReD, arquiteturas semelhantes a MLP e GBDT apresentam os melhores resultados, enquanto modelos de DL mais sofisticados ainda precisam provar sua eficácia.

Sem Treinamento, Sem Problema: Repensando Orientação sem Classificador para Modelos de Difusão
No Training, No Problem: Rethinking Classifier-Free Guidance for Diffusion Models

Jul 2

BySeyedmorteza Sadat, Manuel Kansy, Otmar Hilliges, Romann M. Weber

Orientação sem classificador (CFG) tornou-se o método padrão para aprimorar a qualidade de modelos de difusão condicional. No entanto, empregar CFG requer treinar um modelo incondicional juntamente com o modelo principal de difusão ou modificar o procedimento de treinamento inserindo periodicamente uma condição nula. Além disso, não há uma extensão clara de CFG para modelos incondicionais. Neste artigo, revisitamos os princípios fundamentais do CFG e introduzimos um novo método, orientação de condição independente (ICG), que oferece os benefícios do CFG sem a necessidade de procedimentos de treinamento especiais. Nossa abordagem simplifica o processo de treinamento de modelos de difusão condicional e também pode ser aplicada durante a inferência em qualquer modelo condicional pré-treinado. Além disso, ao aproveitar as informações de passo de tempo codificadas em todas as redes de difusão, propomos uma extensão do CFG, chamada orientação de passo de tempo (TSG), que pode ser aplicada a qualquer modelo de difusão, incluindo os incondicionais. Nossas técnicas de orientação são fáceis de implementar e têm o mesmo custo de amostragem que o CFG. Através de experimentos extensivos, demonstramos que o ICG iguala o desempenho do CFG padrão em vários modelos de difusão condicional. Além disso, mostramos que o TSG melhora a qualidade de geração de forma semelhante ao CFG, sem depender de nenhuma informação condicional.

TokenPacker: Projetor Visual Eficiente para LLM Multimodal
TokenPacker: Efficient Visual Projector for Multimodal LLM

Jul 2

ByWentong Li, Yuqian Yuan, Jian Liu, Dongqi Tang, Song Wang, Jianke Zhu, Lei Zhang

O projetor visual atua como uma ponte essencial entre o codificador visual e o Modelo de Linguagem Grande (LLM) em um Modelo de Linguagem Multimodal (MLLM). Tipicamente, MLLMs adotam um MLP simples para preservar todos os contextos visuais por meio de uma transformação um-para-um. No entanto, os tokens visuais são redundantes e podem ser consideravelmente aumentados ao lidar com imagens de alta resolução, prejudicando significativamente a eficiência dos MLLMs. Alguns trabalhos recentes introduziram um reamostrador ou um abstrator para reduzir o número de tokens visuais resultantes. Infelizmente, eles falham em capturar detalhes mais finos e minam as capacidades de raciocínio visual dos MLLMs. Neste trabalho, propomos um novo projetor visual, que adota um esquema de grosso a fino para injetar as características enriquecidas a fim de gerar os tokens visuais condensados. Especificamente, interpolamos inicialmente as características visuais como uma consulta de ponto de baixa resolução, fornecendo a representação visual geral como base. Em seguida, introduzimos um módulo de injeção de região para ponto que utiliza pistas baseadas em região de alta resolução e em vários níveis como chaves de referência e valores de granularidade fina, permitindo que sejam totalmente absorvidas dentro da região de contexto local correspondente. Este passo atualiza efetivamente a consulta de ponto grosseira, transformando-a em uma enriquecida para o raciocínio subsequente do LLM. Experimentos extensivos demonstram que nossa abordagem comprime os tokens visuais em 75% a 89%, enquanto alcança desempenho comparável ou até melhor em diversos benchmarks com eficiência significativamente maior. Os códigos-fonte podem ser encontrados em https://github.com/CircleRadon/TokenPacker.

PicoAudio: Permitindo Controle Preciso de Timestamp e Frequência de Eventos de Áudio na Geração de Texto para Áudio
PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation

Jul 3

ByZeyu Xie, Xuenan Xu, Zhizheng Wu, Mengyue Wu

Recentemente, as tarefas de geração de áudio têm atraído consideráveis interesses de pesquisa. A controllabilidade temporal precisa é essencial para integrar a geração de áudio com aplicações reais. Neste trabalho, propomos um framework de geração de áudio controlado temporalmente, o PicoAudio. O PicoAudio integra informações temporais para orientar a geração de áudio por meio de um design de modelo personalizado. Ele aproveita a coleta, segmentação, filtragem e simulação de dados de áudio-texto alinhados temporalmente de forma detalhada. Avaliações subjetivas e objetivas demonstram que o PicoAudio supera drasticamente os modelos de geração de última geração em termos de controllabilidade de timestamp e frequência de ocorrência. As amostras geradas estão disponíveis no site de demonstração https://PicoAudio.github.io.

DisCo-Diff: Melhorando Modelos de Difusão Contínua com Latentes Discretos
DisCo-Diff: Enhancing Continuous Diffusion Models with Discrete Latents

Jul 3

ByYilun Xu, Gabriele Corso, Tommi Jaakkola, Arash Vahdat, Karsten Kreis

Os modelos de difusão (DMs) revolucionaram a aprendizagem generativa. Eles utilizam um processo de difusão para codificar dados em uma distribuição Gaussiana simples. No entanto, codificar uma distribuição de dados complexa e potencialmente multimodal em uma única distribuição Gaussiana contínua representa, possivelmente, um problema de aprendizagem desnecessariamente desafiador. Propomos Modelos de Difusão de Variáveis Latentes Discretas-Contínuas (DisCo-Diff) para simplificar essa tarefa, introduzindo variáveis latentes discretas complementares. Nós aprimoramos os DMs com variáveis latentes discretas aprendíveis, inferidas com um codificador, e treinamos o DM e o codificador de ponta a ponta. O DisCo-Diff não depende de redes pré-treinadas, tornando o framework universalmente aplicável. As variáveis latentes discretas simplificam significativamente a aprendizagem do mapeamento de ruído para dados do DM, reduzindo a curvatura da EDO generativa do DM. Um transformador autoregressivo adicional modela a distribuição das variáveis latentes discretas, um passo simples, pois o DisCo-Diff requer apenas algumas variáveis discretas com pequenos codebooks. Validamos o DisCo-Diff em dados de brinquedo, várias tarefas de síntese de imagens, bem como acoplamento molecular, e descobrimos que a introdução de variáveis latentes discretas melhora consistentemente o desempenho do modelo. Por exemplo, o DisCo-Diff alcança pontuações FID de última geração em conjuntos de dados ImageNet-64/128 condicionados por classe com amostrador de EDO.

Investigação de Modelos de Linguagem Grandes Apenas com Decodificador para Tradução de Fala para Texto.
Investigating Decoder-only Large Language Models for Speech-to-text Translation

Jul 3

ByChao-Wei Huang, Hui Lu, Hongyu Gong, Hirofumi Inaguma, Ilia Kulikov, Ruslan Mavlyutov, Sravya Popuri

Grandes modelos de linguagem (LLMs), conhecidos por suas excepcionais capacidades de raciocínio, generalização e fluência em diversos domínios, apresentam uma via promissora para aprimorar tarefas relacionadas à fala. Neste artigo, focamos na integração de LLMs apenas decodificadores à tarefa de tradução de fala para texto (S2TT). Propomos uma arquitetura apenas decodificadora que permite ao LLM consumir diretamente a representação da fala codificada e gerar a tradução em texto. Além disso, investigamos os efeitos de diferentes técnicas de ajuste fino eficientes em parâmetros e formulação da tarefa. Nosso modelo alcança desempenho de ponta no CoVoST 2 e FLEURS entre os modelos treinados sem dados proprietários. Também realizamos análises para validar as escolhas de design de nosso modelo proposto e trazer insights para a integração de LLMs ao S2TT.

Uma Falsa Sensação de Segurança: Vazamento de Informações Inseguras em IA 'Segura' - Respostas
A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses

Jul 2

ByDavid Glukhov, Ziwen Han, Ilia Shumailov, Vardan Papyan, Nicolas Papernot

Modelos de Linguagem de Grande Escala (LLMs) são vulneráveis a jailbreaks — métodos para obter saídas prejudiciais ou geralmente proibidas. Medidas de segurança são desenvolvidas e avaliadas quanto à sua eficácia na defesa contra ataques de jailbreak, indicando a crença de que segurança é equivalente a robustez. Afirmamos que os atuais mecanismos de defesa, como filtros de saída e ajuste fino de alinhamento, são, e permanecerão, fundamentalmente insuficientes para garantir a segurança do modelo. Essas defesas falham em lidar com os riscos decorrentes de consultas com intenções duplas e da capacidade de compor saídas inofensivas para alcançar objetivos prejudiciais. Para abordar essa lacuna crítica, introduzimos um modelo de ameaça informacional chamado adversários inferenciais, que exploram vazamentos de informações proibidas das saídas do modelo para alcançar objetivos maliciosos. Distinguimos esses adversários dos adversários de segurança comumente estudados, que buscam apenas forçar modelos vítimas a gerar saídas proibidas específicas. Demonstramos a viabilidade de automatizar adversários inferenciais por meio de decomposição de perguntas e agregação de respostas. Para fornecer garantias de segurança, definimos um critério de censura de informações para mecanismos de censura, limitando o vazamento de informações proibidas. Propomos um mecanismo de defesa que garante esse limite e revelamos um trade-off intrínseco entre segurança e utilidade. Nosso trabalho fornece a primeira compreensão teoricamente fundamentada dos requisitos para o lançamento de LLMs seguros e os custos de utilidade envolvidos.

Eliminando o Viés de Posição dos Modelos de Linguagem: Uma Abordagem Mecanicista
Eliminating Position Bias of Language Models: A Mechanistic Approach

Jul 1

ByZiqi Wang, Hanlin Zhang, Xiner Li, Kuan-Hao Huang, Chi Han, Shuiwang Ji, Sham M. Kakade, Hao Peng, Heng Ji

O viés de posição tem se mostrado um problema prevalente nos modelos de linguagem modernos (LMs), nos quais os modelos priorizam o conteúdo com base em sua posição dentro do contexto fornecido. Esse viés frequentemente leva a falhas inesperadas do modelo e prejudica o desempenho, robustez e confiabilidade em diversas aplicações. Nossa análise mecanicista atribui o viés de posição a dois componentes empregados em quase todos os LMs de ponta: atenção causal e codificações posicionais relativas. Especificamente, descobrimos que a atenção causal geralmente faz com que os modelos favoreçam conteúdos distantes, enquanto codificações posicionais relativas como RoPE preferem os próximos com base na análise de perguntas e respostas com recuperação aprimorada (QA). Além disso, nosso estudo empírico sobre detecção de objetos revela que o viés de posição também está presente em modelos de visão e linguagem (VLMs). Com base nas análises acima, propomos ELIMINAR o viés de posição causado por diferentes ordens de segmentos de entrada (por exemplo, opções em LM-como-juiz, documentos recuperados em QA) de forma ZERO-SHOT SEM TREINAMENTO. Nosso método altera a atenção causal para atenção bidirecional entre segmentos e utiliza os valores de atenção do modelo para decidir as ordens relativas dos segmentos em vez de usar a ordem fornecida nas instruções de entrada, possibilitando assim Inferência Posicionalmente Invariante (PINE) no nível do segmento. Ao eliminar o viés de posição, os modelos alcançam melhor desempenho e confiabilidade em tarefas subsequentes onde o viés de posição amplamente existe, como LM-como-juiz e QA com recuperação aprimorada. Notavelmente, o PINE é especialmente útil ao adaptar LMs para avaliar pares de raciocínio: ele fornece consistentemente ganhos de desempenho de 8 a 10 pontos percentuais na maioria dos casos e faz com que o Llama-3-70B-Instruct tenha um desempenho ainda melhor do que o GPT-4-0125-preview no subconjunto de raciocínio do RewardBench.

Eliminando o Viés de Posição dos Modelos de Linguagem: Uma Abordagem Mecanicista
Eliminating Position Bias of Language Models: A Mechanistic Approach

Jul 1

ByZiqi Wang, Hanlin Zhang, Xiner Li, Kuan-Hao Huang, Chi Han, Shuiwang Ji, Sham M. Kakade, Hao Peng, Heng Ji