Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o InternLM-XComposer-2.5 (IXC-2.5), um modelo de linguagem de visão ampla versátil que suporta entrada e saída contextual longa. O IXC-2.5 se destaca em várias aplicações de compreensão e composição de texto-imagem, alcançando capacidades de nível GPT-4V com apenas 7B de backend LLM. Treinado com 24 mil contextos de imagem-texto intercalados, ele pode se estender perfeitamente para 96 mil contextos longos via extrapolação RoPE. Essa capacidade de contexto longo permite que o IXC-2.5 se destaque em tarefas que exigem extensos contextos de entrada e saída. Comparado à sua versão anterior 2.0, o InternLM-XComposer-2.5 apresenta três grandes atualizações em compreensão de visão e linguagem: (1) Compreensão de Ultra-Alta Resolução, (2) Compreensão de Vídeo Detalhada e (3) Diálogo Multi-Turno Multi-Imagem. Além da compreensão, o IXC-2.5 se estende a duas aplicações envolventes usando parâmetros LoRA extras para composição de texto-imagem: (1) Criação de Páginas da Web e (2) Composição de Artigos de Texto-Imagem de Alta Qualidade. O IXC-2.5 foi avaliado em 28 benchmarks, superando modelos de código aberto de última geração em 16 benchmarks. Ele também supera ou compete de perto com o GPT-4V e o Gemini Pro em 16 tarefas-chave. O InternLM-XComposer-2.5 está publicamente disponível em https://github.com/InternLM/InternLM-XComposer.
Referências que refletem de perto cenários de aplicação final são essenciais para a adoção simplificada de novas pesquisas em aprendizado de máquina tabular (ML). Neste trabalho, examinamos benchmarks tabulares existentes e identificamos duas características comuns em dados tabulares de nível industrial que estão sub-representadas nos conjuntos de dados disponíveis para a comunidade acadêmica. Primeiramente, os dados tabulares frequentemente sofrem alterações ao longo do tempo em cenários de implementação do mundo real. Isso afeta o desempenho do modelo e requer divisões de treino e teste baseadas no tempo para uma avaliação correta do modelo. No entanto, conjuntos de dados tabulares acadêmicos existentes frequentemente carecem de metadados de timestamp para permitir tal avaliação. Em segundo lugar, uma parte considerável dos conjuntos de dados em ambientes de produção derivam de extensas aquisições de dados e pipelines de engenharia de características. Para cada conjunto de dados específico, isso pode ter um impacto diferente no número absoluto e relativo de características preditivas, não informativas e correlacionadas, o que por sua vez pode afetar a seleção do modelo. Para preencher as lacunas mencionadas nos benchmarks acadêmicos, apresentamos o TabReD - uma coleção de oito conjuntos de dados tabulares de nível industrial que abrangem uma ampla gama de domínios, desde finanças até serviços de entrega de alimentos. Avaliamos um grande número de modelos de ML tabulares no ambiente de dados rico em recursos e em evolução temporal facilitado pelo TabReD. Demonstramos que a avaliação em divisões de dados baseadas no tempo leva a uma classificação de métodos diferente, em comparação com a avaliação em divisões aleatórias mais comuns em benchmarks acadêmicos. Além disso, nos conjuntos de dados do TabReD, arquiteturas semelhantes a MLP e GBDT apresentam os melhores resultados, enquanto modelos de DL mais sofisticados ainda precisam provar sua eficácia.
Orientação sem classificador (CFG) tornou-se o método padrão para aprimorar a qualidade de modelos de difusão condicional. No entanto, empregar CFG requer treinar um modelo incondicional juntamente com o modelo principal de difusão ou modificar o procedimento de treinamento inserindo periodicamente uma condição nula. Além disso, não há uma extensão clara de CFG para modelos incondicionais. Neste artigo, revisitamos os princípios fundamentais do CFG e introduzimos um novo método, orientação de condição independente (ICG), que oferece os benefícios do CFG sem a necessidade de procedimentos de treinamento especiais. Nossa abordagem simplifica o processo de treinamento de modelos de difusão condicional e também pode ser aplicada durante a inferência em qualquer modelo condicional pré-treinado. Além disso, ao aproveitar as informações de passo de tempo codificadas em todas as redes de difusão, propomos uma extensão do CFG, chamada orientação de passo de tempo (TSG), que pode ser aplicada a qualquer modelo de difusão, incluindo os incondicionais. Nossas técnicas de orientação são fáceis de implementar e têm o mesmo custo de amostragem que o CFG. Através de experimentos extensivos, demonstramos que o ICG iguala o desempenho do CFG padrão em vários modelos de difusão condicional. Além disso, mostramos que o TSG melhora a qualidade de geração de forma semelhante ao CFG, sem depender de nenhuma informação condicional.
O projetor visual atua como uma ponte essencial entre o codificador visual e o Modelo de Linguagem Grande (LLM) em um Modelo de Linguagem Multimodal (MLLM). Tipicamente, MLLMs adotam um MLP simples para preservar todos os contextos visuais por meio de uma transformação um-para-um. No entanto, os tokens visuais são redundantes e podem ser consideravelmente aumentados ao lidar com imagens de alta resolução, prejudicando significativamente a eficiência dos MLLMs. Alguns trabalhos recentes introduziram um reamostrador ou um abstrator para reduzir o número de tokens visuais resultantes. Infelizmente, eles falham em capturar detalhes mais finos e minam as capacidades de raciocínio visual dos MLLMs. Neste trabalho, propomos um novo projetor visual, que adota um esquema de grosso a fino para injetar as características enriquecidas a fim de gerar os tokens visuais condensados. Especificamente, interpolamos inicialmente as características visuais como uma consulta de ponto de baixa resolução, fornecendo a representação visual geral como base. Em seguida, introduzimos um módulo de injeção de região para ponto que utiliza pistas baseadas em região de alta resolução e em vários níveis como chaves de referência e valores de granularidade fina, permitindo que sejam totalmente absorvidas dentro da região de contexto local correspondente. Este passo atualiza efetivamente a consulta de ponto grosseira, transformando-a em uma enriquecida para o raciocínio subsequente do LLM. Experimentos extensivos demonstram que nossa abordagem comprime os tokens visuais em 75% a 89%, enquanto alcança desempenho comparável ou até melhor em diversos benchmarks com eficiência significativamente maior. Os códigos-fonte podem ser encontrados em https://github.com/CircleRadon/TokenPacker.
Recentemente, as tarefas de geração de áudio têm atraído consideráveis interesses de pesquisa. A controllabilidade temporal precisa é essencial para integrar a geração de áudio com aplicações reais. Neste trabalho, propomos um framework de geração de áudio controlado temporalmente, o PicoAudio. O PicoAudio integra informações temporais para orientar a geração de áudio por meio de um design de modelo personalizado. Ele aproveita a coleta, segmentação, filtragem e simulação de dados de áudio-texto alinhados temporalmente de forma detalhada. Avaliações subjetivas e objetivas demonstram que o PicoAudio supera drasticamente os modelos de geração de última geração em termos de controllabilidade de timestamp e frequência de ocorrência. As amostras geradas estão disponíveis no site de demonstração https://PicoAudio.github.io.
Os modelos de difusão (DMs) revolucionaram a aprendizagem generativa. Eles utilizam um processo de difusão para codificar dados em uma distribuição Gaussiana simples. No entanto, codificar uma distribuição de dados complexa e potencialmente multimodal em uma única distribuição Gaussiana contínua representa, possivelmente, um problema de aprendizagem desnecessariamente desafiador. Propomos Modelos de Difusão de Variáveis Latentes Discretas-Contínuas (DisCo-Diff) para simplificar essa tarefa, introduzindo variáveis latentes discretas complementares. Nós aprimoramos os DMs com variáveis latentes discretas aprendíveis, inferidas com um codificador, e treinamos o DM e o codificador de ponta a ponta. O DisCo-Diff não depende de redes pré-treinadas, tornando o framework universalmente aplicável. As variáveis latentes discretas simplificam significativamente a aprendizagem do mapeamento de ruído para dados do DM, reduzindo a curvatura da EDO generativa do DM. Um transformador autoregressivo adicional modela a distribuição das variáveis latentes discretas, um passo simples, pois o DisCo-Diff requer apenas algumas variáveis discretas com pequenos codebooks. Validamos o DisCo-Diff em dados de brinquedo, várias tarefas de síntese de imagens, bem como acoplamento molecular, e descobrimos que a introdução de variáveis latentes discretas melhora consistentemente o desempenho do modelo. Por exemplo, o DisCo-Diff alcança pontuações FID de última geração em conjuntos de dados ImageNet-64/128 condicionados por classe com amostrador de EDO.
Grandes modelos de linguagem (LLMs), conhecidos por suas excepcionais capacidades de raciocínio, generalização e fluência em diversos domínios, apresentam uma via promissora para aprimorar tarefas relacionadas à fala. Neste artigo, focamos na integração de LLMs apenas decodificadores à tarefa de tradução de fala para texto (S2TT). Propomos uma arquitetura apenas decodificadora que permite ao LLM consumir diretamente a representação da fala codificada e gerar a tradução em texto. Além disso, investigamos os efeitos de diferentes técnicas de ajuste fino eficientes em parâmetros e formulação da tarefa. Nosso modelo alcança desempenho de ponta no CoVoST 2 e FLEURS entre os modelos treinados sem dados proprietários. Também realizamos análises para validar as escolhas de design de nosso modelo proposto e trazer insights para a integração de LLMs ao S2TT.
Modelos de Linguagem de Grande Escala (LLMs) são vulneráveis a jailbreaks — métodos para obter saídas prejudiciais ou geralmente proibidas. Medidas de segurança são desenvolvidas e avaliadas quanto à sua eficácia na defesa contra ataques de jailbreak, indicando a crença de que segurança é equivalente a robustez. Afirmamos que os atuais mecanismos de defesa, como filtros de saída e ajuste fino de alinhamento, são, e permanecerão, fundamentalmente insuficientes para garantir a segurança do modelo. Essas defesas falham em lidar com os riscos decorrentes de consultas com intenções duplas e da capacidade de compor saídas inofensivas para alcançar objetivos prejudiciais. Para abordar essa lacuna crítica, introduzimos um modelo de ameaça informacional chamado adversários inferenciais, que exploram vazamentos de informações proibidas das saídas do modelo para alcançar objetivos maliciosos. Distinguimos esses adversários dos adversários de segurança comumente estudados, que buscam apenas forçar modelos vítimas a gerar saídas proibidas específicas. Demonstramos a viabilidade de automatizar adversários inferenciais por meio de decomposição de perguntas e agregação de respostas. Para fornecer garantias de segurança, definimos um critério de censura de informações para mecanismos de censura, limitando o vazamento de informações proibidas. Propomos um mecanismo de defesa que garante esse limite e revelamos um trade-off intrínseco entre segurança e utilidade. Nosso trabalho fornece a primeira compreensão teoricamente fundamentada dos requisitos para o lançamento de LLMs seguros e os custos de utilidade envolvidos.
O viés de posição tem se mostrado um problema prevalente nos modelos de linguagem modernos (LMs), nos quais os modelos priorizam o conteúdo com base em sua posição dentro do contexto fornecido. Esse viés frequentemente leva a falhas inesperadas do modelo e prejudica o desempenho, robustez e confiabilidade em diversas aplicações. Nossa análise mecanicista atribui o viés de posição a dois componentes empregados em quase todos os LMs de ponta: atenção causal e codificações posicionais relativas. Especificamente, descobrimos que a atenção causal geralmente faz com que os modelos favoreçam conteúdos distantes, enquanto codificações posicionais relativas como RoPE preferem os próximos com base na análise de perguntas e respostas com recuperação aprimorada (QA). Além disso, nosso estudo empírico sobre detecção de objetos revela que o viés de posição também está presente em modelos de visão e linguagem (VLMs). Com base nas análises acima, propomos ELIMINAR o viés de posição causado por diferentes ordens de segmentos de entrada (por exemplo, opções em LM-como-juiz, documentos recuperados em QA) de forma ZERO-SHOT SEM TREINAMENTO. Nosso método altera a atenção causal para atenção bidirecional entre segmentos e utiliza os valores de atenção do modelo para decidir as ordens relativas dos segmentos em vez de usar a ordem fornecida nas instruções de entrada, possibilitando assim Inferência Posicionalmente Invariante (PINE) no nível do segmento. Ao eliminar o viés de posição, os modelos alcançam melhor desempenho e confiabilidade em tarefas subsequentes onde o viés de posição amplamente existe, como LM-como-juiz e QA com recuperação aprimorada. Notavelmente, o PINE é especialmente útil ao adaptar LMs para avaliar pares de raciocínio: ele fornece consistentemente ganhos de desempenho de 8 a 10 pontos percentuais na maioria dos casos e faz com que o Llama-3-70B-Instruct tenha um desempenho ainda melhor do que o GPT-4-0125-preview no subconjunto de raciocínio do RewardBench.