Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem de grande escala (LLMs) têm alcançado sucesso impressionante em muitos benchmarks para raciocínio matemático. No entanto, há uma crescente preocupação de que parte desse desempenho realmente reflita contaminação de dados, onde informações que se assemelham muito às questões do benchmark vazam para os dados de treinamento, em vez de uma verdadeira capacidade de raciocínio. Para investigar essa afirmação de forma rigorosa, desenvolvemos o Grade School Math 1000 (GSM1k). O GSM1k foi projetado para refletir o estilo e a complexidade do consagrado benchmark GSM8k, considerado o padrão ouro para medir o raciocínio matemático elementar. Garantimos que os dois benchmarks sejam comparáveis em métricas importantes, como taxas de resolução humana, número de passos na solução, magnitude das respostas e mais. Ao avaliar os principais LLMs de código aberto e fechado no GSM1k, observamos quedas de precisão de até 13%, com várias famílias de modelos (por exemplo, Phi e Mistral) mostrando evidências de sobreajuste sistemático em quase todos os tamanhos de modelo. Ao mesmo tempo, muitos modelos, especialmente aqueles na fronteira (por exemplo, Gemini/GPT/Claude), mostram sinais mínimos de sobreajuste. Uma análise adicional sugere uma relação positiva (r² de Spearman=0,32) entre a probabilidade de um modelo gerar um exemplo do GSM8k e sua diferença de desempenho entre o GSM8k e o GSM1k, indicando que muitos modelos podem ter memorizado parcialmente o GSM8k.
A edição de imagens avançou significativamente com a introdução de modelos de difusão condicionados por texto. Apesar desse progresso, adicionar objetos de forma contínua a imagens com base em instruções textuais, sem exigir máscaras fornecidas pelo usuário, continua sendo um desafio. Abordamos esse problema aproveitando a percepção de que remover objetos (Inpaint) é significativamente mais simples do que o processo inverso de adicioná-los (Paint), atribuído ao uso de conjuntos de dados de máscaras de segmentação juntamente com modelos de inpainting que preenchem essas máscaras. Capitalizando essa percepção, ao implementar um pipeline automatizado e extenso, criamos um conjunto de dados em larga escala e filtrado, contendo pares de imagens e suas versões correspondentes com objetos removidos. Usando esses pares, treinamos um modelo de difusão para inverter o processo de inpainting, efetivamente adicionando objetos às imagens. Diferente de outros conjuntos de dados de edição, o nosso apresenta imagens-alvo naturais em vez de sintéticas; além disso, mantém a consistência entre a origem e o alvo por construção. Adicionalmente, utilizamos um grande Modelo de Visão-Linguagem para fornecer descrições detalhadas dos objetos removidos e um Modelo de Linguagem de Grande Escala para converter essas descrições em instruções diversas e em linguagem natural. Demonstramos que o modelo treinado supera os existentes tanto qualitativa quanto quantitativamente, e disponibilizamos o conjunto de dados em larga escala juntamente com os modelos treinados para a comunidade.
As abordagens tradicionais de aprendizado por reforço a partir de feedback humano (RLHF) que dependem de modelos paramétricos, como o modelo de Bradley-Terry, falham em capturar a intransitividade e a irracionalidade nas preferências humanas. Avanços recentes sugerem que trabalhar diretamente com probabilidades de preferência pode fornecer uma representação mais precisa das preferências humanas, permitindo um alinhamento de modelos de linguagem mais flexível e preciso. Neste artigo, propomos um método baseado em autojogo para o alinhamento de modelos de linguagem, que trata o problema como um jogo de soma constante entre dois jogadores, com o objetivo de identificar a política de equilíbrio de Nash. Nossa abordagem, denominada Otimização de Preferência por Autojogo (SPPO), aproxima o equilíbrio de Nash por meio de atualizações iterativas da política e possui garantia teórica de convergência. Nosso método pode aumentar efetivamente a log-verossimilhança da resposta escolhida e diminuir a da resposta rejeitada, o que não pode ser trivialmente alcançado por funções de perda simétricas de pares, como a Otimização Direta de Preferência (DPO) e a Otimização de Preferência de Identidade (IPO). Em nossos experimentos, utilizando apenas 60 mil prompts (sem respostas) do conjunto de dados UltraFeedback e sem qualquer aumento de prompt, ao aproveitar um modelo de preferência pré-treinado PairRM com apenas 0,4 bilhão de parâmetros, o SPPO conseguiu obter um modelo a partir do ajuste fino do Mistral-7B-Instruct-v0.2 que alcançou a taxa de vitória controlada por comprimento de 28,53% contra o GPT-4-Turbo no AlpacaEval 2.0, estabelecendo um novo estado da arte. Ele também superou o DPO (iterativo) e o IPO no MT-Bench e no Open LLM Leaderboard. Notavelmente, o forte desempenho do SPPO foi alcançado sem supervisão externa adicional (por exemplo, respostas, preferências, etc.) do GPT-4 ou de outros modelos de linguagem mais fortes.
Este estudo apresenta uma análise direcionada de edição de modelos focada no mais recente modelo de linguagem de grande escala, Llama-3. Exploramos a eficácia de técnicas populares de edição de modelos - ROME, MEMIT e EMMET, que são projetadas para intervenções precisas em camadas. Identificamos as camadas mais eficazes para edições direcionadas por meio de uma avaliação que abrange até 4096 edições em três estratégias distintas: edição sequencial, edição em lote e uma abordagem híbrida que chamamos de edição sequencial-em lote. Nossos resultados indicam que o aumento do tamanho dos lotes de edição pode degradar o desempenho do modelo de forma mais significativa do que o uso de lotes menores de edição sequencialmente para o mesmo número de edições. Com isso, argumentamos que a edição sequencial de modelos é um componente importante para a escalabilidade de métodos de edição de modelos, e pesquisas futuras devem se concentrar em métodos que combinem edição em lote e sequencial. Essa observação sugere uma limitação potencial nos métodos atuais de edição de modelos que buscam aumentar o tamanho dos lotes de edição, e esperamos que isso abra caminho para investigações futuras sobre a otimização do tamanho dos lotes e do desempenho da edição de modelos.
Modelos de linguagem de grande escala (LLMs) avançaram significativamente o processamento de áudio por meio de codecs que convertem áudio em tokens discretos, permitindo a aplicação de técnicas de modelagem de linguagem a dados de áudio. No entanto, os codecs tradicionais geralmente operam em altas taxas de bits ou em domínios restritos, como fala, e carecem das pistas semânticas necessárias para uma modelagem de linguagem eficiente. Para enfrentar esses desafios, introduzimos o SemantiCodec, um codec inovador projetado para comprimir áudio em menos de cem tokens por segundo em diversos tipos de áudio, incluindo fala, áudio geral e música, sem comprometer a qualidade. O SemantiCodec apresenta uma arquitetura de codificador duplo: um codificador semântico que utiliza um AudioMAE auto-supervisionado, discretizado por meio de agrupamento k-means em extensos dados de áudio, e um codificador acústico para capturar os detalhes restantes. As saídas dos codificadores semântico e acústico são usadas para reconstruir o áudio por meio de um decodificador baseado em modelo de difusão. O SemantiCodec é apresentado em três variantes com taxas de tokens de 25, 50 e 100 por segundo, suportando uma gama de taxas de bits ultrabaixas entre 0,31 kbps e 1,43 kbps. Resultados experimentais demonstram que o SemantiCodec supera significativamente o codec Descript, estado da arte, em qualidade de reconstrução. Nossos resultados também sugerem que o SemantiCodec contém informações semânticas significativamente mais ricas do que todos os codecs de áudio avaliados, mesmo em taxas de bits significativamente mais baixas. Nosso código e demonstrações estão disponíveis em https://haoheliu.github.io/SemantiCodec/.
Os grandes modelos de linguagem (LLMs) sofrem com baixa eficiência devido ao descompasso entre a exigência de decodificação autorregressiva e o design da maioria das GPUs contemporâneas. Especificamente, bilhões a trilhões de parâmetros precisam ser carregados para o cache da GPU através de sua limitada largura de banda de memória para computação, mas apenas um pequeno lote de tokens é realmente processado. Consequentemente, a GPU passa a maior parte do tempo transferindo dados em vez de realizar cálculos. Recentemente, a decodificação paralela, um tipo de algoritmo de decodificação especulativa, tem se tornado mais popular e demonstrou melhorias impressionantes na eficiência de geração. Ela introduz cabeças de decodificação adicionais aos grandes modelos, permitindo que prevejam múltiplos tokens subsequentes simultaneamente e verifiquem essas continuações candidatas em uma única etapa de decodificação. No entanto, essa abordagem se desvia do objetivo de treinamento de previsão do próximo token usado durante o pré-treinamento, resultando em uma baixa taxa de acerto para os tokens candidatos. Neste artigo, propomos um novo algoritmo de decodificação especulativa, o Clover, que integra conhecimento sequencial ao processo de decodificação paralela. Esse aprimoramento aumenta a taxa de acerto dos especuladores e, assim, melhora a eficiência geral. O Clover transmite o conhecimento sequencial de tokens pré-especulados por meio da Conexão Regressiva e, em seguida, utiliza um Decodificador de Atenção para integrar esses tokens especulados. Além disso, o Clover incorpora um Bloco de Aumento que modifica os estados ocultos para melhor alinhá-los ao propósito de geração especulativa, em vez de previsão do próximo token. Os resultados dos experimentos demonstram que o Clover supera a linha de base em até 91% no Baichuan-Small e 146% no Baichuan-Large, respectivamente, e excede o desempenho do método anteriormente mais eficiente, o Medusa, em até 37% no Baichuan-Small e 57% no Baichuan-Large, respectivamente.
Recentemente, o 3D Gaussian Splatting, como uma nova representação 3D, tem chamado atenção por sua rápida velocidade de renderização e alta qualidade de renderização. No entanto, isso vem acompanhado de um alto consumo de memória, por exemplo, um campo Gaussiano bem treinado pode utilizar três milhões de primitivas Gaussianas e mais de 700 MB de memória. Atribuímos esse alto consumo de memória à falta de consideração da relação entre as primitivas. Neste artigo, propomos um campo Gaussiano eficiente em memória chamado SUNDAE, com poda espectral e compensação neural. Por um lado, construímos um grafo sobre o conjunto de primitivas Gaussianas para modelar sua relação e projetamos um módulo de subamostragem espectral para podar as primitivas enquanto preservamos os sinais desejados. Por outro lado, para compensar a perda de qualidade da poda das Gaussianas, utilizamos uma cabeça de rede neural leve para misturar características splatadas, o que efetivamente compensa as perdas de qualidade enquanto captura a relação entre as primitivas em seus pesos. Demonstramos o desempenho do SUNDAE com resultados extensivos. Por exemplo, o SUNDAE pode alcançar 26,80 PSNR a 145 FPS usando 104 MB de memória, enquanto o algoritmo vanilla de Gaussian Splatting alcança 25,60 PSNR a 160 FPS usando 523 MB de memória, no conjunto de dados Mip-NeRF360. Os códigos estão publicamente disponíveis em https://runyiyang.github.io/projects/SUNDAE/.
O rastreamento de objetos no espaço tridimensional é crucial para a condução autônoma. Para garantir a segurança durante a condução, o rastreador deve ser capaz de rastrear objetos de forma confiável entre quadros e estimar com precisão seus estados, como velocidade e aceleração, no momento presente. Trabalhos existentes frequentemente se concentram na tarefa de associação, enquanto negligenciam o desempenho do modelo na estimativa de estado ou empregam heurísticas complexas para prever os estados. Neste artigo, propomos o STT, um modelo de Rastreamento com Estado construído com Transformers, que pode rastrear objetos de forma consistente nas cenas enquanto também prevê seus estados com precisão. O STT consome sinais ricos de aparência, geometria e movimento por meio de um histórico de longo prazo de detecções e é otimizado conjuntamente para as tarefas de associação de dados e estimativa de estado. Como as métricas padrão de rastreamento, como MOTA e MOTP, não capturam o desempenho combinado das duas tarefas no espectro mais amplo de estados dos objetos, estendemos essas métricas com novas chamadas S-MOTA e MOTPS, que abordam essa limitação. O STT alcança um desempenho competitivo em tempo real no Waymo Open Dataset.
Os desenvolvedores de aplicativos promovem seus Apps criando páginas de produtos com imagens do aplicativo e fazendo lances em termos de busca. Portanto, é crucial que as imagens do aplicativo sejam altamente relevantes para os termos de busca. Soluções para esse problema exigem um modelo de correspondência entre imagem e texto para prever a qualidade da correspondência entre a imagem escolhida e os termos de busca. Neste trabalho, apresentamos uma abordagem inovadora para corresponder uma imagem de App a termos de busca com base no ajuste fino de um modelo LXMERT pré-treinado. Demonstramos que, em comparação com o modelo CLIP e uma linha de base que utiliza um modelo Transformer para os termos de busca e um modelo ResNet para as imagens, melhoramos significativamente a precisão da correspondência. Avaliamos nossa abordagem usando dois conjuntos de rótulos: pares (imagem, termo de busca) associados ao anunciante para um determinado aplicativo e avaliações humanas sobre a relevância entre pares (imagem, termo de busca). Nossa abordagem alcança um score AUC de 0,96 para a verdade fundamental associada ao anunciante, superando a linha de base Transformer+ResNet e o modelo CLIP ajustado em 8% e 14%, respectivamente. Para a verdade fundamental rotulada por humanos, nossa abordagem alcança um score AUC de 0,95, superando a linha de base Transformer+ResNet e o modelo CLIP ajustado em 16% e 17%, respectivamente.