Artigos de pesquisa em IA selecionados diariamente com traduções
Este artigo apresenta Forçamento por Difusão, um novo paradigma de treinamento onde um modelo de difusão é treinado para remover ruídos de um conjunto de tokens com níveis de ruído independentes por token. Aplicamos o Forçamento por Difusão à modelagem generativa de sequências, treinando um modelo causal de previsão do próximo token para gerar um ou vários tokens futuros sem difundir completamente os tokens passados. Nosso método combina as vantagens dos modelos de previsão do próximo token, como geração de comprimentos variáveis, com as vantagens dos modelos de difusão de sequência completa, como a capacidade de guiar a amostragem para trajetórias desejáveis. Nossa abordagem oferece uma variedade de capacidades adicionais, como (1) a expansão de sequências de tokens contínuos, como vídeos, com comprimentos além do horizonte de treinamento, onde as referências divergem e (2) novos esquemas de amostragem e orientação que se beneficiam de forma única da arquitetura causal e de horizonte variável do Forçamento por Difusão, resultando em ganhos de desempenho significativos em tarefas de tomada de decisão e planejamento. Além do sucesso empírico, nosso método é comprovado por otimizar um limite inferior variacional nas probabilidades de todas as subsequências de tokens retiradas da verdadeira distribuição conjunta. Website do projeto: https://boyuan.space/diffusion-forcing/
A afinação eficiente de parâmetros (PEFT) é crucial para personalizar Modelos de Linguagem Grandes (LLMs) com recursos limitados. Embora tenham sido desenvolvidos vários métodos de PEFT para LLMs de arquitetura densa, o PEFT para LLMs de arquitetura esparsa ainda é pouco explorado. Neste trabalho, estudamos o método PEFT para LLMs com a arquitetura Mixture-of-Experts (MoE) e o conteúdo deste trabalho é principalmente triplo: (1) Investigamos o grau de dispersão dos especialistas ativados em tarefas personalizadas e descobrimos que a distribuição de roteamento para uma tarefa específica tende a ser altamente concentrada, enquanto a distribuição de especialistas ativados varia significativamente entre diferentes tarefas. (2) Propomos a Afinação Especializada de Especialistas, ou ESFT, que ajusta os especialistas mais relevantes para as tarefas downstream enquanto congela os outros especialistas e módulos; os resultados experimentais demonstram que nosso método não apenas melhora a eficiência de ajuste, mas também iguala ou até supera o desempenho da afinação de parâmetros completa. (3) Analisamos ainda o impacto da arquitetura MoE na afinação especializada de especialistas. Descobrimos que os modelos MoE com especialistas mais refinados são mais vantajosos na seleção da combinação de especialistas mais relevantes para as tarefas downstream, aumentando assim tanto a eficiência quanto a eficácia do treinamento.
Muitos trabalhos recentes têm explorado o uso de modelos de linguagem para problemas de planejamento. Uma linha de pesquisa foca na tradução de descrições em linguagem natural de tarefas de planejamento em linguagens estruturadas de planejamento, como a linguagem de definição de domínio de planejamento (PDDL). Embora essa abordagem seja promissora, medir com precisão a qualidade do código PDDL gerado continua a apresentar desafios significativos. Primeiramente, o código PDDL gerado é tipicamente avaliado usando validadores de planejamento que verificam se o problema pode ser resolvido com um planejador. Esse método é insuficiente, pois um modelo de linguagem pode gerar código PDDL válido que não está alinhado com a descrição em linguagem natural da tarefa. Em segundo lugar, os conjuntos de avaliação existentes frequentemente possuem descrições em linguagem natural da tarefa de planejamento que se assemelham de perto ao PDDL verdadeiro, reduzindo o desafio da tarefa. Para preencher essa lacuna, introduzimos o \benchmarkName, um benchmark projetado para avaliar a capacidade de modelos de linguagem de gerar código PDDL a partir de descrições em linguagem natural de tarefas de planejamento. Começamos criando um algoritmo de equivalência PDDL que avalia rigorosamente a correção do código PDDL gerado por modelos de linguagem, comparando-o de forma flexível com um PDDL verdadeiro. Em seguida, apresentamos um conjunto de dados de 132.037 pares de texto-PDDL em 13 tarefas diferentes, com diferentes níveis de dificuldade. Por fim, avaliamos vários modelos de linguagem com acesso à API e de peso aberto que revelam a complexidade dessa tarefa. Por exemplo, 87,6% das descrições de problemas PDDL geradas pelo GPT-4o são sintaticamente analisáveis, 82,2% são problemas válidos e solucionáveis, mas apenas 35,1% são semanticamente corretos, destacando a necessidade de um benchmark mais rigoroso para esse problema.