Artigos de pesquisa em IA selecionados diariamente com traduções
Os grandes modelos de linguagem (LLMs) alcançaram um progresso substancial no processamento de contextos longos, mas ainda enfrentam dificuldades com o raciocínio em contextos longos. As abordagens existentes geralmente envolvem o ajuste fino dos LLMs com dados sintéticos, que dependem de anotações de especialistas humanos ou de modelos avançados como o GPT-4, restringindo assim avanços adicionais. Para abordar essa questão, investigamos o potencial dos LLMs de se auto aprimorarem no raciocínio em contextos longos e propomos \ours, uma abordagem especificamente projetada para esse fim. Esta abordagem é direta: amostramos múltiplas saídas para cada pergunta, as pontuamos com o Risco Bayesiano Mínimo e, em seguida, aplicamos ajuste fino supervisionado ou otimização de preferência com base nessas saídas. Experimentos extensos em diversos LLMs líderes demonstram a eficácia de \ours, com uma melhoria absoluta de 4,2 pontos para o Llama-3.1-8B-Instruct. Além disso, \ours alcança um desempenho superior em comparação com abordagens anteriores que dependem de dados produzidos por especialistas humanos ou modelos avançados. Antecipamos que este trabalho abrirá novos caminhos para técnicas de auto aprimoramento em cenários de contextos longos, essenciais para o contínuo avanço dos LLMs.
A geração de vídeos tem surgido como uma ferramenta promissora para simulação de mundo, aproveitando dados visuais para replicar ambientes do mundo real. Dentro deste contexto, a geração de vídeos egocêntricos, que se concentra na perspectiva humana, possui um potencial significativo para aprimorar aplicações em realidade virtual, realidade aumentada e jogos. No entanto, a geração de vídeos egocêntricos apresenta desafios substanciais devido à natureza dinâmica dos pontos de vista egocêntricos, à diversidade intricada de ações e à variedade complexa de cenas encontradas. Conjuntos de dados existentes são inadequados para lidar eficazmente com esses desafios. Para preencher essa lacuna, apresentamos o EgoVid-5M, o primeiro conjunto de dados de alta qualidade especificamente elaborado para geração de vídeos egocêntricos. O EgoVid-5M abrange 5 milhões de clipes de vídeo egocêntricos e é enriquecido com anotações detalhadas de ações, incluindo controle cinemático refinado e descrições textuais de alto nível. Para garantir a integridade e usabilidade do conjunto de dados, implementamos um sofisticado pipeline de limpeza de dados projetado para manter a consistência de quadros, coerência de ações e suavidade de movimento sob condições egocêntricas. Além disso, introduzimos o EgoDreamer, capaz de gerar vídeos egocêntricos impulsionados simultaneamente por descrições de ações e sinais de controle cinemático. O conjunto de dados EgoVid-5M, as anotações de ações associadas e todos os metadados de limpeza de dados serão disponibilizados para o avanço da pesquisa em geração de vídeos egocêntricos.
O alinhamento de grandes modelos de linguagem (LLMs) com as preferências humanas continua sendo um desafio chave. Enquanto técnicas pós-treinamento como Aprendizado por Reforço a partir do Feedback Humano (RLHF) e Otimização Direta de Preferências (DPO) alcançaram sucesso notável, frequentemente introduzem ineficiências computacionais e instabilidade no treinamento. Neste artigo, propomos a Otimização de Preferências com Restrição a Nível de Característica (FPO), um método inovador projetado para simplificar o processo de alinhamento enquanto garante estabilidade. O FPO aproveita Autoencoders Esparsos (SAEs) pré-treinados e introduz restrições a nível de características, permitindo um alinhamento eficiente e com enfase na esparsidade. Nossa abordagem desfruta de eficiência ao utilizar características esparsas ativadas em um autoencoder esparsos bem treinado e a qualidade da divergência KL sequencial ao utilizar a referência offline a nível de características. Resultados experimentais em conjuntos de dados de referência demonstram que o FPO alcança uma melhoria absoluta de 5,08% na taxa de vitória com um custo computacional muito menor em comparação com as bases de referência de última geração, tornando-o uma solução promissora para alinhamentos eficientes e controláveis de LLMs.
Os modelos de linguagem franceses, como o CamemBERT, têm sido amplamente adotados em diversas indústrias para tarefas de processamento de linguagem natural (PLN), com modelos como o CamemBERT alcançando mais de 4 milhões de downloads por mês. No entanto, esses modelos enfrentam desafios devido à deriva temporal de conceitos, onde dados de treinamento desatualizados levam a uma queda de desempenho, especialmente ao lidar com tópicos e terminologia novos. Esse problema destaca a necessidade de modelos atualizados que reflitam as tendências linguísticas atuais. Neste artigo, apresentamos duas novas versões do modelo base CamemBERT - CamemBERTav2 e CamemBERTv2 - projetadas para enfrentar esses desafios. O CamemBERTav2 é baseado na arquitetura DeBERTaV3 e faz uso do objetivo de Detecção de Token Substituído (RTD) para uma melhor compreensão contextual, enquanto o CamemBERTv2 é construído sobre o RoBERTa, que utiliza o objetivo de Modelagem de Linguagem Mascara (MLM). Ambos os modelos são treinados em um conjunto de dados significativamente maior e mais recente, com um comprimento de contexto mais longo e um tokenizador atualizado que aprimora o desempenho de tokenização para o francês. Avaliamos o desempenho desses modelos em tarefas de PLN de domínio geral e aplicações específicas de domínio, como tarefas no campo médico, demonstrando sua versatilidade e eficácia em uma variedade de casos de uso. Nossos resultados mostram que esses modelos atualizados superam significativamente seus predecessores, tornando-os ferramentas valiosas para sistemas modernos de PLN. Todos os nossos novos modelos, bem como checkpoints intermediários, estão disponíveis abertamente no Huggingface.
Os vetores de direção são uma abordagem promissora para controlar o comportamento de grandes modelos de linguagem. No entanto, seus mecanismos subjacentes ainda são mal compreendidos. Embora os autoencoders esparsos (SAEs) possam oferecer um método potencial para interpretar os vetores de direção, descobertas recentes mostram que os vetores reconstruídos por SAE frequentemente carecem das propriedades de direção dos vetores originais. Este artigo investiga por que a aplicação direta de SAEs aos vetores de direção resulta em decomposições enganosas, identificando duas razões: (1) os vetores de direção estão fora da distribuição de entrada para a qual os SAEs são projetados e (2) os vetores de direção podem ter projeções negativas significativas em direções de características, para as quais os SAEs não são projetados para acomodar. Essas limitações dificultam o uso direto de SAEs para interpretar vetores de direção.
A geração de música progrediu significativamente, especialmente no domínio da geração de áudio. No entanto, gerar música simbólica que seja ao mesmo tempo estruturada em longo prazo e expressiva continua sendo um desafio significativo. Neste artigo, propomos o PerceiverS (Segmentação e Escala), uma arquitetura inovadora projetada para abordar essa questão, aproveitando tanto mecanismos de Segmentação Efetiva quanto de Atenção Multi-Escala. Nossa abordagem aprimora a geração de música simbólica ao aprender simultaneamente dependências estruturais de longo prazo e detalhes expressivos de curto prazo. Ao combinar atenção cruzada e autoatenção em um ambiente Multi-Escala, o PerceiverS captura a estrutura musical de longo alcance preservando nuances de desempenho. O modelo proposto, avaliado em conjuntos de dados como o Maestro, demonstra melhorias na geração de música coerente e diversificada com consistência estrutural e variação expressiva. As demonstrações do projeto e as amostras de música geradas podem ser acessadas pelo link: https://perceivers.github.io.
Os modelos existentes de texto-para-vídeo (T2V) frequentemente enfrentam dificuldades em gerar vídeos com ações suficientemente pronunciadas ou complexas. Uma limitação chave reside na incapacidade do prompt de texto em transmitir precisamente detalhes de movimento intricados. Para abordar isso, propomos um novo framework, MVideo, projetado para produzir vídeos de longa duração com ações precisas e fluidas. MVideo supera as limitações dos prompts de texto ao incorporar sequências de máscaras como uma entrada adicional de condição de movimento, fornecendo uma representação mais clara e precisa das ações pretendidas. Aproveitando modelos visuais fundamentais como GroundingDINO e SAM2, o MVideo gera automaticamente sequências de máscaras, aprimorando tanto a eficiência quanto a robustez. Nossos resultados demonstram que, após o treinamento, o MVideo alinha efetivamente os prompts de texto com as condições de movimento para produzir vídeos que atendem simultaneamente a ambos os critérios. Esse mecanismo de controle duplo permite uma geração de vídeo mais dinâmica, possibilitando alterações no prompt de texto ou na condição de movimento de forma independente, ou ambos em conjunto. Além disso, o MVideo suporta a edição e composição de condições de movimento, facilitando a geração de vídeos com ações mais complexas. Dessa forma, o MVideo avança na geração de movimento T2V, estabelecendo um forte referencial para uma representação aprimorada de ações nos modelos de difusão de vídeo atuais. Nossa página do projeto está disponível em https://mvideo-v1.github.io/.