Artigos de pesquisa em IA selecionados diariamente com traduções
Os avanços recentes em autoencoders de vídeo (Video AEs) melhoraram significativamente a qualidade e eficiência da geração de vídeo. Neste artigo, propomos um autoencoder de vídeo inovador e compacto, chamado VidTwin, que separa o vídeo em dois espaços latentes distintos: vetores latentes de Estrutura, que capturam o conteúdo geral e movimento global, e vetores latentes de Dinâmica, que representam detalhes refinados e movimentos rápidos. Especificamente, nossa abordagem utiliza uma estrutura Encoder-Decoder, complementada por dois submódulos para extrair esses espaços latentes, respectivamente. O primeiro submódulo emprega um Q-Former para extrair tendências de movimento de baixa frequência, seguido por blocos de downsampling para remover detalhes redundantes de conteúdo. O segundo submódulo calcula a média dos vetores latentes ao longo da dimensão espacial para capturar movimentos rápidos. Experimentos extensivos mostram que o VidTwin alcança uma alta taxa de compressão de 0,20% com alta qualidade de reconstrução (PSNR de 28,14 no conjunto de dados MCL-JCV) e desempenha de forma eficiente e eficaz em tarefas generativas subsequentes. Além disso, nosso modelo demonstra explicabilidade e escalabilidade, abrindo caminho para pesquisas futuras em representação latente e geração de vídeo. Nosso código foi disponibilizado em https://github.com/microsoft/VidTok/tree/main/vidtwin.
O treinamento eficaz de grandes modelos de linguagem (LLMs) tem sido desafiador devido às enormes demandas de recursos e à complexidade dos processos técnicos envolvidos. Este artigo apresenta um relatório técnico detalhado sobre YuLan-Mini, um modelo base altamente capaz com 2,42 bilhões de parâmetros que alcança um desempenho de primeira linha entre modelos de escala de parâmetros semelhante. Nossa abordagem de pré-treinamento concentra-se em aprimorar a eficácia do treinamento por meio de três contribuições técnicas-chave: um elaborado pipeline de dados que combina limpeza de dados com estratégias de programação de dados, um método robusto de otimização para mitigar a instabilidade do treinamento e uma abordagem eficaz de têmpera que incorpora seleção de dados direcionada e treinamento de contexto longo. Notavelmente, o YuLan-Mini, treinado em 1,08 trilhão de tokens, alcança um desempenho comparável a modelos líderes do setor que exigem significativamente mais dados. Para facilitar a reprodução, disponibilizamos todos os detalhes da composição dos dados para cada fase de treinamento. Os detalhes do projeto podem ser acessados no seguinte link: https://github.com/RUC-GSAI/YuLan-Mini.
Neste trabalho, fornecemos uma investigação detalhada dos métodos de compressão de contexto baseados em essência para melhorar o processamento de longo contexto em grandes modelos de linguagem. Focamos em duas questões-chave: (1) Quão bem esses métodos podem substituir modelos de atenção completos? e (2) Quais padrões potenciais de falha surgem devido à compressão? Através de experimentos extensivos, demonstramos que, embora a compressão baseada em essência possa alcançar desempenho quase sem perdas em tarefas como geração com recuperação aumentada e QA de documentos longos, ela enfrenta desafios em tarefas como recall sintético. Além disso, identificamos três padrões-chave de falha: perdido pela fronteira, perdido se surpresa e perdido ao longo do caminho. Para mitigar esses problemas, propomos duas estratégias eficazes: autoencodificação refinada, que aprimora a reconstrução das informações originais dos tokens, e estimativa de importância de token por segmento, que ajusta a otimização com base nas dependências dos tokens. Nosso trabalho fornece insights valiosos para a compreensão da compressão de contexto baseada em essência e oferece estratégias práticas para melhorar as capacidades de compressão.
Com os avanços em modelos fundamentais e de visão-linguagem, e técnicas eficazes de ajuste fino, foi desenvolvido um grande número de modelos tanto gerais quanto de propósito específico para uma variedade de tarefas visuais. Apesar da flexibilidade e acessibilidade desses modelos, nenhum modelo único é capaz de lidar com todas as tarefas e/ou aplicações que podem ser imaginadas pelos usuários potenciais. Abordagens recentes, como programação visual e LLMs multimodais com ferramentas integradas, têm como objetivo lidar com tarefas visuais complexas, por meio da síntese de programas. No entanto, tais abordagens ignoram as restrições do usuário (por exemplo, desempenho/necessidades computacionais), produzem soluções específicas de amostra no tempo de teste que são difíceis de implantar e, às vezes, exigem instruções de baixo nível que podem estar além das habilidades de um usuário inexperiente. Para lidar com essas limitações, apresentamos o MMFactory, um framework universal que inclui componentes de roteamento de modelo e métricas, atuando como um mecanismo de busca de soluções entre vários modelos disponíveis. Com base em uma descrição da tarefa e em poucos pares de entrada-saída de amostra e (opcionalmente) restrições de recursos e/ou desempenho, o MMFactory pode sugerir um conjunto diversificado de soluções programáticas instanciando e combinando ferramentas visio-linguais de seu repositório de modelos. Além de sintetizar essas soluções, o MMFactory também propõe métricas e avalia o desempenho/características de recursos, permitindo que os usuários escolham uma solução que atenda às suas restrições de design exclusivas. Do ponto de vista técnico, também introduzimos um proponente de solução baseado em comitê que aproveita a conversa LLM multiagente para gerar soluções executáveis, diversas, universais e robustas para o usuário. Os resultados experimentais mostram que o MMFactory supera os métodos existentes ao fornecer soluções de ponta adaptadas às especificações do problema do usuário. A página do projeto está disponível em https://davidhalladay.github.io/mmfactory_demo.
Os sistemas de recomendação sequencial (SR) evoluíram significativamente na última década, passando de métodos tradicionais de filtragem colaborativa para abordagens de aprendizado profundo e, mais recentemente, para grandes modelos de linguagem (LLMs). Embora a adoção de LLMs tenha impulsionado avanços substanciais, esses modelos naturalmente carecem de informações de filtragem colaborativa, dependendo principalmente de dados de conteúdo textual, negligenciando outras modalidades e, portanto, não conseguindo alcançar um desempenho de recomendação ótimo. Para lidar com essa limitação, propomos o Molar, um framework de recomendação sequencial de grande linguagem multimodal que integra múltiplas modalidades de conteúdo com informações de ID para capturar sinais colaborativos de forma eficaz. O Molar utiliza um MLLM para gerar representações unificadas de itens a partir de dados tanto textuais quanto não textuais, facilitando a modelagem multimodal abrangente e enriquecendo os embeddings de itens. Além disso, incorpora sinais de filtragem colaborativa por meio de um mecanismo de pós-alinhamento, que alinha representações de usuários de modelos baseados em conteúdo e ID, garantindo personalização precisa e desempenho robusto. Ao combinar perfeitamente conteúdo multimodal com insights de filtragem colaborativa, o Molar captura tanto os interesses dos usuários quanto a semântica contextual, resultando em uma precisão de recomendação superior. Experimentos extensivos validam que o Molar supera significativamente baselines tradicionais e baseados em LLM, destacando sua capacidade de utilizar dados multimodais e sinais colaborativos para tarefas de recomendação sequencial. O código-fonte está disponível em https://anonymous.4open.science/r/Molar-8B06/.