Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

VidTwin: Vídeo VAE com Estrutura e Dinâmica Desacopladas
VidTwin: Video VAE with Decoupled Structure and Dynamics

Dec 23, 2024

Yuchi Wang, Junliang Guo, Xinyi Xie, Tianyu He, Xu Sun, Jiang Bian

Os avanços recentes em autoencoders de vídeo (Video AEs) melhoraram significativamente a qualidade e eficiência da geração de vídeo. Neste artigo, propomos um autoencoder de vídeo inovador e compacto, chamado VidTwin, que separa o vídeo em dois espaços latentes distintos: vetores latentes de Estrutura, que capturam o conteúdo geral e movimento global, e vetores latentes de Dinâmica, que representam detalhes refinados e movimentos rápidos. Especificamente, nossa abordagem utiliza uma estrutura Encoder-Decoder, complementada por dois submódulos para extrair esses espaços latentes, respectivamente. O primeiro submódulo emprega um Q-Former para extrair tendências de movimento de baixa frequência, seguido por blocos de downsampling para remover detalhes redundantes de conteúdo. O segundo submódulo calcula a média dos vetores latentes ao longo da dimensão espacial para capturar movimentos rápidos. Experimentos extensivos mostram que o VidTwin alcança uma alta taxa de compressão de 0,20% com alta qualidade de reconstrução (PSNR de 28,14 no conjunto de dados MCL-JCV) e desempenha de forma eficiente e eficaz em tarefas generativas subsequentes. Além disso, nosso modelo demonstra explicabilidade e escalabilidade, abrindo caminho para pesquisas futuras em representação latente e geração de vídeo. Nosso código foi disponibilizado em https://github.com/microsoft/VidTok/tree/main/vidtwin.

YuLan-Mini: Um Modelo de Linguagem de Fonte Aberta Eficiente em Dados
YuLan-Mini: An Open Data-efficient Language Model

Dec 23, 2024

Yiwen Hu, Huatong Song, Jia Deng, Jiapeng Wang, Jie Chen, Kun Zhou, Yutao Zhu, Jinhao Jiang, Zican Dong, Wayne Xin Zhao, Ji-Rong Wen

672

O treinamento eficaz de grandes modelos de linguagem (LLMs) tem sido desafiador devido às enormes demandas de recursos e à complexidade dos processos técnicos envolvidos. Este artigo apresenta um relatório técnico detalhado sobre YuLan-Mini, um modelo base altamente capaz com 2,42 bilhões de parâmetros que alcança um desempenho de primeira linha entre modelos de escala de parâmetros semelhante. Nossa abordagem de pré-treinamento concentra-se em aprimorar a eficácia do treinamento por meio de três contribuições técnicas-chave: um elaborado pipeline de dados que combina limpeza de dados com estratégias de programação de dados, um método robusto de otimização para mitigar a instabilidade do treinamento e uma abordagem eficaz de têmpera que incorpora seleção de dados direcionada e treinamento de contexto longo. Notavelmente, o YuLan-Mini, treinado em 1,08 trilhão de tokens, alcança um desempenho comparável a modelos líderes do setor que exigem significativamente mais dados. Para facilitar a reprodução, disponibilizamos todos os detalhes da composição dos dados para cada fase de treinamento. Os detalhes do projeto podem ser acessados no seguinte link: https://github.com/RUC-GSAI/YuLan-Mini.

Uma Solução Milagrosa ou um Compromisso para Atenção Total? Um Estudo Abrangente sobre Compressão de Contexto Baseada em Tokens Gist.
A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression

Dec 23, 2024

Chenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Xinting Huang, Dong Yu, Zhicheng Dou

343

Neste trabalho, fornecemos uma investigação detalhada dos métodos de compressão de contexto baseados em essência para melhorar o processamento de longo contexto em grandes modelos de linguagem. Focamos em duas questões-chave: (1) Quão bem esses métodos podem substituir modelos de atenção completos? e (2) Quais padrões potenciais de falha surgem devido à compressão? Através de experimentos extensivos, demonstramos que, embora a compressão baseada em essência possa alcançar desempenho quase sem perdas em tarefas como geração com recuperação aumentada e QA de documentos longos, ela enfrenta desafios em tarefas como recall sintético. Além disso, identificamos três padrões-chave de falha: perdido pela fronteira, perdido se surpresa e perdido ao longo do caminho. Para mitigar esses problemas, propomos duas estratégias eficazes: autoencodificação refinada, que aprimora a reconstrução das informações originais dos tokens, e estimativa de importância de token por segmento, que ajusta a otimização com base nas dependências dos tokens. Nosso trabalho fornece insights valiosos para a compreensão da compressão de contexto baseada em essência e oferece estratégias práticas para melhorar as capacidades de compressão.

MMFactory: Um Motor de Busca de Soluções Universais para Tarefas de Visão e Linguagem.
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

Dec 24, 2024

Wan-Cyuan Fan, Tanzila Rahman, Leonid Sigal

202

Com os avanços em modelos fundamentais e de visão-linguagem, e técnicas eficazes de ajuste fino, foi desenvolvido um grande número de modelos tanto gerais quanto de propósito específico para uma variedade de tarefas visuais. Apesar da flexibilidade e acessibilidade desses modelos, nenhum modelo único é capaz de lidar com todas as tarefas e/ou aplicações que podem ser imaginadas pelos usuários potenciais. Abordagens recentes, como programação visual e LLMs multimodais com ferramentas integradas, têm como objetivo lidar com tarefas visuais complexas, por meio da síntese de programas. No entanto, tais abordagens ignoram as restrições do usuário (por exemplo, desempenho/necessidades computacionais), produzem soluções específicas de amostra no tempo de teste que são difíceis de implantar e, às vezes, exigem instruções de baixo nível que podem estar além das habilidades de um usuário inexperiente. Para lidar com essas limitações, apresentamos o MMFactory, um framework universal que inclui componentes de roteamento de modelo e métricas, atuando como um mecanismo de busca de soluções entre vários modelos disponíveis. Com base em uma descrição da tarefa e em poucos pares de entrada-saída de amostra e (opcionalmente) restrições de recursos e/ou desempenho, o MMFactory pode sugerir um conjunto diversificado de soluções programáticas instanciando e combinando ferramentas visio-linguais de seu repositório de modelos. Além de sintetizar essas soluções, o MMFactory também propõe métricas e avalia o desempenho/características de recursos, permitindo que os usuários escolham uma solução que atenda às suas restrições de design exclusivas. Do ponto de vista técnico, também introduzimos um proponente de solução baseado em comitê que aproveita a conversa LLM multiagente para gerar soluções executáveis, diversas, universais e robustas para o usuário. Os resultados experimentais mostram que o MMFactory supera os métodos existentes ao fornecer soluções de ponta adaptadas às especificações do problema do usuário. A página do projeto está disponível em https://davidhalladay.github.io/mmfactory_demo.

Molar: LLMs Multimodais com Alinhamento de Filtragem Colaborativa para Recomendação Sequencial Aprimorada
Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation

Dec 24, 2024

Yucong Luo, Qitao Qin, Hao Zhang, Mingyue Cheng, Ruiran Yan, Kefan Wang, Jie Ouyang

162

Os sistemas de recomendação sequencial (SR) evoluíram significativamente na última década, passando de métodos tradicionais de filtragem colaborativa para abordagens de aprendizado profundo e, mais recentemente, para grandes modelos de linguagem (LLMs). Embora a adoção de LLMs tenha impulsionado avanços substanciais, esses modelos naturalmente carecem de informações de filtragem colaborativa, dependendo principalmente de dados de conteúdo textual, negligenciando outras modalidades e, portanto, não conseguindo alcançar um desempenho de recomendação ótimo. Para lidar com essa limitação, propomos o Molar, um framework de recomendação sequencial de grande linguagem multimodal que integra múltiplas modalidades de conteúdo com informações de ID para capturar sinais colaborativos de forma eficaz. O Molar utiliza um MLLM para gerar representações unificadas de itens a partir de dados tanto textuais quanto não textuais, facilitando a modelagem multimodal abrangente e enriquecendo os embeddings de itens. Além disso, incorpora sinais de filtragem colaborativa por meio de um mecanismo de pós-alinhamento, que alinha representações de usuários de modelos baseados em conteúdo e ID, garantindo personalização precisa e desempenho robusto. Ao combinar perfeitamente conteúdo multimodal com insights de filtragem colaborativa, o Molar captura tanto os interesses dos usuários quanto a semântica contextual, resultando em uma precisão de recomendação superior. Experimentos extensivos validam que o Molar supera significativamente baselines tradicionais e baseados em LLM, destacando sua capacidade de utilizar dados multimodais e sinais colaborativos para tarefas de recomendação sequencial. O código-fonte está disponível em https://anonymous.4open.science/r/Molar-8B06/.

MMFactory: Um Motor de Busca de Soluções Universais para Tarefas de Visão e Linguagem.
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

Dec 24, 2024

Wan-Cyuan Fan, Tanzila Rahman, Leonid Sigal

202

Papers Diários

VidTwin: Vídeo VAE com Estrutura e Dinâmica Desacopladas
VidTwin: Video VAE with Decoupled Structure and Dynamics

YuLan-Mini: Um Modelo de Linguagem de Fonte Aberta Eficiente em Dados
YuLan-Mini: An Open Data-efficient Language Model

Uma Solução Milagrosa ou um Compromisso para Atenção Total? Um Estudo Abrangente sobre Compressão de Contexto Baseada em Tokens Gist.
A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression

MMFactory: Um Motor de Busca de Soluções Universais para Tarefas de Visão e Linguagem.
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

Molar: LLMs Multimodais com Alinhamento de Filtragem Colaborativa para Recomendação Sequencial Aprimorada
Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation

Support

Support

Papers Diários

VidTwin: Vídeo VAE com Estrutura e Dinâmica Desacopladas
VidTwin: Video VAE with Decoupled Structure and Dynamics

YuLan-Mini: Um Modelo de Linguagem de Fonte Aberta Eficiente em Dados
YuLan-Mini: An Open Data-efficient Language Model

Uma Solução Milagrosa ou um Compromisso para Atenção Total? Um Estudo Abrangente sobre Compressão de Contexto Baseada em Tokens Gist.
A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression

MMFactory: Um Motor de Busca de Soluções Universais para Tarefas de Visão e Linguagem.
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

Molar: LLMs Multimodais com Alinhamento de Filtragem Colaborativa para Recomendação Sequencial Aprimorada
Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation