HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

19 papers found

Teoria Geral de OCR: Rumo ao OCR-2.0 por meio de um Modelo Unificado de Ponta a Ponta
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

Sep 3

ByHaoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang

Os sistemas tradicionais de OCR (OCR-1.0) estão cada vez mais incapazes de atender às necessidades das pessoas devido à crescente demanda por processamento inteligente de caracteres ópticos artificiais. Neste artigo, referimo-nos coletivamente a todos os sinais ópticos artificiais (por exemplo, textos simples, fórmulas matemáticas/moleculares, tabelas, gráficos, partituras e até formas geométricas) como "caracteres" e propomos a Teoria Geral de OCR juntamente com um excelente modelo, denominado GOT, para promover a chegada do OCR-2.0. O GOT, com 580 milhões de parâmetros, é um modelo unificado, elegante e ponta a ponta, composto por um codificador de alta compressão e um decodificador de contextos longos. Como um modelo OCR-2.0, o GOT pode lidar com todos os "caracteres" mencionados em várias tarefas de OCR. Do lado de entrada, o modelo suporta imagens de cena e de documento em estilos de fatia e página inteira comumente utilizados. Do lado de saída, o GOT pode gerar resultados simples ou formatados (markdown/tikz/smiles/kern) por meio de um prompt fácil. Além disso, o modelo conta com recursos interativos de OCR, ou seja, reconhecimento em nível de região guiado por coordenadas ou cores. Além disso, adaptamos tecnologias de resolução dinâmica e OCR de várias páginas ao GOT para uma melhor praticidade. Nos experimentos, fornecemos resultados suficientes para comprovar a superioridade do nosso modelo.

OLMoE: Modelos de Linguagem de Mistura de Especialistas Abertos
OLMoE: Open Mixture-of-Experts Language Models

Sep 3

ByNiklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi

Apresentamos o OLMoE, um modelo de linguagem totalmente aberto e de última geração que utiliza a técnica de Mixture-of-Experts (MoE) esparsa. O OLMoE-1B-7B possui 7 bilhões de parâmetros, mas utiliza apenas 1B por token de entrada. Pré-treinamos o modelo em 5 trilhões de tokens e posteriormente o adaptamos para criar o OLMoE-1B-7B-Instruct. Nossos modelos superam todos os modelos disponíveis com parâmetros ativos semelhantes, inclusive ultrapassando modelos maiores como o Llama2-13B-Chat e o DeepSeekMoE-16B. Apresentamos diversos experimentos sobre o treinamento de MoE, analisamos o roteamento em nosso modelo demonstrando alta especialização e disponibilizamos de forma aberta todos os aspectos do nosso trabalho: pesos do modelo, dados de treinamento, código e registros.

Kvasir-VQA: Um Conjunto de Dados de Pares Texto-Imagem do Trato Gastrointestinal
Kvasir-VQA: A Text-Image Pair GI Tract Dataset

Sep 2

BySushant Gautam, Andrea Storås, Cise Midoglu, Steven A. Hicks, Vajira Thambawita, Pål Halvorsen, Michael A. Riegler

Apresentamos o Kvasir-VQA, um conjunto de dados expandido derivado dos conjuntos de dados HyperKvasir e Kvasir-Instrument, aumentado com anotações de perguntas e respostas para facilitar tarefas avançadas de aprendizado de máquina em diagnósticos gastrointestinais (GI). Este conjunto de dados compreende 6.500 imagens anotadas abrangendo várias condições do trato GI e instrumentos cirúrgicos, e suporta múltiplos tipos de perguntas, incluindo sim/não, escolha, localização e contagem numérica. O conjunto de dados é destinado a aplicações como legendagem de imagens, Resposta a Perguntas Visuais (VQA), geração baseada em texto de imagens médicas sintéticas, detecção de objetos e classificação. Nossos experimentos demonstram a eficácia do conjunto de dados no treinamento de modelos para três tarefas selecionadas, destacando aplicações significativas em análise de imagens médicas e diagnósticos. Também apresentamos métricas de avaliação para cada tarefa, destacando a usabilidade e versatilidade de nosso conjunto de dados. O conjunto de dados e artefatos de suporte estão disponíveis em https://datasets.simula.no/kvasir-vqa.

ReceitaLonga: Receita para Generalização Eficiente de Contexto Longo em Modelos de Linguagem Grandes
LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models

Aug 31

ByZhiyuan Hu, Yuliang Liu, Jinman Zhao, Suyuchen Wang, Yan Wang, Wei Shen, Qing Gu, Anh Tuan Luu, See-Kiong Ng, Zhiwei Jiang, Bryan Hooi

Grandes modelos de linguagem (LLMs) enfrentam desafios significativos ao lidar com tarefas de longo contexto devido ao tamanho limitado da janela de contexto efetiva durante o pré-treinamento, o que restringe sua capacidade de generalizar sobre sequências estendidas. Enquanto isso, estender a janela de contexto em LLMs por meio de pós-pré-treinamento é altamente intensivo em recursos. Para lidar com isso, introduzimos **LongRecipe**, uma estratégia eficiente de treinamento para ampliar a janela de contexto de LLMs, incluindo análise impactante de tokens, transformação de índice de posição e estratégias de otimização de treinamento. Ele simula entradas de sequências longas mantendo a eficiência de treinamento e melhora significativamente a compreensão do modelo sobre dependências de longo alcance. Experimentos em três tipos de LLMs mostram que o LongRecipe pode utilizar sequências longas exigindo apenas 30% do tamanho da janela de contexto alvo, e reduz os recursos computacionais de treinamento em mais de 85% em comparação com o treinamento de sequência completa. Além disso, o LongRecipe também preserva as capacidades originais do LLM em tarefas gerais. Por fim, *podemos ampliar a janela de contexto efetiva de LLMs de código aberto de 8k para 128k, alcançando desempenho próximo ao do GPT-4 com apenas um dia de treinamento dedicado usando uma única GPU com 80G de memória.* Nosso código está disponível no [link](https://github.com/zhiyuanhubj/LongRecipe).

DepthCrafter: Gerando Sequências Longas e Coerentes de Profundidade para Vídeos de Mundo Aberto
DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

Sep 3

ByWenbo Hu, Xiangjun Gao, Xiaoyu Li, Sijie Zhao, Xiaodong Cun, Yong Zhang, Long Quan, Ying Shan

Apesar dos avanços significativos na estimativa de profundidade monocular para imagens estáticas, estimar a profundidade de vídeos no mundo aberto continua sendo um desafio, uma vez que os vídeos do mundo aberto são extremamente diversos em conteúdo, movimento, movimento da câmera e duração. Apresentamos o DepthCrafter, um método inovador para gerar sequências de profundidade longas temporalmente consistentes com detalhes intricados para vídeos do mundo aberto, sem a necessidade de informações suplementares como poses de câmera ou fluxo óptico. O DepthCrafter alcança a capacidade de generalização para vídeos do mundo aberto ao treinar um modelo de vídeo para profundidade a partir de um modelo de difusão de imagem para vídeo pré-treinado, por meio de nossa estratégia de treinamento em três estágios meticulosamente projetada com os conjuntos de dados de vídeo-profundidade compilados. Nossa abordagem de treinamento permite que o modelo gere sequências de profundidade com comprimentos variáveis de uma só vez, de até 110 quadros, e capture tanto detalhes precisos de profundidade quanto diversidade de conteúdo rico de conjuntos de dados realistas e sintéticos. Também propomos uma estratégia de inferência que processa vídeos extremamente longos por meio de estimativa por segmentos e costura contínua. Avaliações abrangentes em múltiplos conjuntos de dados revelam que o DepthCrafter alcança desempenho de ponta na estimativa de profundidade de vídeo do mundo aberto em configurações de zero-shot. Além disso, o DepthCrafter facilita várias aplicações downstream, incluindo efeitos visuais baseados em profundidade e geração condicional de vídeo.

LinFusion: 1 GPU, 1 Minuto, Imagem de 16K
LinFusion: 1 GPU, 1 Minute, 16K Image

Sep 3

BySonghua Liu, Weihao Yu, Zhenxiong Tan, Xinchao Wang

Os modelos de difusão modernos, especialmente aqueles que utilizam um UNet baseado em Transformer para remoção de ruído, dependem fortemente de operações de autoatenção para gerenciar relações espaciais complexas, alcançando assim um desempenho impressionante na geração. No entanto, esse paradigma existente enfrenta desafios significativos na geração de conteúdo visual de alta resolução devido à sua complexidade quadrática de tempo e memória em relação ao número de tokens espaciais. Para lidar com essa limitação, propomos um novo mecanismo de atenção linear como alternativa neste artigo. Especificamente, iniciamos nossa exploração a partir de modelos recentemente introduzidos com complexidade linear, como Mamba, Mamba2 e Gated Linear Attention, e identificamos dois recursos-chave - normalização de atenção e inferência não causal - que aprimoram o desempenho na geração visual de alta resolução. Com base nessas percepções, introduzimos um paradigma de atenção linear generalizada, que serve como uma aproximação de baixa ordem de uma ampla gama de misturadores de tokens lineares populares. Para reduzir o custo de treinamento e aproveitar melhor os modelos pré-treinados, inicializamos nossos modelos e destilamos o conhecimento do StableDiffusion pré-treinado (SD). Descobrimos que o modelo destilado, denominado LinFusion, alcança desempenho equivalente ou superior ao SD original após apenas um treinamento modesto, enquanto reduz significativamente a complexidade de tempo e memória. Experimentos extensivos no SD-v1.5, SD-v2.1 e SD-XL demonstram que o LinFusion oferece um desempenho satisfatório na geração de alta resolução entre diferentes resoluções, gerando imagens de alta resolução, como resolução 16K. Além disso, é altamente compatível com componentes SD pré-treinados, como ControlNet e IP-Adapter, não exigindo esforços de adaptação. Os códigos estão disponíveis em https://github.com/Huage001/LinFusion.

FLUX que Toca Música
FLUX that Plays Music

Sep 1

ByZhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang

Este artigo explora uma extensão simples do fluxo retificado baseado em difusão para geração de texto para música, denominado FluxMusic. Geralmente, juntamente com o design avançado do modelo Flux, transferimos isso para um espaço latente VAE do espectro mel. Isso envolve primeiro aplicar uma sequência de atenção independente ao fluxo duplo de texto-música, seguido por um fluxo único empilhado de música para previsão de patches denoizados. Empregamos vários codificadores de texto pré-treinados para capturar adequadamente informações semânticas de legenda, bem como flexibilidade de inferência. No meio, informações textuais grosseiras, em conjunto com embeddings de passos de tempo, são utilizadas em um mecanismo de modulação, enquanto detalhes textuais refinados são concatenados com a sequência de patches de música como entradas. Através de um estudo aprofundado, demonstramos que o treinamento de fluxo retificado com uma arquitetura otimizada supera significativamente os métodos de difusão estabelecidos para a tarefa de texto para música, conforme evidenciado por várias métricas automáticas e avaliações de preferência humana. Nossos dados experimentais, código e pesos do modelo estão disponíveis publicamente em: https://github.com/feizc/FluxMusic.

VideoLLaMB: Compreensão de Vídeo de Longo Contexto com Memória Recorrente
VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges

Sep 2

ByYuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng

Os avanços recentes em modelos de vídeo-linguagem em larga escala têm mostrado um potencial significativo para o planejamento em tempo real e interações detalhadas. No entanto, suas altas demandas computacionais e a escassez de conjuntos de dados anotados limitam sua praticidade para pesquisadores acadêmicos. Neste trabalho, apresentamos o VideoLLaMB, um novo framework que utiliza tokens de memória temporal em camadas de ponte para permitir a codificação de sequências de vídeo inteiras juntamente com dados visuais históricos, preservando efetivamente a continuidade semântica e aprimorando o desempenho do modelo em várias tarefas. Esta abordagem inclui tokens de memória recorrentes e um algoritmo SceneTilling, que segmenta vídeos em unidades semânticas independentes para preservar a integridade semântica. Empiricamente, o VideoLLaMB supera significativamente os modelos de vídeo-linguagem existentes, demonstrando uma melhoria de 5,5 pontos em relação aos concorrentes em três benchmarks de VideoQA e 2,06 pontos em planejamento egocêntrico. Resultados abrangentes no MVBench mostram que o VideoLLaMB-7B alcança resultados significativamente melhores do que os modelos 7B anteriores do mesmo LLM. Notavelmente, mantém um desempenho robusto como o PLLaVA mesmo com o aumento do comprimento do vídeo em até 8 vezes. Além disso, os resultados de recuperação de quadros em nosso benchmark Needle in a Video Haystack (NIAVH) especializado validam ainda mais a capacidade do VideoLLaMB de identificar com precisão quadros específicos em vídeos extensos. Nosso algoritmo SceneTilling também possibilita a geração de legendas de vídeo em tempo real diretamente, sem a necessidade de treinamento adicional. Em termos de eficiência, o VideoLLaMB, treinado com 16 quadros, suporta até 320 quadros em uma única GPU Nvidia A100 com escalonamento linear de memória da GPU, garantindo alto desempenho e custo-efetividade, estabelecendo assim uma nova base para modelos de vídeo-linguagem de longa duração em aplicações acadêmicas e práticas.

Otimização de Política de Difusão
Diffusion Policy Policy Optimization

Sep 1

ByAllen Z. Ren, Justin Lidard, Lars L. Ankile, Anthony Simeonov, Pulkit Agrawal, Anirudha Majumdar, Benjamin Burchfiel, Hongkai Dai, Max Simchowitz

Apresentamos a Otimização de Política de Difusão, DPPO, um framework algorítmico que inclui as melhores práticas para ajustar políticas baseadas em difusão (por exemplo, Política de Difusão) em tarefas de controle contínuo e aprendizado de robôs usando o método de gradiente de política (PG) do aprendizado por reforço (RL). Métodos PG são onipresentes no treinamento de políticas RL com outras parametrizações de política; no entanto, havia a conjectura de que seriam menos eficientes para políticas baseadas em difusão. Surpreendentemente, mostramos que o DPPO alcança o melhor desempenho geral e eficiência para ajuste fino em benchmarks comuns em comparação com outros métodos RL para políticas baseadas em difusão e também em comparação com o ajuste fino PG de outras parametrizações de política. Através de investigação experimental, descobrimos que o DPPO aproveita sinergias únicas entre o ajuste fino RL e a parametrização de difusão, resultando em exploração estruturada e em-manifold, treinamento estável e forte robustez da política. Demonstramos ainda as vantagens do DPPO em uma variedade de cenários realistas, incluindo tarefas robóticas simuladas com observações de pixels, e por meio da implantação de políticas treinadas em simulação em hardware de robô em uma tarefa de manipulação de vários estágios de longo prazo. Website com código: diffusion-ppo.github.io

Geração de Vídeo Consciente em 3D de forma Composicional com Diretor LLM
Compositional 3D-aware Video Generation with LLM Director

Aug 31

ByHanxin Zhu, Tianyu He, Anni Tang, Junliang Guo, Zhibo Chen, Jiang Bian

Significativos avanços foram alcançados na geração de texto para vídeo por meio do uso de modelos generativos poderosos e dados em larga escala da internet. No entanto, desafios substanciais ainda persistem no controle preciso de conceitos individuais dentro do vídeo gerado, como o movimento e a aparência de personagens específicos e o deslocamento de pontos de vista. Neste trabalho, propomos um novo paradigma que gera cada conceito em representação 3D separadamente e depois os compõe com priori de Grandes Modelos de Linguagem (LLM) e modelos de difusão 2D. Especificamente, dado um prompt textual de entrada, nosso esquema consiste em três etapas: 1) Utilizamos o LLM como diretor para primeiro decompor a consulta complexa em vários sub-prompts que indicam conceitos individuais dentro do vídeo (por exemplo, cena, objetos, movimentos), em seguida, permitimos que o LLM invoque modelos especialistas pré-treinados para obter representações 3D correspondentes aos conceitos. 2) Para compor essas representações, solicitamos que o LLM multimodal produza orientações aproximadas sobre as escalas e coordenadas de trajetórias para os objetos. 3) Para fazer com que os frames gerados adiram à distribuição natural de imagens, utilizamos ainda priori de difusão 2D e empregamos Amostragem de Destilação de Pontuação para refinar a composição. Experimentos extensivos demonstram que nosso método pode gerar vídeos de alta fidelidade a partir de texto com movimentos diversos e controle flexível sobre cada conceito. Página do projeto: https://aka.ms/c3v.

OD-VAE: Um Compressor de Vídeo Omnidimensional para Melhorar o Modelo de Difusão de Vídeo Latente
OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model

Sep 2

ByLiuhan Chen, Zongjian Li, Bin Lin, Bin Zhu, Qian Wang, Shenghai Yuan, Xing Zhou, Xinghua Cheng, Li Yuan

O Codificador Variacional (VAE), que comprime vídeos em representações latentes, é um componente crucial anterior dos Modelos de Difusão de Vídeo Latente (LVDMs). Com a mesma qualidade de reconstrução, quanto mais suficiente for a compressão do VAE para vídeos, mais eficientes serão os LVDMs. No entanto, a maioria dos LVDMs utiliza VAE de imagens 2D, cuja compressão para vídeos é apenas na dimensão espacial e frequentemente ignorada na dimensão temporal. Como realizar a compressão temporal de vídeos em um VAE para obter representações latentes mais concisas, prometendo uma reconstrução precisa, é raramente explorado. Para preencher essa lacuna, propomos um VAE de compressão oni-dimensional, chamado OD-VAE, que pode comprimir vídeos temporal e espacialmente. Embora a compressão mais suficiente do OD-VAE represente um grande desafio para a reconstrução de vídeos, ainda é possível alcançar alta precisão de reconstrução por meio de nosso projeto refinado. Para obter um melhor equilíbrio entre a qualidade de reconstrução de vídeo e a velocidade de compressão, são introduzidas e analisadas quatro variantes do OD-VAE. Além disso, uma nova inicialização de cauda é projetada para treinar o OD-VAE de forma mais eficiente, e uma nova estratégia de inferência é proposta para permitir que o OD-VAE lide com vídeos de comprimentos arbitrários com memória limitada da GPU. Experimentos abrangentes sobre reconstrução de vídeo e geração de vídeo com base em LVDM demonstram a eficácia e eficiência de nossos métodos propostos.

ContextoCitar: Atribuindo a Geração do Modelo ao Contexto
ContextCite: Attributing Model Generation to Context

Sep 1

ByBenjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry

Como é que os modelos de linguagem utilizam as informações fornecidas como contexto ao gerar uma resposta? Podemos inferir se uma declaração gerada particular está realmente fundamentada no contexto, se é uma interpretação incorreta, ou se é fabricada? Para ajudar a responder a essas questões, introduzimos o problema da atribuição de contexto: identificar as partes do contexto (se h houver) que levaram um modelo a gerar uma declaração específica. Em seguida, apresentamos o ContextCite, um método simples e escalável para atribuição de contexto que pode ser aplicado em cima de qualquer modelo de linguagem existente. Por fim, demonstramos a utilidade do ContextCite através de três aplicações: (1) ajudar a verificar declarações geradas, (2) melhorar a qualidade da resposta ao podar o contexto e (3) detetar ataques de envenenamento. Fornecemos o código para o ContextCite em https://github.com/MadryLab/context-cite.

Compressão precisa de modelos de difusão texto-imagem via Quantização de Vetores
Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization

Aug 31

ByVage Egiazarian, Denis Kuznedelev, Anton Voronov, Ruslan Svirschevski, Michael Goin, Daniil Pavlov, Dan Alistarh, Dmitry Baranchuk

Os modelos de difusão texto-imagem surgiram como um framework poderoso para geração de imagens de alta qualidade a partir de sugestões textuais. O sucesso desses modelos impulsionou o rápido desenvolvimento de modelos de difusão em produção que continuam a aumentar de tamanho e já contêm bilhões de parâmetros. Como resultado, os modelos de ponta de texto-imagem estão se tornando menos acessíveis na prática, especialmente em ambientes com recursos limitados. A quantização pós-treinamento (QPT) aborda esse problema comprimindo os pesos do modelo pré-treinado em representações de menor quantidade de bits. Técnicas recentes de quantização de difusão geralmente dependem da quantização escalar uniforme, proporcionando um desempenho decente para modelos comprimidos em 4 bits. Este trabalho demonstra que a quantização vetorial (QV) mais versátil pode alcançar taxas de compressão mais altas para modelos de difusão texto-imagem em grande escala. Especificamente, adaptamos métodos de QPT baseados em vetores para os modelos texto-imagem em escala de bilhões recentes (SDXL e SDXL-Turbo), e mostramos que os modelos de difusão com 2 bilhões de parâmetros comprimidos para cerca de 3 bits usando QV exibem qualidade de imagem e alinhamento textual semelhantes às técnicas anteriores de compressão em 4 bits.

GenAgent: Construa Sistemas de IA Colaborativos com Fluxo de Trabalho Automatizado Geração - Estudos de Caso sobre ComfyUI
GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI

Sep 2

ByXiangyuan Xue, Zeyu Lu, Di Huang, Wanli Ouyang, Lei Bai

Muitas pesquisas anteriores em IA têm se concentrado no desenvolvimento de modelos monolíticos para maximizar sua inteligência e capacidade, com o principal objetivo de aprimorar o desempenho em tarefas específicas. Em contraste, este artigo explora uma abordagem alternativa: sistemas colaborativos de IA que utilizam fluxos de trabalho para integrar modelos, fontes de dados e pipelines a fim de resolver tarefas complexas e diversas. Apresentamos o GenAgent, um framework baseado em LLM que gera automaticamente fluxos de trabalho complexos, oferecendo maior flexibilidade e escalabilidade em comparação com modelos monolíticos. A inovação central do GenAgent está na representação de fluxos de trabalho com código, juntamente com a construção de fluxos de trabalho com agentes colaborativos de forma passo a passo. Implementamos o GenAgent na plataforma ComfyUI e propomos um novo benchmark, o OpenComfy. Os resultados demonstram que o GenAgent supera abordagens de linha de base tanto em avaliações de nível de execução quanto de nível de tarefa, mostrando sua capacidade de gerar fluxos de trabalho complexos com eficácia e estabilidade superiores.

Siga-Sua-Tela: Preenchimento de Vídeo de Alta Resolução com Geração de Conteúdo Extensiva
Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation

Sep 2

ByQihua Chen, Yue Ma, Hongfa Wang, Junkun Yuan, Wenzhe Zhao, Qi Tian, Hongmei Wang, Shaobo Min, Qifeng Chen, Wei Liu

Este artigo explora a geração de vídeo de alta resolução com extensa geração de conteúdo. Apontamos questões comuns enfrentadas por métodos existentes ao tentar gerar vídeos extensos: a geração de conteúdo de baixa qualidade e limitações impostas pela memória da GPU. Para enfrentar esses desafios, propomos um método baseado em difusão chamado Siga-Seu-Canvas. Ele se baseia em dois projetos principais. Primeiro, em vez de empregar a prática comum de outpainting "single-shot", distribuímos a tarefa por janelas espaciais e as mesclamos de forma contínua. Isso nos permite gerar vídeos de qualquer tamanho e resolução sem sermos limitados pela memória da GPU. Segundo, o vídeo de origem e sua relação posicional relativa são injetados no processo de geração de cada janela. Isso faz com que o layout espacial gerado em cada janela harmonize com o vídeo de origem. O acoplamento desses dois projetos nos permite gerar vídeos de outpainting de alta resolução com conteúdo rico, mantendo consistência espacial e temporal. Siga-Seu-Canvas se destaca no outpainting de vídeo em grande escala, por exemplo, de 512X512 para 1152X2048 (9X), produzindo resultados de alta qualidade e esteticamente agradáveis. Ele alcança os melhores resultados quantitativos em várias configurações de resolução e escala. O código está disponível em https://github.com/mayuelala/FollowYourCanvas

Rede de Fala com Atenção Adaptativa à Densidade: Melhorando a Compreensão de Características para Transtornos de Saúde Mental
Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders

Aug 31

ByGeorgios Ioannides, Adrian Kieback, Aman Chadha, Aaron Elkins

A detecção de depressão baseada em fala apresenta desafios significativos para a detecção automatizada devido à sua manifestação única entre indivíduos e à escassez de dados. Para lidar com esses desafios, apresentamos o DAAMAudioCNNLSTM e o DAAMAudioTransformer, dois modelos eficientes em parâmetros e explicáveis para extração de características de áudio e detecção de depressão. O DAAMAudioCNNLSTM apresenta uma estrutura inovadora CNN-LSTM com o mecanismo de atenção adaptativa à densidade de várias cabeças (DAAM), focando dinamicamente em segmentos de fala informativos. O DAAMAudioTransformer, que utiliza um codificador transformer no lugar da arquitetura CNN-LSTM, incorpora o mesmo módulo DAAM para atenção aprimorada e interpretabilidade. Essas abordagens não apenas aprimoram a robustez e interpretabilidade da detecção, mas também alcançam um desempenho de ponta: o DAAMAudioCNNLSTM com uma pontuação F1 macro de 0,702 e o DAAMAudioTransformer com uma pontuação F1 macro de 0,72 no conjunto de dados DAIC-WOZ, sem depender de informações suplementares, como posições de vogais e informações do locutor durante treinamento/validação, como em abordagens anteriores. A considerável explicabilidade e eficiência de ambos os modelos em aproveitar sinais de fala para detecção de depressão representam um avanço em direção a ferramentas diagnósticas mais confiáveis e clinicamente úteis, prometendo avanços na área de fala e saúde mental. Para incentivar pesquisas adicionais nesse domínio, disponibilizamos nosso código publicamente.

Saber Quando Fundir: Investigando a Recuperação Híbrida em Não Inglês no Domínio Legal
Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain

Sep 2

ByAntoine Louis, Gijs van Dijck, Gerasimos Spanakis

A busca híbrida surgiu como uma estratégia eficaz para compensar as limitações de diferentes paradigmas de correspondência, especialmente em contextos fora do domínio, onde melhorias significativas na qualidade de recuperação foram observadas. No entanto, as pesquisas existentes predominantemente se concentram em um conjunto limitado de métodos de recuperação, avaliados em pares em conjuntos de dados de domínio geral exclusivamente em inglês. Neste trabalho, estudamos a eficácia da busca híbrida em uma variedade de modelos de recuperação proeminentes no campo inexplorado do direito em língua francesa, avaliando cenários de zero-shot e em domínio. Nossas descobertas revelam que em um contexto de zero-shot, a fusão de diferentes modelos de domínio geral melhora consistentemente o desempenho em comparação com o uso de um modelo independente, independentemente do método de fusão. Surpreendentemente, quando os modelos são treinados em domínio, descobrimos que a fusão geralmente diminui o desempenho em relação ao uso do melhor sistema único, a menos que os escores sejam fundidos com pesos cuidadosamente ajustados. Essas novas percepções, entre outras, ampliam a aplicabilidade de descobertas anteriores em um novo campo e idioma, e contribuem para uma compreensão mais profunda da busca híbrida em domínios especializados não em inglês.

O Conjunto de Dados MERIT: Modelagem e Renderização Eficiente de Transcrições Interpretáveis
The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts

Aug 31

ByI. de Rodrigo, A. Sanchez-Cuadrado, J. Boal, A. J. Lopez-Lopez

Este artigo apresenta o Conjunto de Dados MERIT, um conjunto de dados multimodal (texto + imagem + layout) totalmente rotulado no contexto de relatórios escolares. Com mais de 400 rótulos e 33 mil amostras, o Conjunto de Dados MERIT é um recurso valioso para treinar modelos em tarefas exigentes de Compreensão de Documentos Visualmente Ricos (VrDU). Por sua natureza (relatórios de notas de alunos), o Conjunto de Dados MERIT pode potencialmente incluir vieses de forma controlada, tornando-se uma ferramenta valiosa para avaliar vieses induzidos em Modelos de Linguagem (LLMs). O artigo descreve o pipeline de geração do conjunto de dados e destaca suas principais características nos domínios textual, visual, de layout e de viés. Para demonstrar a utilidade do conjunto de dados, apresentamos um benchmark com modelos de classificação de tokens, mostrando que o conjunto de dados representa um desafio significativo mesmo para modelos de última geração e que estes se beneficiariam enormemente ao incluir amostras do Conjunto de Dados MERIT em sua fase de pré-treinamento.

PrivacyLens: Avaliando a Consciência das Normas de Privacidade dos Modelos de Linguagem em Ação
PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action

Aug 29

ByYijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang

Como os modelos de linguagem (LMs) são amplamente utilizados em cenários de comunicação personalizada (por exemplo, envio de e-mails, redação de posts em redes sociais) e dotados de um certo nível de agência, garantir que atuem de acordo com as normas contextuais de privacidade torna-se cada vez mais crítico. No entanto, quantificar a consciência das normas de privacidade dos LMs e o surgimento do risco de privacidade na comunicação mediada por LMs é desafiador devido a (1) natureza contextual e de longa cauda dos casos sensíveis à privacidade e (2) à falta de abordagens de avaliação que capturem cenários de aplicação realistas. Para enfrentar esses desafios, propomos o PrivacyLens, um novo framework projetado para estender sementes sensíveis à privacidade em vinhetas expressivas e posteriormente em trajetórias de agentes, possibilitando a avaliação em vários níveis do vazamento de privacidade nas ações dos agentes LM. Nós instanciamos o PrivacyLens com uma coleção de normas de privacidade fundamentadas na literatura de privacidade e sementes coletadas por crowdsourcing. Usando esse conjunto de dados, revelamos uma discrepância entre o desempenho dos LMs ao responder perguntas investigativas e seu comportamento real ao executar instruções de usuário em um ambiente de agente. Modelos de LMs de ponta, como GPT-4 e Llama-3-70B, vazam informações sensíveis em 25,68% e 38,69% dos casos, mesmo quando solicitados com instruções que melhoram a privacidade. Também demonstramos a natureza dinâmica do PrivacyLens ao estender cada semente em múltiplas trajetórias para avaliar o risco de vazamento de privacidade dos LMs. O conjunto de dados e o código estão disponíveis em https://github.com/SALT-NLP/PrivacyLens.

VideoLLaMB: Compreensão de Vídeo de Longo Contexto com Memória Recorrente
VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges

Sep 2

ByYuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng