HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

19 papers found

Relatório Técnico Qwen2-Audio
Qwen2-Audio Technical Report

Jul 15

ByYunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou

Apresentamos o mais recente progresso do Qwen-Audio, um modelo de áudio-linguagem em larga escala chamado Qwen2-Audio, capaz de aceitar vários tipos de sinais de áudio e realizar análises de áudio ou respostas textuais diretas em relação a instruções de fala. Em contraste com tags hierárquicas complexas, simplificamos o processo de pré-treinamento utilizando prompts de linguagem natural para diferentes dados e tarefas, e expandimos ainda mais o volume de dados. Reforçamos a capacidade de seguir instruções do Qwen2-Audio e implementamos dois modos distintos de interação de áudio para bate-papo por voz e análise de áudio. No modo de bate-papo por voz, os usuários podem interagir livremente por voz com o Qwen2-Audio sem entrada de texto. No modo de análise de áudio, os usuários podem fornecer instruções de áudio e texto para análise durante a interação. Observa-se que não utilizamos prompts do sistema para alternar entre os modos de bate-papo por voz e análise de áudio. O Qwen2-Audio é capaz de compreender inteligentemente o conteúdo dentro do áudio e seguir comandos de voz para responder adequadamente. Por exemplo, em um segmento de áudio que contenha simultaneamente sons, conversas de múltiplos interlocutores e um comando de voz, o Qwen2-Audio pode entender diretamente o comando e fornecer uma interpretação e resposta ao áudio. Além disso, a DPO otimizou o desempenho do modelo em termos de factualidade e adesão ao comportamento desejado. De acordo com os resultados de avaliação do AIR-Bench, o Qwen2-Audio superou os SOTAs anteriores, como o Gemini-1.5-pro, em testes focados nas capacidades de seguir instruções centradas em áudio. O Qwen2-Audio é de código aberto com o objetivo de promover o avanço da comunidade de linguagem multimodal.

NeedleBench: Será que LLMs conseguem fazer recuperação e raciocínio em 1 milhão de contextos?
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

Jul 16

ByMo Li, Songyang Zhang, Yunxin Liu, Kai Chen

Na avaliação das capacidades de longo contexto de grandes modelos de linguagem (LLMs), identificar conteúdo relevante para a consulta de um usuário a partir de documentos longos originais é um pré-requisito crucial para que qualquer LLM possa responder a perguntas com base em texto longo. Apresentamos o NeedleBench, um framework composto por uma série de tarefas progressivamente mais desafiadoras para avaliar as capacidades bilíngues de longo contexto, abrangendo múltiplos intervalos de comprimento (4k, 8k, 32k, 128k, 200k, 1000k e além) e diferentes faixas de profundidade, permitindo a inserção estratégica de pontos de dados críticos em diferentes zonas de profundidade de texto para testar rigorosamente as capacidades de recuperação e raciocínio dos modelos em contextos diversos. Utilizamos o framework NeedleBench para avaliar quão bem os principais modelos de código aberto podem identificar informações-chave relevantes para a pergunta e aplicar essas informações ao raciocínio em textos longos bilíngues. Além disso, propomos o Desafio de Rastreamento Ancestral (ATC) para imitar a complexidade de desafios de raciocínio lógico que provavelmente estão presentes em tarefas de longo contexto do mundo real, fornecendo um método simples para avaliar LLMs lidando com situações complexas de longo contexto. Nossos resultados sugerem que os atuais LLMs têm um espaço significativo para melhorias em aplicações práticas de longo contexto, pois enfrentam dificuldades com a complexidade de desafios de raciocínio lógico que provavelmente estão presentes em tarefas de longo contexto do mundo real. Todos os códigos e recursos estão disponíveis no OpenCompass: https://github.com/open-compass/opencompass.

Escalonando Transformadores de Difusão para 16 Bilhões de Parâmetros
Scaling Diffusion Transformers to 16 Billion Parameters

Jul 16

ByZhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang

Neste artigo, apresentamos o DiT-MoE, uma versão esparsa do Transformer de difusão, que é escalável e competitiva com redes densas, ao mesmo tempo que exibe inferência altamente otimizada. O DiT-MoE inclui dois projetos simples: roteamento de especialistas compartilhados e perda de equilíbrio de nível de especialista, capturando assim conhecimento comum e reduzindo a redundância entre os diferentes especialistas roteados. Quando aplicado à geração condicional de imagens, uma análise aprofundada dos ganhos de especialização dos especialistas revela algumas observações interessantes: (i) A seleção de especialistas mostra preferência pela posição espacial e pelo passo de tempo de remoção de ruído, sendo insensível a informações condicionais de classe diferentes; (ii) À medida que as camadas MoE se aprofundam, a seleção de especialistas gradualmente se desloca de posições espaciais específicas para dispersão e equilíbrio; (iii) A especialização dos especialistas tende a ser mais concentrada no início do passo de tempo e depois uniforme gradualmente após a metade. Atribuímos isso ao processo de difusão que primeiro modela as informações espaciais de baixa frequência e depois as informações complexas de alta frequência. Com base nas orientações acima, uma série de experimentos DiT-MoE alcança experimentalmente desempenho comparável a redes densas, mas requer uma carga computacional muito menor durante a inferência. Mais encorajadoramente, demonstramos o potencial do DiT-MoE com dados de imagem sintetizados, escalando o modelo de difusão para um parâmetro de 16,5B que alcança um novo escore FID-50K de SoTA de 1,80 em configurações de resolução de 512 vezes 512. A página do projeto: https://github.com/feizc/DiT-MoE.

Ref-AVS: Referenciar e Segmentar Objetos em Cenas Áudio-Visuais
Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

Jul 15

ByYaoting Wang, Peiwen Sun, Dongzhan Zhou, Guangyao Li, Honggang Zhang, Di Hu

As tarefas tradicionais de segmentação de referência têm se concentrado predominantemente em cenas visuais silenciosas, negligenciando o papel integral da percepção e interação multimodal nas experiências humanas. Neste trabalho, introduzimos uma nova tarefa chamada Segmentação Audiovisual de Referência (Ref-AVS), que busca segmentar objetos dentro do domínio visual com base em expressões contendo pistas multimodais. Tais expressões são articuladas em formas de linguagem natural, mas são enriquecidas com pistas multimodais, incluindo descrições de áudio e visual. Para facilitar esta pesquisa, construímos o primeiro benchmark de Ref-AVS, que fornece anotações a nível de pixel para objetos descritos em expressões correspondentes de pistas multimodais. Para lidar com a tarefa de Ref-AVS, propomos um novo método que utiliza adequadamente pistas multimodais para oferecer orientação de segmentação precisa. Finalmente, realizamos experimentos quantitativos e qualitativos em três subconjuntos de teste para comparar nossa abordagem com métodos existentes de tarefas relacionadas. Os resultados demonstram a eficácia de nosso método, destacando sua capacidade de segmentar objetos com precisão usando expressões de pistas multimodais. O conjunto de dados está disponível em https://gewu-lab.github.io/Ref-AVS{https://gewu-lab.github.io/Ref-AVS}.

Sibyl: Estrutura de Agente Simples porém Efetiva para Raciocínio Complexo no Mundo Real
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning

Jul 15

ByYulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie

Agentes existentes baseados em grandes modelos de linguagem (LLMs) demonstram capacidades robustas de resolução de problemas ao integrar o conhecimento inerente dos LLMs, forte aprendizado em contexto e capacidades de zero-shot, e o uso de ferramentas combinadas com fluxos de invocação de LLMs intricadamente projetados por humanos. No entanto, esses agentes ainda apresentam deficiências em raciocínio de longo prazo e subutilizam o potencial de ferramentas existentes, resultando em deficiências perceptíveis em cenários complexos de raciocínio do mundo real. Para lidar com essas limitações, apresentamos Sibyl, um framework de agente baseado em LLM simples, porém poderoso, projetado para enfrentar tarefas de raciocínio complexas ao alavancar de forma eficiente um conjunto mínimo de ferramentas. Inspirado na Teoria do Espaço de Trabalho Global, Sibyl incorpora um espaço de trabalho global para aprimorar a gestão e compartilhamento de conhecimento e histórico de conversas em todo o sistema. Além disso, guiado pela Teoria da Sociedade da Mente, Sibyl implementa um júri baseado em debates de múltiplos agentes para auto-refinar as respostas finais, garantindo uma abordagem abrangente e equilibrada. Este método visa reduzir a complexidade do sistema enquanto expande o escopo de problemas solucionáveis - de questões normalmente resolvidas por humanos em minutos para aquelas que exigem horas ou até mesmo dias, facilitando assim uma transição do pensamento do Sistema-1 para o Sistema-2. Sibyl foi projetado com foco em escalabilidade e facilidade de depuração, incorporando o conceito de reentrância da programação funcional desde sua concepção, com o objetivo de integração contínua e de baixo esforço em outras aplicações de LLM para melhorar as capacidades. Nossos resultados experimentais no conjunto de testes de benchmark GAIA revelam que o agente Sibyl instanciado com GPT-4 alcança desempenho de ponta com uma pontuação média de 34,55%, em comparação com outros agentes baseados em GPT-4. Esperamos que Sibyl possa inspirar soluções de agentes baseados em LLM mais confiáveis e reutilizáveis para lidar com tarefas complexas de raciocínio do mundo real.

VLMEvalKit: Um Conjunto de Ferramentas de Código Aberto para Avaliar Modelos de Grande Escala de Multi-Modalidade
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

Jul 16

ByHaodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen

Apresentamos o VLMEvalKit: um conjunto de ferramentas de código aberto para avaliar modelos de grande porte de multi-modalidade baseados em PyTorch. O kit tem como objetivo fornecer um framework abrangente e de fácil utilização para pesquisadores e desenvolvedores avaliarem modelos de multi-modalidade existentes e publicarem resultados de avaliação reproduzíveis. No VLMEvalKit, implementamos mais de 70 modelos de grande porte de multi-modalidade diferentes, incluindo APIs proprietárias e modelos de código aberto, bem como mais de 20 benchmarks multi-modais diferentes. Ao implementar uma única interface, novos modelos podem ser facilmente adicionados ao kit, enquanto o kit lida automaticamente com as demais cargas de trabalho, incluindo preparação de dados, inferência distribuída, pós-processamento de previsão e cálculo de métricas. Embora o kit seja atualmente usado principalmente para avaliar grandes modelos de visão e linguagem, seu design é compatível com atualizações futuras que incorporem modalidades adicionais, como áudio e vídeo. Com base nos resultados de avaliação obtidos com o kit, hospedamos o OpenVLM Leaderboard, um leaderboard abrangente para acompanhar o progresso da pesquisa em aprendizado de multi-modalidade. O kit está disponível em https://github.com/open-compass/VLMEvalKit e é ativamente mantido.

DreamCatalyst: Edição 3D Rápida e de Alta Qualidade através do Controle da Editabilidade e Preservação da Identidade
DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation

Jul 16

ByJiwook Kim, Seonho Lee, Jaeyo Shin, Jiho Choi, Hyunjung Shim

A amostragem de destilação de pontuação (SDS) surgiu como um framework eficaz em tarefas de edição 3D orientadas por texto devido à sua consistência 3D inerente. No entanto, os métodos de edição 3D baseados em SDS existentes sofrem de um extenso tempo de treinamento e resultam em resultados de baixa qualidade, principalmente porque esses métodos se afastam da dinâmica de amostragem dos modelos de difusão. Neste artigo, propomos o DreamCatalyst, um novo framework que interpreta a edição baseada em SDS como um processo de difusão reversa. Nossa função objetivo considera a dinâmica de amostragem, tornando assim o processo de otimização do DreamCatalyst uma aproximação do processo de difusão reversa em tarefas de edição. O DreamCatalyst tem como objetivo reduzir o tempo de treinamento e melhorar a qualidade da edição. O DreamCatalyst apresenta dois modos: (1) um modo mais rápido, que edita a cena NeRF em apenas cerca de 25 minutos, e (2) um modo de alta qualidade, que produz resultados superiores em menos de 70 minutos. Especificamente, nosso modo de alta qualidade supera os métodos de edição NeRF de última geração atuais tanto em termos de velocidade quanto de qualidade. Veja resultados mais abrangentes em nossa página do projeto: https://dream-catalyst.github.io.

Animate3D: Animação de Qualquer Modelo 3D com Difusão de Vídeo Multivisão
Animate3D: Animating Any 3D Model with Multi-view Video Diffusion

Jul 16

ByYanqin Jiang, Chaohui Yu, Chenjie Cao, Fan Wang, Weiming Hu, Jin Gao

Os avanços recentes na geração 4D concentram-se principalmente em gerar conteúdo 4D por meio da destilação de modelos pré-treinados de texto ou condicionados a imagens de vista única. É inconveniente para eles aproveitarem vários ativos 3D prontos para uso com atributos de múltiplas vistas, e seus resultados sofrem de inconsistência espaço-temporal devido à ambiguidade inerente nos sinais de supervisão. Neste trabalho, apresentamos Animate3D, um novo framework para animar qualquer modelo 3D estático. A ideia central é dupla: 1) Propomos um novo modelo de difusão de vídeo de múltiplas vistas (MV-VDM) condicionado a renderizações de múltiplas vistas do objeto 3D estático, que é treinado em nosso grande conjunto de dados de vídeo de múltiplas vistas (MV-Video) apresentado. 2) Com base no MV-VDM, introduzimos um framework que combina reconstrução e Amostragem de Difusão de Pontuação 4D (4D-SDS) para aproveitar as prioridades de difusão de vídeo de múltiplas vistas para animar objetos 3D. Especificamente, para o MV-VDM, projetamos um novo módulo de atenção espaço-temporal para melhorar a consistência espacial e temporal integrando modelos de difusão 3D e de vídeo. Além disso, aproveitamos as renderizações de múltiplas vistas do modelo 3D estático como condições para preservar sua identidade. Para animar modelos 3D, é proposto um pipeline eficaz em duas etapas: primeiro reconstruímos movimentos diretamente a partir de vídeos de múltiplas vistas gerados, seguido pela introdução do 4D-SDS para refinar tanto a aparência quanto o movimento. Experimentos qualitativos e quantitativos demonstram que o Animate3D supera significativamente abordagens anteriores. Os dados, código e modelos serão disponibilizados abertamente.

YouTube-SL-25: Um Corpus Paralelo de Língua Gestual Multilíngue em Grande Escala de Domínio Aberto
YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

Jul 15

ByGarrett Tanzer, Biao Zhang

Mesmo para línguas de sinais mais estudadas como a Língua de Sinais Americana (ASL), os dados representam o gargalo para a pesquisa em aprendizado de máquina. A situação é ainda pior para as muitas outras línguas de sinais usadas pelas comunidades Surdas/Durante a Audição ao redor do mundo. Neste artigo, apresentamos o YouTube-SL-25, um corpus multilíngue de larga escala e domínio aberto de vídeos em língua de sinais com legendas aparentemente bem alinhadas, extraídas do YouTube. Com mais de 3000 horas de vídeos abrangendo mais de 25 línguas de sinais, o YouTube-SL-25 é a) mais de 3 vezes maior que o YouTube-ASL, b) o maior conjunto de dados paralelos de língua de sinais até o momento, e c) o primeiro ou maior conjunto de dados paralelos para muitas de suas línguas componentes. Nós fornecemos bases para tarefas de sinal para texto utilizando um modelo unificado multilíngue de multitarefa baseado no T5 e relatamos pontuações em benchmarks em 4 línguas de sinais. Os resultados demonstram que a transferência multilíngue beneficia tanto línguas de sinais com mais recursos quanto as com menos recursos dentro do YouTube-SL-25.

EfficientQAT: Treinamento Eficiente Consciente de Quantização para Modelos de Linguagem Grandes
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

Jul 10

ByMengzhao Chen, Wenqi Shao, Peng Xu, Jiahao Wang, Peng Gao, Kaipeng Zhang, Yu Qiao, Ping Luo

Os modelos de linguagem grandes (LLMs) são essenciais para o processamento de linguagem natural e inteligência artificial modernos. No entanto, eles enfrentam desafios na gestão de seus significativos requisitos de memória. Embora o treinamento consciente de quantização (QAT) ofereça uma solução ao reduzir o consumo de memória por meio de representações de baixo bit com perda mínima de precisão, ele exige recursos de treinamento substanciais para otimizar os pesos do modelo e os parâmetros de quantização. Para lidar com isso, propomos o Treinamento Consciente de Quantização Eficiente (EfficientQAT), uma técnica de quantização inovadora para comprimir LLMs. O EfficientQAT envolve duas fases consecutivas: Treinamento por bloco de todos os parâmetros (Block-AP) e treinamento de parâmetros de quantização de ponta a ponta (E2E-QP). O Block-AP conduz sequencialmente o treinamento consciente de quantização para todos os parâmetros em cada bloco transformador com reconstrução por bloco, mantendo a eficiência ao evitar treinar todo o LLM. Iniciado com o modelo quantizado, o E2E-QP então treina apenas os parâmetros de quantização (tamanhos de passo) de ponta a ponta, aprimorando a eficiência com uma espinha dorsal quantizada fixa e contagem reduzida de parâmetros treináveis. Experimentos extensivos demonstram que o EfficientQAT supera métodos anteriores de quantização em uma variedade de modelos, incluindo LLMs base, LLMs ajustados para instruções e LLMs multimodais, com escalas de 7B a 70B de parâmetros em vários bits de quantização. Por exemplo, o EfficientQAT obtém um modelo Llama-2-70B de 2 bits em uma única GPU A100-80GB em 41 horas, com menos de 3\% de degradação de precisão em comparação com a precisão total (69,48 vs. 72,41). Notavelmente, este modelo quantizado INT2 de 70B obtém um ganho de precisão de 1,67 em relação ao modelo Llama-2-13B (69,48 vs. 67,81) enquanto requer menos memória (19,2GB vs. 24,2GB). O código está disponível em https://github.com/OpenGVLab/EfficientQAT.

Treinamento Eficiente com Pesos Neurais Desnecessados
Efficient Training with Denoised Neural Weights

Jul 16

ByYifan Gong, Zheng Zhan, Yanyu Li, Yerlan Idelbayev, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren

Uma boa inicialização de pesos serve como uma medida eficaz para reduzir o custo de treinamento de um modelo de rede neural profunda (DNN). A escolha de como inicializar os parâmetros é desafiadora e pode exigir ajustes manuais, o que pode ser demorado e propenso a erros humanos. Para superar tais limitações, este trabalho dá um passo inovador na construção de um gerador de pesos para sintetizar os pesos neurais para inicialização. Utilizamos a tarefa de tradução de imagem para imagem com redes generativas adversariais (GANs) como exemplo devido à facilidade de coletar pesos do modelo abrangendo uma ampla gama. Especificamente, primeiro coletamos um conjunto de dados com vários conceitos de edição de imagem e seus pesos treinados correspondentes, que são posteriormente utilizados para o treinamento do gerador de pesos. Para lidar com as diferentes características entre as camadas e o grande número de pesos a serem previstos, dividimos os pesos em blocos de tamanho igual e atribuímos a cada bloco um índice. Posteriormente, um modelo de difusão é treinado com esse conjunto de dados usando tanto condições de texto do conceito quanto os índices de bloco. Ao inicializar o modelo de tradução de imagem com os pesos denoizados previstos por nosso modelo de difusão, o treinamento requer apenas 43,3 segundos. Comparado ao treinamento do zero (ou seja, Pix2pix), alcançamos uma aceleração de tempo de treinamento de 15 vezes para um novo conceito, enquanto obtemos uma qualidade de geração de imagem ainda melhor.

FIRE: Um Conjunto de Dados para Integração de Feedback e Avaliação de Refinamento de Modelos Multimodais
FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

Jul 16

ByPengxiang Li, Zhi Gao, Bofei Zhang, Tao Yuan, Yuwei Wu, Mehrtash Harandi, Yunde Jia, Song-Chun Zhu, Qing Li

Os modelos de linguagem visual (VLMs) alcançaram progressos impressionantes em diversas aplicações, tornando-se uma direção de pesquisa prevalente. Neste artigo, construímos o FIRE, um conjunto de dados de feedback-refinamento, composto por 1,1 milhão de conversas de múltiplas interações derivadas de 27 conjuntos de dados de origem, capacitando os VLMs a refinar espontaneamente suas respostas com base no feedback do usuário em diversas tarefas. Para ampliar a coleta de dados, o FIRE é coletado em dois componentes: FIRE-100K e FIRE-1M, onde o FIRE-100K é gerado pelo GPT-4V, e o FIRE-1M é gerado livremente por meio de modelos treinados no FIRE-100K. Em seguida, construímos o FIRE-Bench, um benchmark para avaliar abrangentemente a capacidade de refinamento de feedback dos VLMs, que contém 11 mil conversas de feedback-refinamento como dados de teste, dois cenários de avaliação e um modelo para fornecer feedback aos VLMs. Desenvolvemos o modelo FIRE-LLaVA, realizando ajuste fino do LLaVA no FIRE-100K e FIRE-1M, que demonstra uma notável capacidade de refinamento de feedback no FIRE-Bench e supera os VLMs não treinados em 50%, tornando as interações usuário-agente mais eficientes e destacando a importância do conjunto de dados FIRE.

De GaLore para WeLore: Como Pesos de Baixa Ordem Não Uniformemente Emergem de Gradientes de Baixa Ordem
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

Jul 15

ByAjay Jaiswal, Lu Yin, Zhenyu Zhang, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang

Os Modelos de Linguagem de Grande Escala (LLMs) modernos são compostos por matrizes com bilhões de elementos, tornando seu armazenamento e processamento bastante exigentes em termos de recursos computacionais e uso de memória. Por serem significativamente grandes, tais matrizes frequentemente podem ser expressas em formato de baixa patente, com potencial para reduzir os requisitos de recursos. Ao contrário de trabalhos anteriores que se concentram no desenvolvimento de novos algoritmos de decomposição de matriz, neste trabalho primeiro estudamos o surgimento de estruturas de baixa patente em matrizes em diferentes camadas de LLMs e estabelecemos uma relação consequente entre a dinâmica do gradiente e a expressividade emergente de baixa patente das matrizes. Nossas descobertas revelam que diferentes camadas exibem níveis variados de estrutura de baixa patente convergida, exigindo uma redução de patente não uniforme entre elas para minimizar a queda de desempenho devido à compressão. Com isso em mente, apresentamos a Projeção de Baixa Patente de Peso (WeLore) que unifica a compressão de peso e o ajuste fino eficiente de memória como UM, de forma agnóstica aos dados e em uma única etapa. WeLore capitaliza a distribuição de cauda pesada de valores singulares para identificar uma proporção adequada de redução de patente para as matrizes dentro de LLMs. Indo além de ser apenas uma técnica de compressão, WeLore categoriza as matrizes de peso em Componentes de Baixa Patente (LRCs) e Componentes Não de Baixa Patente (N-LRCs) com base em sua capacidade de se expressar como baixa patente. Nossa perspectiva de gradiente e experimentos extensivos ilustram que LRCs tendem a ter melhores capacidades de ajuste fino e podem imitar de perto (às vezes superar) a trajetória de perda de treinamento e desempenho do ajuste fino completo com redução notável na pegada de memória e computação. Por exemplo, ajustar finamente um modelo LLaMa-27B comprimido em 50\% usando apenas uma fração de parâmetros em LRCs (WeLore) pode superar seu ajuste fino completo com ~3x melhor rendimento e ~0,6x requisito de GPU. Nossos códigos estão disponíveis em https://github.com/VITA-Group/welore

OmniBind: Representação Multimodal Omni em Grande Escala por Meio de Espaços de Ligação
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

Jul 16

ByZehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao

Recentemente, a interação humano-computador com várias modalidades tem mostrado aplicações promissoras, como o GPT-4o e o Gemini. Dado o papel fundamental da representação conjunta multimodal em pipelines de compreensão e geração, representações conjuntas omni de alta qualidade seriam um passo em direção ao processamento conjunto de informações multimodais mais diversas. Neste trabalho, apresentamos o OmniBind, modelos de representação conjunta multimodal em larga escala variando de 7 bilhões a 30 bilhões de parâmetros, que suportam entradas 3D, áudio, imagem e linguagem. Devido à escassez de pares de dados em todas as modalidades, em vez de treinar grandes modelos do zero, propomos remapear e unir os espaços de vários modelos especialistas pré-treinados juntos. Esta abordagem permite "escalar" aumentando indiretamente os parâmetros do modelo e a quantidade de dados vistos. Para integrar efetivamente vários espaços, atribuímos dinamicamente pesos a diferentes espaços aprendendo roteadores com dois objetivos: alinhamento geral entre modalidades e desacoplamento da representação de linguagem. Notavelmente, uma vez que unir e rotear espaços requerem apenas redes leves, o OmniBind é extremamente eficiente em treinamento. Aprender o maior modelo de 30B requer apenas dados unimodais não pareados e aproximadamente 3 dias em um único nó 8-4090. Experimentos extensivos demonstram a versatilidade e superioridade do OmniBind como um modelo de representação omni, destacando seu grande potencial para diversas aplicações, como qualquer consulta e compreensão multimodal componível.

Manipulação de Objetos Diversos com Humanoides Simulados
Grasping Diverse Objects with Simulated Humanoids

Jul 16

ByZhengyi Luo, Jinkun Cao, Sammy Christen, Alexander Winkler, Kris Kitani, Weipeng Xu

Apresentamos um método para controlar um humanoide simulado para agarrar um objeto e movê-lo para seguir uma trajetória de objeto. Devido aos desafios de controlar um humanoide com mãos habilidosas, métodos anteriores frequentemente utilizam uma mão desencarnada e consideram apenas elevações verticais ou trajetórias curtas. Este escopo limitado prejudica sua aplicabilidade para manipulação de objetos necessária para animação e simulação. Para preencher essa lacuna, aprendemos um controlador que pode pegar um grande número (>1200) de objetos e transportá-los para seguir trajetórias geradas aleatoriamente. Nosso insight chave é alavancar uma representação de movimento humanoide que fornece habilidades motoras semelhantes às humanas e acelera significativamente o treinamento. Usando apenas recompensas, estados e representações de objetos simplistas, nosso método mostra escalabilidade favorável em objetos e trajetórias diversos. Para o treinamento, não precisamos de conjunto de dados de movimento de corpo inteiro em pares e trajetórias de objetos. No momento do teste, só requeremos a malha do objeto e as trajetórias desejadas para agarrar e transportar. Para demonstrar as capacidades do nosso método, mostramos taxas de sucesso de ponta ao seguir trajetórias de objetos e generalizar para objetos não vistos anteriormente. O código e os modelos serão disponibilizados.

Vibravox: Um Conjunto de Dados de Fala em Francês Capturado com Sensores de Áudio de Condução Corporal
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors

Jul 16

ByJulien Hauret, Malo Olivier, Thomas Joubaud, Christophe Langrenne, Sarah Poirée, Véronique Zimpfer, Éric Bavu

O Vibravox é um conjunto de dados em conformidade com o Regulamento Geral de Proteção de Dados (GDPR) que contém gravações de áudio usando cinco diferentes sensores de áudio por condução corporal: dois microfones intra-auriculares, dois captadores de vibração por condução óssea e um laringofone. O conjunto de dados também inclui dados de áudio de um microfone aéreo usado como referência. O corpus Vibravox contém 38 horas de amostras de fala e sons fisiológicos gravados por 188 participantes sob diferentes condições acústicas impostas por um espacializador 3D de ambisonics de alta ordem. Anotações sobre as condições de gravação e transcrições linguísticas também estão incluídas no corpus. Realizamos uma série de experimentos em várias tarefas relacionadas à fala, incluindo reconhecimento de fala, aprimoramento de fala e verificação de locutor. Esses experimentos foram realizados usando modelos de ponta para avaliar e comparar seus desempenhos em sinais capturados pelos diferentes sensores de áudio oferecidos pelo conjunto de dados Vibravox, com o objetivo de obter uma compreensão melhor de suas características individuais.

Data-Juicer Sandbox: Uma Suíte Abrangente para o Desenvolvimento Coletivo de Dados e Modelos Multimodais
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

Jul 16

ByDaoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou

A emergência de modelos generativos multi-modais em larga escala avançou drasticamente a inteligência artificial, introduzindo níveis sem precedentes de desempenho e funcionalidade. No entanto, otimizar esses modelos continua sendo um desafio devido aos caminhos historicamente isolados de desenvolvimentos centrados em modelos e em dados, resultando em resultados subótimos e utilização ineficiente de recursos. Em resposta, apresentamos uma nova suíte de testes adaptada para o desenvolvimento integrado de dados e modelos. Este ambiente de testes fornece uma plataforma experimental abrangente, permitindo iteração rápida e refinamento orientado por insights tanto de dados quanto de modelos. Nosso fluxo de trabalho proposto "Sondar-Analisar-Refinar", validado por aplicações em modelos baseados em LLaVA e DiT de última geração, resulta em melhorias significativas de desempenho, como liderar o quadro de líderes do VBench. Também descobrimos insights proveitosos obtidos de benchmarks exaustivos, lançando luz sobre a interação crítica entre qualidade de dados, diversidade e comportamento do modelo. Com a esperança de promover um entendimento mais profundo e progresso futuro em dados multi-modais e modelagem generativa, nossos códigos, conjuntos de dados e modelos são mantidos e acessíveis em https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.

Clique-Gaussiano: Segmentação Interativa para Quaisquer Gaussianas 3D
Click-Gaussian: Interactive Segmentation to Any 3D Gaussians

Jul 16

BySeokhun Choi, Hyeonseop Song, Jaechul Kim, Taehyeong Kim, Hoseok Do

A segmentação interativa de Gaussianas 3D abre uma grande oportunidade para a manipulação em tempo real de cenas 3D, graças à capacidade de renderização em tempo real do Splatting Gaussiano 3D. No entanto, os métodos atuais sofrem com pós-processamento demorado para lidar com a saída de segmentação ruidosa. Além disso, eles têm dificuldade em fornecer uma segmentação detalhada, o que é importante para a manipulação detalhada de cenas 3D. Neste estudo, propomos o Click-Gaussiano, que aprende campos de características distinguíveis de granularidade em dois níveis, facilitando a segmentação sem pós-processamento demorado. Exploramos os desafios decorrentes de campos de características aprendidos de forma inconsistente resultantes da segmentação 2D obtida independentemente de uma cena 3D. A precisão da segmentação 3D deteriora quando os resultados de segmentação 2D entre as visualizações, pistas principais para a segmentação 3D, estão em conflito. Para superar esses problemas, propomos o Aprendizado Guiado por Recursos Globais (GFL). O GFL constrói os clusters de candidatos a recursos globais a partir de segmentos 2D ruidosos entre as visualizações, o que suaviza os ruídos ao treinar os recursos das Gaussianas 3D. Nosso método é executado em 10 ms por clique, de 15 a 130 vezes mais rápido do que os métodos anteriores, enquanto também melhora significativamente a precisão da segmentação. Nossa página do projeto está disponível em https://seokhunchoi.github.io/Click-Gaussian

A Incerteza é Frágil: Manipulando a Incerteza em Modelos de Linguagem Grandes
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models

Jul 15

ByQingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang

Grandes Modelos de Linguagem (LLMs) são empregados em diversos domínios de alto risco, nos quais a confiabilidade de suas saídas é crucial. Um método comumente utilizado para avaliar a confiabilidade das respostas dos LLMs é a estimativa de incerteza, que avalia a probabilidade de suas respostas estarem corretas. Enquanto muitos estudos se concentram em melhorar a precisão das estimativas de incerteza para LLMs, nossa pesquisa investiga a fragilidade da estimativa de incerteza e explora possíveis ataques. Demonstramos que um atacante pode inserir uma porta dos fundos nos LLMs, que, quando ativada por um gatilho específico na entrada, manipula a incerteza do modelo sem afetar a saída final. Especificamente, o método de ataque de porta dos fundos proposto pode alterar a distribuição de probabilidade de saída de um LLM, fazendo com que a distribuição de probabilidade convirja para uma distribuição predefinida pelo atacante, garantindo que a previsão de maior probabilidade permaneça inalterada. Nossos resultados experimentais demonstram que esse ataque mina efetivamente a confiabilidade de autoavaliação do modelo em questões de múltipla escolha. Por exemplo, alcançamos uma taxa de sucesso de ataque (ASR) de 100% em três estratégias de acionamento diferentes em quatro modelos. Além disso, investigamos se essa manipulação se generaliza em diferentes prompts e domínios. Este trabalho destaca uma ameaça significativa à confiabilidade dos LLMs e enfatiza a necessidade de futuras defesas contra tais ataques. O código está disponível em https://github.com/qcznlp/uncertainty_attack.

De GaLore para WeLore: Como Pesos de Baixa Ordem Não Uniformemente Emergem de Gradientes de Baixa Ordem
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

Jul 15

ByAjay Jaiswal, Lu Yin, Zhenyu Zhang, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang