HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

16 papers found

OpenCoder: O Livro de Receitas Aberto para Modelos de Linguagem de Grande Porte de Código de Primeira Linha
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models

Nov 7

BySiming Huang, Tianhao Cheng, Jason Klein Liu, Jiaran Hao, Liuyihan Song, Yang Xu, J. Yang, J. H. Liu, Chenchen Zhang, Linzheng Chai, Ruifeng Yuan, Zhaoxiang Zhang, Jie Fu, Qian Liu, Ge Zhang, Zili Wang, Yuan Qi, Yinghui Xu, Wei Chu

128

Os modelos de linguagem de grande escala (LLMs) para código tornaram-se indispensáveis em vários domínios, incluindo geração de código, tarefas de raciocínio e sistemas de agentes. Embora os LLMs de código de acesso aberto estejam cada vez mais se aproximando dos níveis de desempenho dos modelos proprietários, LLMs de código de alta qualidade adequados para investigação científica rigorosa, particularmente aqueles com pipelines de processamento de dados reproduzíveis e protocolos de treinamento transparentes, permanecem limitados. A escassez deve-se a vários desafios, incluindo restrições de recursos, considerações éticas e as vantagens competitivas de manter modelos avançados. Para preencher esta lacuna, apresentamos o OpenCoder, um LLM de código de primeira linha que não apenas atinge desempenho comparável aos modelos líderes, mas também serve como um "livro de receitas aberto" para a comunidade de pesquisa. Diferente da maioria dos esforços anteriores, liberamos não apenas os pesos do modelo e o código de inferência, mas também os dados de treinamento reproduzíveis, o pipeline completo de processamento de dados, resultados rigorosos de ablação experimental e protocolos de treinamento detalhados para pesquisa científica aberta. Através deste lançamento abrangente, identificamos os ingredientes-chave para construir um LLM de código de primeira linha: (1) regras heurísticas otimizadas para código para limpeza de dados e métodos para desduplicação de dados, (2) recuperação de corpus de texto relacionado a código e (3) dados sintéticos de alta qualidade tanto nas fases de *annealing* quanto de ajuste fino supervisionado. Ao oferecer este nível de abertura, visamos ampliar o acesso a todos os aspectos de um LLM de código de primeira linha, com o OpenCoder servindo tanto como um modelo poderoso quanto como uma base aberta para acelerar a pesquisa e permitir avanços reproduzíveis em IA para código.

BitNet a4.8: Ativações de 4 bits para LLMs de 1 bit
BitNet a4.8: 4-bit Activations for 1-bit LLMs

Nov 7

ByHongyu Wang, Shuming Ma, Furu Wei

Pesquisas recentes sobre Modelos de Linguagem de Grande Porte (LLMs) de 1 bit, como o BitNet b1.58, apresentam uma direção promissora para reduzir o custo de inferência dos LLMs mantendo seu desempenho. Neste trabalho, introduzimos o BitNet a4.8, que permite ativações de 4 bits para LLMs de 1 bit. O BitNet a4.8 emprega uma estratégia híbrida de quantização e esparsificação para mitigar os erros de quantização introduzidos pelos canais discrepantes (outliers). Especificamente, utilizamos ativações de 4 bits para as entradas das camadas de atenção e da rede *feed-forward*, enquanto esparsificamos os estados intermediários seguidos por uma quantização de 8 bits. Experimentos extensivos demonstram que o BitNet a4.8 alcança um desempenho comparável ao BitNet b1.58 com custos de treinamento equivalentes, sendo mais rápido na inferência ao habilitar *kernels* de 4 bits (INT4/FP4). Adicionalmente, o BitNet a4.8 ativa apenas 55% dos parâmetros e suporta cache KV de 3 bits, aumentando ainda mais a eficiência da implantação e inferência de LLMs em larga escala.

DimensionX: Crie Qualquer Cena 3D e 4D a Partir de uma Única Imagem com Difusão de Vídeo Controlável
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

Nov 7

ByWenqiang Sun, Shuo Chen, Fangfu Liu, Zilong Chen, Yueqi Duan, Jun Zhang, Yikai Wang

Neste artigo, apresentamos o DimensionX, uma estrutura projetada para gerar cenas 3D e 4D fotorrealistas a partir de uma única imagem com difusão de vídeo. Nossa abordagem começa com a percepção de que tanto a estrutura espacial de uma cena 3D quanto a evolução temporal de uma cena 4D podem ser efetivamente representadas por meio de sequências de quadros de vídeo. Embora os modelos recentes de difusão de vídeo tenham demonstrado sucesso notável na produção de visuais vívidos, eles enfrentam limitações na recuperação direta de cenas 3D/4D devido à controlabilidade espacial e temporal limitada durante a geração. Para superar isso, propomos o ST-Director, que desacopla fatores espaciais e temporais na difusão de vídeo aprendendo LoRAs conscientes da dimensão a partir de dados variantes de dimensão. Esta abordagem de difusão de vídeo controlável permite a manipulação precisa da estrutura espacial e da dinâmica temporal, permitindo-nos reconstruir representações 3D e 4D a partir de quadros sequenciais com a combinação de dimensões espaciais e temporais. Além disso, para preencher a lacuna entre vídeos gerados e cenas do mundo real, introduzimos um mecanismo consciente da trajetória para geração 3D e uma estratégia de eliminação de ruído com preservação de identidade para geração 4D. Experimentos extensos em vários conjuntos de dados do mundo real e sintéticos demonstram que o DimensionX alcança resultados superiores em geração de vídeo controlável, bem como em geração de cenas 3D e 4D, em comparação com métodos anteriores.

Mixture-of-Transformers: Uma Arquitetura Esparsa e Escalável para Modelos de Fundação Multi-Modal
Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models

Nov 7

ByWeixin Liang, Lili Yu, Liang Luo, Srinivasan Iyer, Ning Dong, Chunting Zhou, Gargi Ghosh, Mike Lewis, Wen-tau Yih, Luke Zettlemoyer, Xi Victoria Lin

O desenvolvimento de grandes modelos de linguagem (LLMs) expandiu-se para sistemas multimodais capazes de processar texto, imagens e fala num quadro unificado. O treino destes modelos exige conjuntos de dados e recursos computacionalmente significativamente maiores em comparação com LLMs exclusivamente textuais. Para enfrentar os desafios de escalabilidade, introduzimos a Mistura de Transformers (MoT), uma arquitetura de transformer multimodal esparsa que reduz significativamente os custos computacionais de pré-treinamento. O MoT desacopla os parâmetros não-embedding do modelo por modalidade — incluindo redes *feed-forward*, matrizes de atenção e normalização de camada — permitindo o processamento específico por modalidade com auto-atenção global sobre a sequência de entrada completa. Avaliamos o MoT em múltiplos cenários e escalas de modelo. No cenário Chameleon 7B (geração autorregressiva de texto e imagem), o MoT iguala o desempenho da baseline densa utilizando apenas 55,8% dos FLOPS. Quando estendido para incluir fala, o MoT atinge um desempenho de fala comparável à baseline densa com apenas 37,2% dos FLOPS. No cenário Transfusão, onde texto e imagem são treinados com objetivos diferentes, um modelo MoT de 7B iguala o desempenho da modalidade de imagem da baseline densa com um terço dos FLOPS, e um modelo MoT de 760M supera uma baseline densa de 1,4B em métricas-chave de geração de imagem. A análise de desempenho do sistema realça ainda mais os benefícios práticos do MoT, alcançando a qualidade de imagem da baseline densa em 47,2% do tempo de execução (*wall-clock time*) e a qualidade de texto em 75,6% do tempo de execução (medido em instâncias AWS p4de.24xlarge com GPUs NVIDIA A100).

M3DocRAG: Recuperação Multimodal é o que Você Precisa para a Compreensão de Múltiplas Páginas em Múltiplos Documentos
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding

Nov 7

ByJaemin Cho, Debanjan Mahata, Ozan Irsoy, Yujie He, Mohit Bansal

Os pipelines de resposta a perguntas visuais em documentos (DocVQA) que respondem a perguntas a partir de documentos têm amplas aplicações. Os métodos existentes concentram-se no processamento de documentos de página única com modelos de linguagem multimodal (MLMs) ou dependem de geração aumentada por recuperação baseada em texto (RAG) que utiliza ferramentas de extração de texto, como reconhecimento ótico de caracteres (OCR). No entanto, existem dificuldades na aplicação destes métodos em cenários do mundo real: (a) as perguntas frequentemente exigem informações de diferentes páginas ou documentos, situação em que os MLMs não conseguem lidar com muitos documentos longos; (b) os documentos frequentemente contêm informações importantes em elementos visuais, como figuras, mas as ferramentas de extração de texto ignoram-nos. Apresentamos o M3DocRAG, uma nova estrutura RAG multimodal que acomoda flexivelmente vários contextos de documento (domínio fechado e aberto), saltos de pergunta (salto único e múltiplos saltos) e modalidades de evidência (texto, gráfico, figura, etc.). O M3DocRAG encontra documentos relevantes e responde a perguntas usando um recuperador multimodal e um MLM, permitindo assim lidar eficientemente com um ou muitos documentos, preservando a informação visual. Como os conjuntos de dados anteriores de DocVQA fazem perguntas no contexto de um documento específico, também apresentamos o M3DocVQA, um novo benchmark para avaliar DocVQA de domínio aberto em mais de 3.000 documentos PDF com mais de 40.000 páginas. Em três benchmarks (M3DocVQA/MMLongBench-Doc/MP-DocVQA), os resultados empíricos mostram que o M3DocRAG com ColPali e Qwen2-VL 7B alcança um desempenho superior ao de muitas linhas de base fortes, incluindo desempenho de ponta no MP-DocVQA. Fornecemos análises abrangentes de diferentes modelos de indexação, MLMs e recuperação. Por fim, mostramos qualitativamente que o M3DocRAG pode lidar com sucesso com vários cenários, como quando a informação relevante existe em várias páginas e quando a evidência da resposta existe apenas em imagens.

VideoGLaMM: Um Modelo Multimodal de Grande Escala para Ancoragem Visual em Nível de Pixel em Vídeos
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos

Nov 7

ByShehan Munasinghe, Hanan Gani, Wenqi Zhu, Jiale Cao, Eric Xing, Fahad Shahbaz Khan, Salman Khan

O alinhamento granular entre vídeos e texto é um desafio devido à complexa dinâmica espacial e temporal presente nos vídeos. Os Modelos Multimodais de Grande Porte (LMMs) baseados em vídeo existentes lidam com conversas básicas, mas lutam com a ancoragem precisa a nível de pixel em vídeos. Para resolver isso, apresentamos o VideoGLaMM, um LMM projetado para ancoragem granular a nível de pixel em vídeos, baseado em entradas textuais fornecidas pelo utilizador. O nosso projeto conecta perfeitamente três componentes-chave: um Modelo de Linguagem de Grande Porte, um codificador de visão dual que enfatiza detalhes espaciais e temporais, e um decodificador espaço-temporal para geração precisa de máscaras. Esta conexão é facilitada através de adaptadores sintonizáveis V-L e L-V que permitem um alinhamento próximo entre Visão e Linguagem (VL). A arquitetura é treinada para sincronizar elementos espaciais e temporais do conteúdo de vídeo com instruções textuais. Para permitir a ancoragem granular, curadámos um conjunto de dados multimodal com conversas visualmente ancoradas e detalhadas, utilizando um pipeline de anotação semiautomático, resultando num conjunto diversificado de 38k triplos vídeo-pergunta-resposta, juntamente com 83k objetos e 671k máscaras. Avaliamos o VideoGLaMM em três tarefas desafiadoras: Geração de Conversas Ancoradas, Ancoragem Visual e Segmentação de Vídeo por Referência. Os resultados experimentais mostram que o nosso modelo supera consistentemente as abordagens existentes em todas as três tarefas.

Analisando a Linguagem dos Tokens Visuais
Analyzing The Language of Visual Tokens

Nov 7

ByDavid M. Chan, Rodolfo Corona, Joonyong Park, Cheol Jun Cho, Yutong Bai, Trevor Darrell

Com a introdução de modelos baseados em transformadores para tarefas de visão e linguagem, como LLaVA e Chameleon, houve um renovado interesse na representação tokenizada discreta de imagens. Esses modelos frequentemente tratam fragmentos de imagem como tokens discretos, análogos a palavras na linguagem natural, aprendendo alinhamentos conjuntos entre as linguagens visual e humana. No entanto, pouco se sabe sobre o comportamento estatístico dessas linguagens visuais - se elas seguem distribuições de frequência, estruturas gramaticais ou topologias semelhantes às linguagens naturais. Neste artigo, adotamos uma abordagem centrada na linguagem natural para analisar as linguagens visuais discretas e descobrimos similaridades impressionantes e diferenças fundamentais. Demonstramos que, embora as linguagens visuais adiram a distribuições Zipfianas, uma maior inovação de tokens leva a uma maior entropia e menor compressão, com os tokens representando predominantemente partes de objetos, indicando granularidade intermediária. Também mostramos que as linguagens visuais carecem de estruturas gramaticais coesas, resultando em perplexidade mais alta e organização hierárquica mais fraca em comparação com as linguagens naturais. Por fim, demonstramos que, embora os modelos de visão se alinhem mais de perto com as linguagens naturais do que outros modelos, esse alinhamento permanece significativamente mais fraco do que a coesão encontrada dentro das linguagens naturais. Através desses experimentos, demonstramos como a compreensão das propriedades estatísticas das linguagens visuais discretas pode orientar o projeto de modelos de visão computacional mais eficazes.

Thanos: Aprimorando Agentes Conversacionais com Modelo de Linguagem Grande Infundido com Habilidade Mental
Thanos: Enhancing Conversational Agents with Skill-of-Mind-Infused Large Language Model

Nov 7

ByYoung-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Ho-Jin Choi

Para aumentar o vínculo social com os interlocutores, os seres humanos adquirem naturalmente a capacidade de responder adequadamente em uma determinada situação, considerando qual habilidade conversacional é mais adequada para a resposta - um processo que denominamos "skill-of-mind" (habilidade mental). Para agentes conversacionais baseados em modelos de linguagem de grande porte (LLMs), planejar habilidades conversacionais apropriadas, como os humanos fazem, é um desafio devido à complexidade do diálogo social, especialmente em cenários interativos. Para resolver isso, propomos um conjunto de dados de conversas anotadas com skill-of-mind, denominado Multifaceted Skill-of-Mind, que inclui habilidades conversacionais multifacetadas e com múltiplos turnos em vários cenários interativos (por exemplo, de longo prazo, de aconselhamento, orientados a tarefas), fundamentados em diversos contextos sociais (por exemplo, dados demográficos, persona, regras práticas). Este conjunto de dados consiste em aproximadamente 100 mil conversas. Utilizando este conjunto de dados, introduzimos uma nova família de LLMs infundidos com skill-of-mind, denominada Thanos, com tamanhos de modelo de 1B, 3B e 8B de parâmetros. Por meio de extensos experimentos, esses modelos demonstram com sucesso o processo de skill-of-mind e exibem forte generalização na inferência de habilidades multifacetadas em uma variedade de domínios. Além disso, mostramos que o Thanos melhora significativamente a qualidade das respostas geradas por agentes conversacionais baseados em LLM e promove comportamentos pró-sociais em avaliações humanas.

SVDQuant: Absorção de Outliers por Componentes de Baixa Posto para Modelos de Difusão de 4 Bits
SVDQunat: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models

Nov 7

ByMuyang Li, Yujun Lin, Zhekai Zhang, Tianle Cai, Xiuyu Li, Junxian Guo, Enze Xie, Chenlin Meng, Jun-Yan Zhu, Song Han

Os modelos de difusão demonstraram ser altamente eficazes na geração de imagens de alta qualidade. No entanto, à medida que esses modelos aumentam em tamanho, exigem significativamente mais memória e sofrem com maior latência, representando desafios substanciais para sua implantação. Neste trabalho, visamos acelerar os modelos de difusão quantizando seus pesos e ativações para 4 bits. Nesse nível agressivo, tanto os pesos quanto as ativações são altamente sensíveis, tornando insuficientes os métodos convencionais de quantização pós-treinamento para grandes modelos de linguagem, como o *smoothing*. Para superar essa limitação, propomos o SVDQuant, um novo paradigma de quantização de 4 bits. Diferente do *smoothing*, que redistribui *outliers* entre pesos e ativações, nossa abordagem absorve esses *outliers* usando um ramo de baixa *rank*. Primeiro, consolidamos os *outliers* deslocando-os das ativações para os pesos e, em seguida, empregamos um ramo de baixa *rank* de alta precisão para absorver os *outliers* dos pesos usando a Decomposição em Valores Singulares (SVD). Esse processo facilita a quantização em ambos os lados. No entanto, executar o ramo de baixa *rank* de forma independente de forma ingênua incorre em sobrecarga significativa devido ao movimento extra de dados das ativações, anulando a aceleração da quantização. Para resolver isso, co-projetamos um motor de inferência, o Nunchaku, que funde os *kernels* do ramo de baixa *rank* naqueles do ramo de baixos bits para eliminar o acesso redundante à memória. Ele também pode suportar perfeitamente *adaptadores de baixa rank* (LoRAs) prontos para uso sem a necessidade de re-quantização. Experimentos extensivos com SDXL, PixArt-Sigma e FLUX.1 validam a eficácia do SVDQuant na preservação da qualidade da imagem. Reduzimos o uso de memória para os modelos FLUX.1 de 12B em 3,5 vezes, alcançando uma aceleração de 3,0 vezes em relação à linha de base quantizada apenas em peso de 4 bits na GPU laptop 4090 de 16 GB, pavimentando o caminho para aplicações mais interativas em PCs. Nossa biblioteca de quantização e motor de inferência são de código aberto.

Enfiando a Agulha: Os LLMs Conseguem Seguir Fios em Palheiros de Escala Quase Milionária?
Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?

Nov 7

ByJonathan Roberts, Kai Han, Samuel Albanie

À medida que os limites de contexto dos Modelos de Linguagem de Grande Porte (LLMs) aumentam, o leque de possíveis aplicações e funções secundárias amplia-se. Em muitas tarefas do mundo real, as decisões dependem de detalhes dispersos por coleções de documentos frequentemente díspares que contêm maioritariamente informação irrelevante. Os LLMs de contexto longo parecem bem adaptados a esta forma de recuperação e raciocínio de informação complexa, que tradicionalmente se mostrou dispendiosa e demorada. No entanto, embora o desenvolvimento de modelos com contextos mais longos tenha registado progressos rápidos nos últimos anos, a nossa compreensão sobre a eficácia com que os LLMs utilizam o seu contexto não acompanhou esse ritmo. Para colmatar esta lacuna, realizamos um conjunto de experiências de recuperação concebidas para avaliar as capacidades de 17 LLMs líderes, como a sua capacidade de seguir fios de informação através da janela de contexto. De forma notável, descobrimos que muitos modelos são notavelmente robustos à concorrência de fios: capazes de seguir múltiplos fios em simultâneo sem perdas significativas de desempenho. Ainda assim, para muitos modelos, verificamos que o limite efetivo de contexto é significativamente mais curto do que o comprimento de contexto suportado, com a precisão a diminuir à medida que a janela de contexto cresce. O nosso estudo também salienta o ponto importante de que as contagens de tokens de diferentes tokenizadores não devem ser comparadas diretamente – estas correspondem frequentemente a números substancialmente diferentes de caracteres escritos. Disponibilizamos o nosso código e os dados experimentais de contexto longo.

DynaMem: Memória Espaço-Semântica Dinâmica Online para Manipulação Móvel em Mundo Aberto
DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation

Nov 7

ByPeiqi Liu, Zhanqiu Guo, Mohit Warke, Soumith Chintala, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto

Foram feitos progressos significativos na manipulação móvel de vocabulário aberto, onde o objetivo é que um robô execute tarefas em qualquer ambiente com base numa descrição em linguagem natural. No entanto, a maioria dos sistemas atuais assume um ambiente estático, o que limita a aplicabilidade do sistema em cenários do mundo real, onde os ambientes mudam frequentemente devido à intervenção humana ou às próprias ações do robô. Neste trabalho, apresentamos a DynaMem, uma nova abordagem para a manipulação móvel em mundo aberto que utiliza uma memória espácio-semântica dinâmica para representar o ambiente de um robô. A DynaMem constrói uma estrutura de dados 3D para manter uma memória dinâmica de nuvens de pontos, e responde a consultas de localização de objetos de vocabulário aberto usando LLMs multimodais ou características de vocabulário aberto geradas por modelos estado-da-arte de visão e linguagem. Potenciados pela DynaMem, os nossos robôs podem explorar ambientes novos, procurar objetos não encontrados na memória, e atualizar continuamente a memória à medida que os objetos se movem, aparecem ou desaparecem na cena. Realizamos experiências extensivas nos robôs Stretch SE3 em três cenas reais e nove offline, e alcançámos uma taxa média de sucesso de apanhar e largar de 70% em objetos não estacionários, o que representa uma melhoria superior a 2x em relação aos sistemas estáticos estado-da-arte. O nosso código, bem como os nossos vídeos de experiências e implementação, são de código aberto e podem ser encontrados no site do nosso projeto: https://dynamem.github.io/

RetrieveGPT: Integração de Prompts e Modelos Matemáticos para Aprimorar a Recuperação de Informação em Código-Misto
RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval

Nov 7

ByAniket Deroy, Subhankar Maity

A mistura de códigos (code-mixing), a integração de elementos lexicais e gramaticais de múltiplos idiomas numa única frase, é um fenómeno linguístico generalizado, particularmente prevalente em sociedades multilíngues. Na Índia, os utilizadores de redes sociais frequentemente envolvem-se em conversas com mistura de códigos usando o alfabeto romano, especialmente entre comunidades de migrantes que formam grupos online para partilhar informações locais relevantes. Este artigo centra-se nos desafios da extração de informações relevantes de conversas com mistura de códigos, especificamente dentro do contexto do Bengalí transliterado para o alfabeto romano e misturado com Inglês. Este estudo apresenta uma nova abordagem para enfrentar estes desafios, desenvolvendo um mecanismo para identificar automaticamente as respostas mais relevantes de conversas com mistura de códigos. Realizámos experiências com um conjunto de dados composto por consultas e documentos do Facebook, e ficheiros de Relevância de Consulta (QRels) para auxiliar nesta tarefa. Os nossos resultados demonstram a eficácia da nossa abordagem na extração de informações pertinentes de conversas digitais complexas e com mistura de códigos, contribuindo para o campo mais amplo do processamento de linguagem natural em ambientes de texto multilíngues e informais. Utilizamos o GPT-3.5 Turbo através de *prompting*, juntamente com a natureza sequencial de documentos relevantes, para formular um modelo matemático que ajuda a detetar documentos relevantes correspondentes a uma consulta.

M3SciQA: Um Benchmark de QA Científico Multimodal e Multidocumento para Avaliação de Modelos de Base
M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models

Nov 6

ByChuhan Li, Ziyao Shangguan, Yilun Zhao, Deyuan Li, Yixin Liu, Arman Cohan

Os benchmarks existentes para avaliar modelos de base concentram-se principalmente em tarefas de documento único e apenas texto. No entanto, eles frequentemente falham em capturar plenamente a complexidade dos fluxos de trabalho de pesquisa, que tipicamente envolvem a interpretação de dados não textuais e a recolha de informações através de múltiplos documentos. Para colmatar esta lacuna, introduzimos o M3SciQA, um benchmark de resposta a perguntas científicas multimodal e multidocumento, concebido para uma avaliação mais abrangente de modelos de base. O M3SciQA é composto por 1.452 questões anotadas por especialistas, abrangendo 70 clusters de artigos de processamento de linguagem natural, onde cada cluster representa um artigo principal juntamente com todos os seus documentos citados, espelhando o fluxo de trabalho de compreensão de um único artigo ao exigir dados multimodais e multidocumento. Com o M3SciQA, realizámos uma avaliação abrangente de 18 modelos de base. Os nossos resultados indicam que os modelos de base atuais ainda têm um desempenho significativamente inferior ao dos especialistas humanos na recuperação de informação multimodal e no raciocínio através de múltiplos documentos científicos. Adicionalmente, exploramos as implicações destas descobertas para o avanço futuro da aplicação de modelos de base na análise multimodal de literatura científica.

GazeGen: Interação do Usuário Baseada no Olhar para Geração de Conteúdo Visual
GazeGen: Gaze-Driven User Interaction for Visual Content Generation

Nov 7

ByHe-Yen Hsieh, Ziyun Li, Sai Qian Zhang, Wei-Te Mark Ting, Kao-Den Chang, Barbara De Salvo, Chiao Liu, H. T. Kung

Apresentamos o GazeGen, um sistema de interação do usuário que gera conteúdo visual (imagens e vídeos) para locais indicados pelo olhar do usuário. O GazeGen permite a manipulação intuitiva de conteúdo visual ao direcionar regiões de interesse com o olhar. Utilizando técnicas avançadas de detecção de objetos e IA generativa, o GazeGen realiza adição/remoção, reposicionamento e alterações de material de superfície de objetos de imagem controlados pelo olhar, e converte imagens estáticas em vídeos. O núcleo do GazeGen é o agente DFT Gaze (Gaze Destilado e Ajustado), um modelo ultraleve com apenas 281K parâmetros, que realiza previsões de olhar precisas em tempo real, personalizadas para os olhos de usuários individuais em pequenos dispositivos de borda. O GazeGen é o primeiro sistema a combinar geração de conteúdo visual com estimativa de olhar em tempo real, possibilitado exclusivamente pelo DFT Gaze. Esta estimativa de olhar em tempo real permite várias tarefas de geração de conteúdo visual, todas controladas pelo olhar do usuário. A entrada para o DFT Gaze são as imagens dos olhos do usuário, enquanto as entradas para a geração de conteúdo visual são a visão do usuário e o ponto de olhar previsto pelo DFT Gaze. Para alcançar previsões de olhar eficientes, derivamos o modelo pequeno de um modelo grande (10 vezes maior) por meio de novas técnicas de destilação de conhecimento e adaptação pessoal. Integramos a destilação de conhecimento com um autoencoder mascarado, desenvolvendo um modelo de estimativa de olhar compacto, porém poderoso. Este modelo é ainda mais ajustado com Adapters, permitindo previsões de olhar altamente precisas e personalizadas com entrada mínima do usuário. O DFT Gaze garante rastreamento de olhar de baixa latência e preciso, suportando uma ampla gama de tarefas acionadas pelo olhar. Validamos o desempenho do DFT Gaze nos benchmarks AEA e OpenEDS2020, demonstrando baixo erro angular de olhar e baixa latência no dispositivo de borda (Raspberry Pi 4). Além disso, descrevemos aplicações do GazeGen, ilustrando sua versatilidade e eficácia em vários cenários de uso.

SG-I2V: Controle Autoguiado de Trajetória na Geração de Imagem para Vídeo
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation

Nov 7

ByKoichi Namekata, Sherwin Bahmani, Ziyi Wu, Yash Kant, Igor Gilitschenski, David B. Lindell

Os métodos de geração de vídeo a partir de imagem alcançaram qualidade impressionante e fotorrealista. No entanto, ajustar elementos específicos em vídeos gerados, como o movimento de objetos ou a movimentação da câmera, geralmente é um processo tedioso de tentativa e erro, por exemplo, envolvendo a re-geração de vídeos com diferentes sementes aleatórias. Técnicas recentes abordam essa questão através do ajuste fino de um modelo pré-treinado para seguir sinais de condicionamento, como caixas delimitadoras ou trajetórias de pontos. No entanto, este procedimento de ajuste fino pode ser computacionalmente dispendioso e requer conjuntos de dados com movimento de objetos anotados, que podem ser difíceis de obter. Neste trabalho, apresentamos o SG-I2V, uma estrutura para geração controlada de vídeo a partir de imagem que é autoguiada – oferecendo controle zero-shot ao depender exclusivamente do conhecimento presente em um modelo de difusão de vídeo a partir de imagem pré-treinado, sem a necessidade de ajuste fino ou conhecimento externo. Nosso método zero-shot supera as linhas de base não supervisionadas enquanto se mostra competitivo com modelos supervisionados em termos de qualidade visual e fidelidade de movimento.

Difusão 2-em-1: Conectando Geração e Percepção Densa com Modelos de Difusão
Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models

Nov 7

ByShuhong Zheng, Zhipeng Bao, Ruoyu Zhao, Martial Hebert, Yu-Xiong Wang

Para além da síntese de imagens de alta fidelidade, os modelos de difusão têm demonstrado recentemente resultados promissores em tarefas de percepção visual densa. No entanto, a maior parte do trabalho existente trata os modelos de difusão como um componente autónomo para tarefas de percepção, empregando-os apenas para aumento de dados pré-existentes ou como meros extratores de características. Em contraste com estes esforços isolados e, portanto, subóptimos, nós introduzimos uma estrutura unificada e versátil baseada em difusão, a Diff-2-em-1, que pode lidar simultaneamente com a geração de dados multimodais e a percepção visual densa, através de uma exploração única do processo de difusão-desnaturação. Dentro desta estrutura, aprimoramos ainda mais a perceção visual discriminativa através da geração multimodal, utilizando a rede de desnaturação para criar dados multimodais que espelham a distribuição do conjunto de treino original. É importante destacar que a Diff-2-em-1 otimiza a utilização dos dados diversos e fiéis criados, aproveitando um novo mecanismo de aprendizagem de autoaprimoramento. Avaliações experimentais abrangentes validam a eficácia da nossa estrutura, demonstrando melhorias consistentes de desempenho em várias redes discriminativas de base e uma geração de dados multimodais de alta qualidade, caracterizada tanto pelo realismo como pela utilidade.

SVDQuant: Absorção de Outliers por Componentes de Baixa Posto para Modelos de Difusão de 4 Bits
SVDQunat: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models

Nov 7

ByMuyang Li, Yujun Lin, Zhekai Zhang, Tianle Cai, Xiuyu Li, Junxian Guo, Enze Xie, Chenlin Meng, Jun-Yan Zhu, Song Han