Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos a "Lei da Representação Visual" em modelos de linguagem grandes multimodais (MLLMs). Esta lei revela uma forte correlação entre a combinação do alinhamento cross-modal, a correspondência na representação visual e o desempenho dos MLLMs. Quantificamos estes dois fatores através da pontuação de Alinhamento e Correspondência cross-modal (pontuação AC). Por meio de extensos experimentos envolvendo treze configurações diferentes de representação visual e avaliações em oito benchmarks, descobrimos que a pontuação AC está linearmente correlacionada com o desempenho do modelo. Aproveitando esta relação, conseguimos identificar e treinar apenas a representação visual ótima, o que não requer o ajuste fino do modelo de linguagem a cada vez, resultando numa redução de 99,7% no custo computacional.
从VisualGLM和CogVLM起步,我们持续探索视觉语言模型,致力于提升视觉-语言融合能力、构建高效的高分辨率架构,并拓展多模态应用场景。本文提出新一代视觉语言模型系列CogVLM2,包括图像理解模型CogVLM2、视频理解模型CogVLM2-Video以及GLM-4V。作为图像理解模型,CogVLM2继承了视觉专家架构,并改进了预训练与后训练阶段的训练方案,最高支持1344×1344像素的输入分辨率。作为视频理解模型,CogVLM2-Video融合了带时间戳的多帧输入技术,并提出了自动化的时序定位数据构建方法。值得关注的是,CogVLM2系列在MMBench、MM-Vet、TextVQA、MVBench和VCGBench等基准测试中均取得了最先进的性能。所有模型均已开源,代码仓库位于https://github.com/THUDM/CogVLM2 与 https://github.com/THUDM/GLM-4,以推动该领域的技术发展。
Os modelos de linguagem têm sido aplicados com eficácia na modelagem de sinais naturais, como imagens, vídeo, fala e áudio. Um componente crucial desses modelos é o tokenizador codec, que comprime sinais naturais de alta dimensão em tokens discretos de dimensão inferior. Neste artigo, apresentamos o WavTokenizer, que oferece várias vantagens sobre os modelos de codec acústico SOTA anteriores no domínio do áudio: 1) compressão extrema. Ao comprimir as camadas de quantizadores e a dimensão temporal do codec discreto, um segundo de áudio com taxa de amostragem de 24kHz requer apenas um único quantizador com 40 ou 75 tokens. 2) qualidade subjetiva aprimorada. Apesar do número reduzido de tokens, o WavTokenizer alcança qualidade de reconstrução state-of-the-art com excelentes pontuações UTMOS e contém inerentemente informações semânticas mais ricas. Especificamente, alcançamos esses resultados projetando um espaço VQ mais amplo, janelas contextuais estendidas e redes de atenção melhoradas, além de introduzir um discriminador multiescala poderoso e uma estrutura de transformada inversa de Fourier. Realizamos extensos experimentos de reconstrução nos domínios de fala, áudio e música. O WavTokenizer exibiu desempenho sólido em várias métricas objetivas e subjetivas em comparação com modelos state-of-the-art. Também testamos informações semânticas, utilização de VQ e adaptabilidade a modelos generativos. Estudos de ablação abrangentes confirmam a necessidade de cada módulo no WavTokenizer. O código, demonstrações e modelos pré-treinados relacionados estão disponíveis em https://github.com/jishengpeng/WavTokenizer.
Os avanços na reconstrução de cenas 3D transformaram imagens 2D do mundo real em modelos 3D, produzindo resultados tridimensionais realistas a partir de centenas de fotos de entrada. Apesar do grande sucesso em cenários de reconstrução com vistas densas, a renderização de uma cena detalhada a partir de vistas capturadas insuficientes ainda é um problema de otimização mal-posto, frequentemente resultando em artefatos e distorções em áreas não observadas. Neste artigo, propomos o ReconX, um novo paradigma de reconstrução de cenas 3D que reformula o desafio ambíguo da reconstrução como uma tarefa de geração temporal. A ideia fundamental é libertar o forte *prior* generativo de grandes modelos de difusão de vídeo pré-treinados para reconstrução com vistas esparsas. No entanto, a consistência de vista 3D luta para ser preservada com precisão em frames de vídeo gerados diretamente a partir de modelos pré-treinados. Para resolver isso, dadas vistas de entrada limitadas, o ReconX proposto primeiro constrói uma nuvem de pontos global e a codifica em um espaço contextual como condição de estrutura 3D. Guiado por esta condição, o modelo de difusão de vídeo sintetiza então frames de vídeo que são tanto preservadores de detalhes quanto exibem um alto grau de consistência 3D, garantindo a coerência da cena a partir de várias perspectivas. Finalmente, recuperamos a cena 3D a partir do vídeo gerado através de um esquema de otimização de *3D Gaussian Splatting* consciente da confiança. Experimentos extensivos em vários conjuntos de dados do mundo real mostram a superioridade do nosso ReconX sobre os métodos state-of-the-art em termos de qualidade e generalizabilidade.
Apresentamos o SAM2Point, uma exploração preliminar que adapta o Segment Anything Model 2 (SAM 2) para segmentação 3D *zero-shot* e acionável por *prompts*. O SAM2Point interpreta qualquer dado 3D como uma série de vídeos multidirecionais e aproveita o SAM 2 para segmentação no espaço 3D, sem treinamento adicional ou projeção 2D-3D. Nossa estrutura suporta vários tipos de *prompts*, incluindo pontos 3D, caixas delimitadoras e máscaras, e pode generalizar para diversos cenários, como objetos 3D, cenas internas, ambientes externos e LiDAR esparso bruto. Demonstrações em múltiplos conjuntos de dados 3D, por exemplo, Objaverse, S3DIS, ScanNet, Semantic3D e KITTI, destacam as robustas capacidades de generalização do SAM2Point. Até onde sabemos, apresentamos a implementação mais fiel do SAM em 3D, que pode servir como ponto de partida para pesquisas futuras em segmentação 3D acionável por *prompts*. Demonstração Online: https://huggingface.co/spaces/ZiyuG/SAM2Point . Código: https://github.com/ZiyuGuo99/SAM2Point .
Os modelos de linguagem demonstraram desempenho notável na resolução de tarefas de raciocínio; no entanto, mesmo os modelos mais robustos ainda ocasionalmente cometem erros de raciocínio. Recentemente, tem havido pesquisas ativas visando melhorar a precisão do raciocínio, particularmente utilizando modelos de linguagem pré-treinados para "autocorrigir" seus erros por meio de prompts em múltiplas rodadas. Neste artigo, seguimos essa linha de pesquisa, mas com foco em compreender a utilidade de incorporar dados de "correção de erros" diretamente na fase de pré-treinamento. Esses dados consistem em etapas de solução errôneas seguidas imediatamente por suas correções. Utilizando um conjunto de dados matemáticos sintéticos, mostramos resultados promissores: esse tipo de dado de pré-treinamento pode ajudar os modelos de linguagem a alcançar maior precisão de raciocínio diretamente (ou seja, por meio de autoregressão simples, sem prompts em múltiplas rodadas) em comparação com o pré-treinamento na mesma quantidade de dados livres de erros. Também nos aprofundamos em muitos detalhes, como (1) como essa abordagem difere da busca em feixe, (2) como esses dados podem ser preparados, (3) se o mascaramento é necessário nos tokens errôneos, (4) a quantidade de erro necessária, (5) se esses dados podem ser adiados para a etapa de ajuste fino, entre outros.
O modelo de difusão tem demonstrado capacidades excepcionais na geração controlada de imagens, o que tem alimentado ainda mais o interesse na transferência de estilo de imagem. Os trabalhos existentes concentram-se principalmente em métodos baseados em treinamento livre (por exemplo, inversão de imagem) devido à escassez de dados específicos. Neste estudo, apresentamos um pipeline de construção de dados para tripletos de imagens conteúdo-estilo-estilizadas que gera e limpa automaticamente tripletos de dados estilizados. Com base neste pipeline, construímos o conjunto de dados IMAGStyle, o primeiro conjunto de dados de transferência de estilo em larga escala contendo 210 mil tripletos de imagens, disponível para a comunidade explorar e pesquisar. Equipado com o IMAGStyle, propomos o CSGO, um modelo de transferência de estilo baseado em treinamento de ponta a ponta, que desacopla explicitamente características de conteúdo e estilo empregando injeção de características independente. O unificado CSGO implementa transferência de estilo orientada por imagem, síntese estilizada orientada por texto e síntese estilizada orientada por edição textual. Experimentos extensivos demonstram a eficácia da nossa abordagem na melhoria das capacidades de controle de estilo na geração de imagens. Visualizações adicionais e acesso ao código-fonte podem ser encontrados na página do projeto: https://csgo-gen.github.io/.
Apresentamos o Spann3R, uma nova abordagem para reconstrução 3D densa a partir de coleções de imagens ordenadas ou não ordenadas. Baseado no paradigma DUSt3R, o Spann3R utiliza uma arquitetura baseada em *transformers* para regredir diretamente mapas de pontos a partir de imagens, sem qualquer conhecimento prévio da cena ou parâmetros da câmara. Ao contrário do DUSt3R, que prevê mapas de pontos por par de imagens, cada um expresso no seu próprio referencial local, o Spann3R pode prever mapas de pontos por imagem expressos num sistema de coordenadas global, eliminando assim a necessidade de um alinhamento global baseado em otimização. A ideia-chave do Spann3R é gerir uma memória espacial externa que aprende a manter o registo de toda a informação 3D relevante anterior. O Spann3R consulta então esta memória espacial para prever a estrutura 3D do *frame* seguinte num sistema de coordenadas global. Aproveitando os pesos pré-treinados do DUSt3R e um *fine-tuning* adicional num subconjunto de conjuntos de dados, o Spann3R demonstra um desempenho competitivo e capacidade de generalização em vários conjuntos de dados não vistos, podendo processar coleções de imagens ordenadas em tempo real. Página do projeto: https://hengyiwang.github.io/projects/spanner
A ofuscação de autoria, que consiste em reescrever um texto para obscurecer intencionalmente a identidade do autor, é uma tarefa importante mas desafiadora. Os métodos atuais que utilizam modelos de linguagem de grande escala (LLMs) carecem de interpretabilidade e controlabilidade, frequentemente ignorando características estilísticas específicas do autor, resultando num desempenho global menos robusto. Para resolver esta limitação, desenvolvemos o StyleRemix, um método de ofuscação adaptável e interpretável que perturba elementos estilísticos específicos e de granularidade fina do texto de entrada original. O StyleRemix utiliza módulos de Adaptação de Baixo *Rank* (LoRA) pré-treinados para reescrever uma entrada especificamente ao longo de vários eixos estilísticos (por exemplo, formalidade e extensão), mantendo um baixo custo computacional. O StyleRemix supera os métodos de referência do estado da arte e LLMs muito maiores numa variedade de domínios, conforme avaliado por métricas automáticas e avaliação humana. Adicionalmente, disponibilizamos o AuthorMix, um extenso conjunto de 30 mil textos longos e de alta qualidade de um grupo diversificado de 14 autores e 4 domínios, e o DiSC, um corpus paralelo de 1.500 textos que abrange sete eixos estilísticos em 16 direções únicas.
Novos métodos de aprendizado de máquina para geração de dados tabulares são frequentemente desenvolvidos em conjuntos de dados pequenos que não correspondem à escala necessária para aplicações científicas. Investigamos uma proposta recente de usar o XGBoost como o aproximador de função em modelos de difusão e *flow-matching* para dados tabulares, que se mostrou extremamente intensivo em memória, mesmo em conjuntos de dados minúsculos. Neste trabalho, conduzimos uma análise crítica da implementação existente sob uma perspectiva de engenharia e mostramos que essas limitações não são fundamentais para o método; com uma implementação melhor, ele pode ser dimensionado para conjuntos de dados 370 vezes maiores do que os utilizados anteriormente. Nossa implementação eficiente também permite dimensionar os modelos para tamanhos muito maiores, o que mostramos levar diretamente a um desempenho melhorado em tarefas de referência. Também propomos melhorias algorítmicas que podem beneficiar ainda mais o uso de recursos e o desempenho do modelo, incluindo árvores de múltiplas saídas, que são bem adequadas para modelagem generativa. Por fim, apresentamos resultados em conjuntos de dados científicos de grande escala derivados da física experimental de partículas, como parte do *Fast Calorimeter Simulation Challenge*. O código está disponível em https://github.com/layer6ai-labs/calo-forest.
Numerosos processos biológicos e físicos podem ser modelados como sistemas de entidades interagentes que evoluem continuamente ao longo do tempo, por exemplo, a dinâmica de células em comunicação ou partículas físicas. Aprender a dinâmica de tais sistemas é essencial para prever a evolução temporal de populações em novas amostras e ambientes não observados. Modelos baseados em fluxo permitem aprender essas dinâmicas ao nível populacional - eles modelam a evolução de toda a distribuição de amostras. No entanto, os modelos atuais baseados em fluxo estão limitados a uma única população inicial e a um conjunto de condições predefinidas que descrevem diferentes dinâmicas. Argumentamos que múltiplos processos nas ciências naturais devem ser representados como campos vetoriais na variedade de Wasserstein de densidades de probabilidade. Isto é, a mudança da população em qualquer momento no tempo depende da própria população devido às interações entre as amostras. Em particular, isso é crucial para a medicina personalizada, onde o desenvolvimento de doenças e a sua resposta respectiva ao tratamento dependem do microambiente celular específico de cada paciente. Propomos o *Meta Flow Matching* (MFM), uma abordagem prática para integrar ao longo desses campos vetoriais na variedade de Wasserstein, amortizando o modelo de fluxo sobre as populações iniciais. Nomeadamente, incorporamos a população de amostras usando uma Rede Neural de Grafos (GNN) e usamos essas incorporações para treinar um modelo de *Flow Matching*. Isso confere ao MFM a capacidade de generalizar sobre as distribuições iniciais, ao contrário de métodos propostos anteriormente. Demonstramos a capacidade do MFM para melhorar a previsão de respostas individuais ao tratamento num conjunto de dados de rastreio de fármacos em células únicas de múltiplos pacientes em larga escala.