Artigos de pesquisa em IA selecionados diariamente com traduções
Os avanços recentes em modelos de visão-linguagem têm aprimorado o desempenho ao aumentar o comprimento dos tokens visuais, tornando-os muito mais longos do que os tokens de texto e aumentando significativamente os custos computacionais. No entanto, observamos que os tokens visuais gerados por codificadores de visão populares, como CLIP e SigLIP, contêm uma redundância significativa. Para lidar com isso, introduzimos o VisionZip, um método simples, porém eficaz, que seleciona um conjunto de tokens informativos para entrada no modelo de linguagem, reduzindo a redundância dos tokens visuais e melhorando a eficiência, mantendo o desempenho do modelo. O VisionZip proposto pode ser amplamente aplicado a tarefas de compreensão de imagens e vídeos e é adequado para diálogos de várias rodadas em cenários do mundo real, onde métodos anteriores tendem a ter desempenho inferior. Resultados experimentais mostram que o VisionZip supera o método anterior de última geração em pelo menos 5% de ganhos de desempenho em quase todas as configurações. Além disso, nosso método melhora significativamente a velocidade de inferência do modelo, reduzindo o tempo de preenchimento em 8 vezes e permitindo que o modelo LLaVA-Next 13B infira mais rápido do que o modelo LLaVA-Next 7B, alcançando melhores resultados. Além disso, analisamos as causas dessa redundância e incentivamos a comunidade a focar em extrair melhores características visuais em vez de simplesmente aumentar o comprimento dos tokens. Nosso código está disponível em https://github.com/dvlab-research/VisionZip.
Apresentamos um novo método de geração 3D para a criação versátil e de alta qualidade de ativos 3D. O alicerce é uma representação unificada de Latente Estruturado (SLAT) que permite a decodificação em diferentes formatos de saída, como Campos de Radiância, Gaussianas 3D e malhas. Isso é alcançado integrando uma grade 3D esparsamente povoada com características visuais multivisão densas extraídas de um modelo de fundação visual poderoso, capturando abrangente tanto informações estruturais (geometria) quanto texturais (aparência) enquanto mantém flexibilidade durante a decodificação. Empregamos transformadores de fluxo retificados adaptados para SLAT como nossos modelos de geração 3D e treinamos modelos com até 2 bilhões de parâmetros em um grande conjunto de dados de ativos 3D de 500 mil objetos diversos. Nosso modelo gera resultados de alta qualidade com condições de texto ou imagem, superando significativamente métodos existentes, incluindo os mais recentes em escalas semelhantes. Demonstramos a seleção flexível de formato de saída e capacidades de edição 3D local que não eram oferecidas por modelos anteriores. O código, modelo e dados serão disponibilizados.
As Interfaces Gráficas de Usuário (GUIs) são fundamentais para a interação humano-computador, no entanto, automatizar tarefas de GUI ainda é desafiador devido à complexidade e variabilidade dos ambientes visuais. Abordagens existentes frequentemente se baseiam em representações textuais de GUIs, o que introduz limitações em termos de generalização, eficiência e escalabilidade. Neste artigo, apresentamos Aguvis, um framework unificado puramente baseado em visão para agentes de GUI autônomos que operam em diversas plataformas. Nossa abordagem aproveita observações baseadas em imagens, ancorando instruções em linguagem natural aos elementos visuais, e emprega um espaço de ação consistente para garantir generalização entre plataformas. Para lidar com as limitações de trabalhos anteriores, integramos planejamento e raciocínio explícitos no modelo, aprimorando sua capacidade de navegar e interagir autonomamente com ambientes digitais complexos. Construímos um conjunto de dados em larga escala com trajetórias de agentes de GUI, incorporando raciocínio e ancoragem multimodais, e utilizamos um pipeline de treinamento em duas etapas que inicialmente se concentra na ancoragem geral de GUI, seguida por planejamento e raciocínio. Através de experimentos abrangentes, demonstramos que Aguvis supera métodos anteriores de ponta tanto em cenários offline quanto online do mundo real, alcançando, até onde sabemos, o primeiro agente de GUI puramente baseado em visão totalmente autônomo capaz de realizar tarefas independentemente sem colaboração com modelos externos de código fechado. Disponibilizamos todos os conjuntos de dados, modelos e receitas de treinamento em código aberto para facilitar pesquisas futuras em https://aguvis-project.github.io/.
Apresentamos Florence-VL, uma nova família de grandes modelos de linguagem multimodais (MLLMs) com representações visuais enriquecidas produzidas por Florence-2, um modelo de fundação de visão generativa. Ao contrário do amplamente utilizado modelo de visão estilo CLIP treinado por aprendizado contrastivo, Florence-2 pode capturar diferentes níveis e aspectos de características visuais, que são mais versáteis para serem adaptados a diversas tarefas downstream. Propomos uma arquitetura de fusão de características inovadora e uma receita de treinamento que integra de forma eficaz as características visuais de Florence-2 em MLLMs pré-treinados, como Phi 3.5 e LLama 3. Em particular, propomos "fusão de profundidade-amplitude (DBFusion)" para fundir as características visuais extraídas de diferentes profundidades e sob múltiplas sugestões. Nosso treinamento do modelo é composto por pré-treinamento de ponta a ponta do modelo inteiro seguido por ajuste fino da camada de projeção e do MLLM, em uma receita cuidadosamente projetada de diversos conjuntos de dados de código aberto que incluem legendas de imagens de alta qualidade e pares de ajuste de instruções. Nossa análise quantitativa e visualização das características visuais do Florence-VL mostram suas vantagens sobre codificadores de visão populares na alinhamento visão-linguagem, onde a profundidade e amplitude enriquecidas desempenham papéis importantes. Florence-VL alcança melhorias significativas em relação aos atuais MLLMs de ponta em vários benchmarks multimodais e centrados em visão que abrangem VQA geral, percepção, alucinação, OCR, gráficos, compreensão intensiva de conhecimento, etc. Para facilitar pesquisas futuras, nossos modelos e a receita de treinamento completa estão disponíveis em código aberto. https://github.com/JiuhaiChen/Florence-VL
Os modelos de linguagem visual (VLMs) tiveram avanços significativos em precisão nos últimos anos. No entanto, sua eficiência recebeu muito menos atenção. Este artigo apresenta o NVILA, uma família de VLMs abertos projetados para otimizar tanto a eficiência quanto a precisão. Construindo em cima do VILA, melhoramos sua arquitetura de modelo primeiro escalando as resoluções espaciais e temporais e depois comprimindo tokens visuais. Esta abordagem "escalar e depois comprimir" permite que o NVILA processe eficientemente imagens de alta resolução e vídeos longos. Também realizamos uma investigação sistemática para aprimorar a eficiência do NVILA ao longo de todo o seu ciclo de vida, desde o treinamento e ajuste fino até a implantação. O NVILA corresponde ou supera a precisão de muitos dos principais VLMs abertos e proprietários em uma ampla gama de benchmarks de imagem e vídeo. Ao mesmo tempo, reduz os custos de treinamento em 4,5 vezes, o uso de memória para ajuste fino em 3,4 vezes, a latência de pré-preenchimento em 1,6-2,2 vezes e a latência de decodificação em 1,2-2,8 vezes. Em breve disponibilizaremos nosso código e modelos para facilitar a reprodução.
Dado o aumento do uso de dados sintéticos no pós-treinamento de modelos de linguagem (LM), a capacidade de um LM gerar dados de alta qualidade tornou-se quase tão crucial quanto sua capacidade de resolver problemas diretamente. Enquanto trabalhos anteriores focaram no desenvolvimento de métodos eficazes de geração de dados, eles carecem de uma comparação sistemática de diferentes LMs como geradores de dados em um ambiente unificado. Para abordar essa lacuna, propomos o AgoraBench, um benchmark que fornece configurações e métricas padronizadas para avaliar as habilidades de geração de dados dos LMs. Através da síntese de 1,26 milhão de instâncias de treinamento usando 6 LMs e treinando 99 modelos estudantis, descobrimos insights importantes sobre as capacidades de geração de dados dos LMs. Primeiramente, observamos que os LMs exibem forças distintas. Por exemplo, o GPT-4o se destaca na geração de novos problemas, enquanto o Claude-3.5-Sonnet se sai melhor em aprimorar os já existentes. Além disso, nossa análise revela que a capacidade de geração de dados de um LM não necessariamente se correlaciona com sua capacidade de resolver problemas. Em vez disso, múltiplas características intrínsecas da qualidade dos dados - incluindo qualidade de resposta, perplexidade e dificuldade de instrução - servem coletivamente como melhores indicadores. Por fim, demonstramos que escolhas estratégicas no formato de saída e na seleção de modelos conscientes do custo impactam significativamente a eficácia da geração de dados.
A detecção automática e prevenção de falhas de conjunto aberto são cruciais em sistemas robóticos de loop fechado. Estudos recentes frequentemente têm dificuldade em identificar simultaneamente falhas inesperadas de forma reativa após sua ocorrência e prevenir aquelas previsíveis de forma proativa. Para isso, propomos o Código como Monitor (CaM), um novo paradigma que utiliza o modelo visão-linguagem (VLM) para detecção de falhas reativas e proativas de conjunto aberto. O cerne do nosso método é formular ambas as tarefas como um conjunto unificado de problemas de satisfação de restrições espaço-temporais e utilizar código gerado pelo VLM para avaliá-los para monitoramento em tempo real. Para aprimorar a precisão e eficiência do monitoramento, introduzimos elementos de restrição que abstraem entidades relacionadas a restrições ou suas partes em elementos geométricos compactos. Essa abordagem oferece maior generalidade, simplifica o rastreamento e facilita a programação visual consciente de restrições, aproveitando esses elementos como sugestões visuais. Experimentos mostram que o CaM alcança uma taxa de sucesso 28,7% maior e reduz o tempo de execução em 31,8% sob perturbações severas em comparação com baselines em três simuladores e em um ambiente do mundo real. Além disso, o CaM pode ser integrado com políticas de controle em malha aberta para formar sistemas em malha fechada, possibilitando tarefas de longo prazo em cenas congestionadas com ambientes dinâmicos.
Os modelos de difusão destacam-se na geração de imagens de alta qualidade. No entanto, os modelos de difusão atuais têm dificuldade em produzir imagens confiáveis sem métodos de orientação, como orientação sem classificador (CFG). Será que os métodos de orientação são realmente necessários? Observando que o ruído obtido através da inversão de difusão pode reconstruir imagens de alta qualidade sem orientação, focamos no ruído inicial do pipeline de remoção de ruído. Ao mapear o ruído gaussiano para 'ruído livre de orientação', descobrimos que pequenos componentes de baixa magnitude e baixa frequência melhoram significativamente o processo de remoção de ruído, eliminando a necessidade de orientação e, assim, melhorando tanto a eficiência da inferência quanto a memória. Expandindo isso, propomos \ours, um método inovador que substitui os métodos de orientação por um único refinamento do ruído inicial. Esse ruído refinado possibilita a geração de imagens de alta qualidade sem orientação, dentro do mesmo pipeline de difusão. Nosso modelo de refinamento de ruído aproveita a aprendizagem eficiente no espaço de ruído, alcançando uma convergência rápida e um desempenho sólido com apenas 50 mil pares de texto-imagem. Validamos sua eficácia em diversas métricas e analisamos como o ruído refinado pode eliminar a necessidade de orientação. Consulte nossa página do projeto: https://cvlab-kaist.github.io/NoiseRefine/.
Os métodos existentes de geração de imagens multi-visão frequentemente realizam modificações invasivas nos modelos pré-treinados texto-para-imagem (T2I) e exigem ajustes finos completos, resultando em (1) altos custos computacionais, especialmente com modelos base grandes e imagens de alta resolução, e (2) degradação na qualidade da imagem devido a dificuldades de otimização e escassez de dados 3D de alta qualidade. Neste artigo, propomos a primeira solução baseada em adaptadores para geração de imagens multi-visão e apresentamos o MV-Adapter, um adaptador versátil plug-and-play que aprimora modelos T2I e suas derivações sem alterar a estrutura de rede original ou o espaço de características. Ao atualizar menos parâmetros, o MV-Adapter permite treinamento eficiente e preserva o conhecimento prévio incorporado nos modelos pré-treinados, mitigando os riscos de overfitting. Para modelar eficientemente o conhecimento geométrico 3D dentro do adaptador, introduzimos designs inovadores que incluem camadas de autoatenção duplicadas e arquitetura de atenção paralela, permitindo que o adaptador herde os poderosos conhecimentos prévios dos modelos pré-treinados para modelar o novo conhecimento 3D. Além disso, apresentamos um codificador de condição unificado que integra perfeitamente parâmetros de câmera e informações geométricas, facilitando aplicações como geração 3D baseada em texto e imagem e texturização. O MV-Adapter alcança geração multi-visão em resolução de 768 no Stable Diffusion XL (SDXL) e demonstra adaptabilidade e versatilidade. Ele também pode ser estendido para geração de visões arbitrárias, possibilitando aplicações mais amplas. Demonstramos que o MV-Adapter estabelece um novo padrão de qualidade para geração de imagens multi-visão e abre novas possibilidades devido à sua eficiência, adaptabilidade e versatilidade.
Os recentes avanços na geração de imagens centradas em vestuário a partir de textos e prompts de imagem baseados em modelos de difusão são impressionantes. No entanto, os métodos existentes carecem de suporte para várias combinações de vestuário e têm dificuldade em preservar os detalhes das roupas ao manter fidelidade aos prompts de texto, limitando seu desempenho em cenários diversos. Neste artigo, focamos em uma nova tarefa, ou seja, o Vestuário Virtual Multi-Garment, e propomos um novo método chamado AnyDressing para personalizar personagens condicionados a qualquer combinação de roupas e prompts de texto personalizados. O AnyDressing é composto por duas redes principais chamadas GarmentsNet e DressingNet, que são dedicadas, respectivamente, a extrair características detalhadas de roupas e gerar imagens personalizadas. Especificamente, propomos um módulo eficiente e escalável chamado Extrator de Características Específicas de Vestuário no GarmentsNet para codificar individualmente texturas de roupas em paralelo. Este design evita confusão de roupas, garantindo a eficiência da rede. Enquanto isso, projetamos um mecanismo de Atenção ao Vestir adaptativo e uma estratégia de Aprendizado de Localização de Vestuário em Nível de Instância inovadora no DressingNet para injetar com precisão características de múltiplos vestuários em suas regiões correspondentes. Esta abordagem integra eficientemente pistas de textura de múltiplos vestuários nas imagens geradas e aprimora ainda mais a consistência texto-imagem. Além disso, introduzimos uma estratégia de Aprendizado de Textura Aprimorada por Vestuário para melhorar os detalhes de textura refinados das roupas. Graças ao nosso design bem elaborado, o AnyDressing pode servir como um módulo plug-in para integrar facilmente com quaisquer extensões de controle comunitário para modelos de difusão, melhorando a diversidade e controlabilidade das imagens sintetizadas. Experimentos extensos mostram que o AnyDressing alcança resultados de ponta.
A orientação adversarial baseada em texto usando um prompt negativo surgiu como uma abordagem amplamente adotada para afastar as características de saída de conceitos indesejados. Embora útil, realizar orientação adversarial apenas com texto pode ser insuficiente para capturar conceitos visuais complexos e evitar elementos visuais indesejados, como personagens protegidos por direitos autorais. Neste artigo, exploramos, pela primeira vez, uma modalidade alternativa nessa direção, realizando orientação adversarial diretamente usando características visuais de uma imagem de referência ou de outras imagens em um lote. Em particular, introduzimos a fusão de tokens negativos (NegToMe), uma abordagem simples, porém eficaz, sem necessidade de treinamento, que realiza orientação adversarial empurrando seletivamente características semânticas correspondentes (entre referência e geração de saída) durante o processo de difusão reversa. Quando usado em relação a outras imagens no mesmo lote, observamos que o NegToMe aumenta significativamente a diversidade de saída (racial, gênero, visual) sem sacrificar a qualidade da imagem de saída. Da mesma forma, ao ser usado em relação a um ativo protegido por direitos autorais de referência, o NegToMe ajuda a reduzir a similaridade visual com conteúdo protegido por direitos autorais em 34,57%. O NegToMe é simples de implementar usando apenas algumas linhas de código, aumenta apenas marginalmente (<4%) os tempos de inferência e generaliza para diferentes arquiteturas de difusão como o Flux, que não suportam nativamente o uso de um prompt negativo separado. O código está disponível em https://negtome.github.io
Os Modelos de Linguagem de Grande Escala (LLMs) surgiram como um marco na inteligência artificial, e seu desempenho pode melhorar à medida que o tamanho do modelo aumenta. No entanto, essa escalabilidade traz grandes desafios para a eficiência de treinamento e inferência, especialmente ao implantar LLMs em ambientes com recursos limitados, e a tendência de escalabilidade está se tornando cada vez mais insustentável. Este artigo introduz o conceito de "densidade de capacidade" como uma nova métrica para avaliar a qualidade dos LLMs em diferentes escalas e descreve a tendência dos LLMs em termos de eficácia e eficiência. Para calcular a densidade de capacidade de um determinado LLM alvo, primeiro introduzimos um conjunto de modelos de referência e desenvolvemos uma lei de escalabilidade para prever o desempenho futuro desses modelos de referência com base em seus tamanhos de parâmetros. Em seguida, definimos o tamanho efetivo de parâmetros do LLM alvo como o tamanho de parâmetros necessário por um modelo de referência para alcançar um desempenho equivalente, e formalizamos a densidade de capacidade como a razão entre o tamanho efetivo de parâmetros e o tamanho real de parâmetros do LLM alvo. A densidade de capacidade fornece um framework unificado para avaliar tanto a eficácia quanto a eficiência do modelo. Nossa análise adicional dos recentes LLMs base de código aberto revela uma lei empírica (a lei de densificação) em que a densidade de capacidade dos LLMs cresce exponencialmente ao longo do tempo. Mais especificamente, utilizando alguns benchmarks amplamente utilizados para avaliação, a densidade de capacidade dos LLMs dobra aproximadamente a cada três meses. A lei fornece novas perspectivas para orientar o desenvolvimento futuro de LLMs, enfatizando a importância de melhorar a densidade de capacidade para alcançar resultados ótimos com o mínimo de sobrecarga computacional.
Vieses culturais em conjuntos de dados multilíngues representam desafios significativos para sua eficácia como referências globais. Esses vieses derivam não apenas da língua, mas também do conhecimento cultural necessário para interpretar questões, reduzindo a utilidade prática de conjuntos de dados traduzidos como MMLU. Além disso, a tradução frequentemente introduz artefatos que podem distorcer o significado ou a clareza das questões no idioma-alvo. Uma prática comum na avaliação multilíngue é depender de conjuntos de avaliação traduzidos por máquina, mas simplesmente traduzir um conjunto de dados é insuficiente para lidar com esses desafios. Neste trabalho, rastreamos o impacto dessas questões nas avaliações multilíngues e no desempenho subsequente dos modelos. Nossa avaliação em larga escala de modelos abertos e proprietários de ponta ilustra que o progresso no MMLU depende fortemente da aprendizagem de conceitos centrados no Ocidente, com 28% de todas as questões exigindo conhecimento culturalmente sensível. Além disso, para questões que exigem conhecimento geográfico, impressionantes 84,9% se concentram em regiões norte-americanas ou europeias. As classificações das avaliações de modelos mudam dependendo se são avaliadas na porção completa ou no subconjunto de questões anotadas como culturalmente sensíveis, mostrando a distorção nas classificações de modelos ao depender cegamente do MMLU traduzido. Lançamos o Global-MMLU, um MMLU aprimorado com cobertura de avaliação em 42 idiomas -- com qualidade geral aprimorada ao envolver anotadores profissionais e da comunidade remunerados para verificar a qualidade da tradução, enquanto também avaliamos rigorosamente os vieses culturais presentes no conjunto de dados original. Este conjunto Global-MMLU abrangente também inclui subconjuntos designados como culturalmente sensíveis e culturalmente agnósticos para permitir uma avaliação mais holística e completa.
Apresentamos o Infinity, um Modelo AutoRegressivo Visual Bitwise capaz de gerar imagens de alta resolução e fotorrealistas seguindo instruções de linguagem. O Infinity redefine o modelo autoregressivo visual sob um framework de previsão de token bitwise com um tokenizador e classificador de vocabulário infinito e mecanismo de autocorreção bitwise, melhorando significativamente a capacidade de geração e detalhes. Ao escalar teoricamente o tamanho do vocabulário do tokenizador para o infinito e escalando simultaneamente o tamanho do transformer, nosso método libera significativamente poderosas capacidades de escala em comparação com o VAR convencional. O Infinity estabelece um novo recorde para modelos autoregressivos de texto para imagem, superando modelos de difusão de primeira linha como SD3-Medium e SDXL. Notavelmente, o Infinity supera o SD3-Medium ao melhorar a pontuação de benchmark GenEval de 0,62 para 0,73 e a pontuação de benchmark ImageReward de 0,87 para 0,96, alcançando uma taxa de vitória de 66%. Sem otimizações adicionais, o Infinity gera uma imagem de 1024x1024 de alta qualidade em 0,8 segundos, sendo 2,6 vezes mais rápido que o SD3-Medium e estabelecendo-se como o modelo texto para imagem mais rápido. Os modelos e códigos serão disponibilizados para promover uma maior exploração do Infinity para geração visual e modelagem de tokenizador unificado.
Apresentamos o HumanEdit, um conjunto de dados de alta qualidade recompensado por humanos, especificamente projetado para edição de imagens guiada por instruções, permitindo manipulações precisas e diversas de imagens por meio de instruções em linguagem aberta. Conjuntos de dados de edição em larga escala anteriores frequentemente incorporam feedback humano mínimo, o que leva a desafios na alinhamento dos conjuntos de dados com as preferências humanas. O HumanEdit preenche essa lacuna empregando anotadores humanos para construir pares de dados e administradores para fornecer feedback. Com uma curadoria meticulosa, o HumanEdit é composto por 5.751 imagens e requer mais de 2.500 horas de esforço humano em quatro estágios, garantindo precisão e confiabilidade para uma ampla gama de tarefas de edição de imagens. O conjunto de dados inclui seis tipos distintos de instruções de edição: Ação, Adicionar, Contagem, Relação, Remover e Substituir, abrangendo um amplo espectro de cenários do mundo real. Todas as imagens no conjunto de dados são acompanhadas por máscaras, e para um subconjunto dos dados, garantimos que as instruções sejam suficientemente detalhadas para suportar a edição sem máscara. Além disso, o HumanEdit oferece diversidade abrangente e conteúdo de alta resolução de 1024 por 1024 obtido de várias áreas, estabelecendo um novo benchmark versátil para conjuntos de dados de edição de imagens instrucionais. Com o objetivo de avançar na pesquisa futura e estabelecer benchmarks de avaliação no campo da edição de imagens, disponibilizamos o HumanEdit em https://huggingface.co/datasets/BryanW/HumanEdit.
Compreender as computações internas de grandes modelos de linguagem (LLMs) é crucial para alinhá-los com os valores humanos e prevenir comportamentos indesejados, como a geração de conteúdo tóxico. No entanto, a interpretabilidade mecanicista é prejudicada pela polissemia - onde neurônios individuais respondem a múltiplos conceitos não relacionados. Enquanto Autoencoders Esparsos (SAEs) tentaram desemaranhar essas características por meio do aprendizado de dicionário esparsos, comprometeram o desempenho do LLM devido à dependência de perda de reconstrução pós-hoc. Para abordar esse problema, apresentamos a arquitetura Mixture of Monosemantic Experts for Transformers (Monet), que incorpora o aprendizado de dicionário esparsos diretamente no pré-treinamento end-to-end Mixture-of-Experts. Nosso novo método de decomposição de especialistas permite escalar o número de especialistas para 262.144 por camada, enquanto os parâmetros totais escalam proporcionalmente à raiz quadrada do número de especialistas. Nossas análises demonstram a exclusividade mútua do conhecimento entre os especialistas e mostram o conhecimento paramétrico encapsulado dentro de cada especialista. Além disso, Monet permite a manipulação de conhecimento em diferentes domínios, idiomas e mitigação de toxicidade sem degradar o desempenho geral. Nossa busca por LLMs transparentes destaca o potencial de escalar o número de especialistas para aprimorar a interpretabilidade mecanicista e restringir diretamente o conhecimento interno para ajustar fundamentalmente o comportamento do modelo. O código-fonte e os checkpoints pré-treinados estão disponíveis em https://github.com/dmis-lab/Monet.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tornaram-se cada vez mais importantes devido ao seu desempenho de ponta e capacidade de integrar múltiplas modalidades de dados, como texto, imagens e áudio, para realizar tarefas complexas com alta precisão. Este artigo apresenta uma pesquisa abrangente sobre modelos de linguagem multimodais de grande escala personalizados, focando em sua arquitetura, métodos de treinamento e aplicações. Propomos uma taxonomia intuitiva para categorizar as técnicas usadas para personalizar MLLMs para usuários individuais e discutimos as técnicas correspondentes. Além disso, discutimos como tais técnicas podem ser combinadas ou adaptadas quando apropriado, destacando suas vantagens e fundamentos subjacentes. Também fornecemos um resumo sucinto das tarefas de personalização investigadas em pesquisas existentes, juntamente com as métricas de avaliação comumente utilizadas. Adicionalmente, resumimos os conjuntos de dados úteis para a avaliação de MLLMs personalizados. Por fim, delineamos desafios críticos em aberto. Esta pesquisa tem como objetivo servir como um recurso valioso para pesquisadores e profissionais que buscam compreender e avançar no desenvolvimento de modelos de linguagem multimodais de grande escala personalizados.
Apresentamos o OmniFlow, um modelo generativo inovador projetado para tarefas de geração de qualquer para qualquer, como texto para imagem, texto para áudio e síntese de áudio para imagem. O OmniFlow avança o framework de fluxo retificado (RF) utilizado em modelos de texto para imagem para lidar com a distribuição conjunta de múltiplas modalidades. Ele supera modelos anteriores de qualquer para qualquer em uma ampla gama de tarefas, como síntese de texto para imagem e texto para áudio. Nosso trabalho oferece três contribuições-chave: Primeiro, estendemos o RF para um ambiente multi-modal e introduzimos um mecanismo de orientação inovador, permitindo aos usuários controlar flexivelmente o alinhamento entre diferentes modalidades nas saídas geradas. Segundo, propomos uma arquitetura inovadora que estende a arquitetura MMDiT de texto para imagem do Stable Diffusion 3 e possibilita geração de áudio e texto. Os módulos estendidos podem ser eficientemente pré-treinados individualmente e mesclados com o MMDiT de texto para imagem convencional para ajustes finos. Por fim, realizamos um estudo abrangente sobre as escolhas de design de transformadores de fluxo retificado para geração de áudio e texto em larga escala, fornecendo insights valiosos para otimizar o desempenho em diversas modalidades. O código estará disponível em https://github.com/jacklishufan/OmniFlows.
Como um esporte globalmente celebrado, o futebol tem atraído amplo interesse de fãs ao redor do mundo. Este artigo tem como objetivo desenvolver um framework abrangente multimodal para compreensão de vídeos de futebol. Especificamente, fazemos as seguintes contribuições neste artigo: (i) introduzimos o SoccerReplay-1988, o maior conjunto de dados multimodal de futebol até o momento, apresentando vídeos e anotações detalhadas de 1.988 partidas completas, com um pipeline de anotação automatizado; (ii) apresentamos o primeiro modelo de base visual-linguagem no domínio do futebol, o MatchVision, que aproveita informações espaço-temporais em vídeos de futebol e se destaca em várias tarefas subsequentes; (iii) realizamos experimentos extensivos e estudos de ablação na classificação de eventos, geração de comentários e reconhecimento de faltas de múltiplas visões. O MatchVision demonstra desempenho de ponta em todos eles, superando substancialmente os modelos existentes, o que destaca a superioridade de nossos dados e modelo propostos. Acreditamos que este trabalho oferecerá um paradigma padrão para a pesquisa em compreensão de esportes.
Modelos de Visão-Linguagem Treinados de Forma Contrastiva (VLMs), como o CLIP, tornaram-se a abordagem padrão para o aprendizado de representações discriminativas de visão-linguagem. No entanto, esses modelos têm entendimento limitado da linguagem, frequentemente exibindo um comportamento de "saco de palavras". Ao mesmo tempo, Modelos de Visão-Linguagem de Grande Escala (LVLMs), que combinam codificadores de visão com LLMs, têm demonstrado ser capazes de raciocínio detalhado de visão-linguagem, mas sua natureza autoregressiva os torna menos adequados para tarefas discriminativas. Neste trabalho, propomos combinar "o melhor dos dois mundos": uma nova abordagem de treinamento para ajuste fino discriminativo de LVLMs que resulta em fortes capacidades discriminativas e composicionais. Essencialmente, nossa abordagem converte um LVLM generativo em um discriminativo, desbloqueando sua capacidade para discriminação poderosa de imagem-texto combinada com um entendimento aprimorado da linguagem. Nossas contribuições incluem: (1) Um framework de treinamento/otimização cuidadosamente projetado que utiliza pares de imagem-texto de comprimento e granularidade variáveis para treinar o modelo com perdas de previsão contrastiva e de próximo token. Isso é acompanhado por estudos de ablação que justificam a necessidade dos componentes de nosso framework. (2) Um método de adaptação eficiente em termos de parâmetros usando uma combinação de sugestões suaves e adaptadores LoRA. (3) Melhorias significativas em relação aos modelos semelhantes ao CLIP de última geração de tamanho similar, incluindo benchmarks padrão de recuperação de imagem-texto e ganhos notáveis em composicionalidade.
Os Modelos de Linguagem de Grande Escala (LLMs) alcançaram progressos notáveis nos últimos anos; no entanto, sua excelente performance ainda está amplamente limitada aos principais idiomas do mundo, principalmente o inglês. Muitos LLMs continuam enfrentando desafios com tarefas multilíngues, especialmente quando se trata de idiomas com recursos limitados. Para abordar essa questão, introduzimos o Marco-LLM: Treinamento maciço multilíngue para aprimoramento cruzado de LLM. Coletamos uma quantidade substancial de dados multilíngues para vários idiomas com recursos limitados e realizamos extensivos pré-treinamentos contínuos utilizando os modelos Qwen2. Esse esforço resultou em um LLM multilíngue chamado Marco-LLM. Através de avaliações abrangentes em diversos benchmarks multilíngues, incluindo MMMLU, AGIEval, Belebele, Flores-200, XCOPA e muitos outros, o Marco-LLM demonstrou melhorias substanciais em relação aos LLMs de última geração. Além disso, o Marco-LLM obteve melhorias significativas em tarefas de tradução automática de qualquer idioma para qualquer idioma, mostrando a eficácia do nosso LLM multilíngue. O Marco-LLM é um LLM multilíngue pioneiro projetado não apenas para ter um desempenho excepcional em tarefas multilíngues, incluindo idiomas com recursos limitados, mas também para manter um desempenho forte em inglês e outros idiomas principais, reduzindo a diferença de desempenho entre as capacidades linguísticas de idiomas com recursos altos e baixos. Ao unir idiomas, esse esforço demonstra nossa dedicação em garantir que os LLMs funcionem com precisão em diversos idiomas.
Os avanços recentes em modelos de difusão de vídeo desbloquearam um novo potencial para a geração realista de vídeos falantes impulsionados por áudio. No entanto, alcançar uma sincronização áudio-labial perfeita, manter consistência de identidade a longo prazo e produzir expressões naturais e alinhadas com áudio em vídeos falantes gerados continuam sendo desafios significativos. Para enfrentar esses desafios, propomos a difusão orientada por memória e consciente de emoções (MEMO), uma abordagem de animação de retrato impulsionada por áudio de ponta a ponta para gerar vídeos falantes consistentes em identidade e expressivos. Nossa abordagem é construída em torno de dois módulos-chave: (1) um módulo temporal orientado por memória, que aprimora a consistência de identidade a longo prazo e a suavidade de movimento desenvolvendo estados de memória para armazenar informações de um contexto passado mais longo para orientar a modelagem temporal via atenção linear; e (2) um módulo de áudio consciente de emoções, que substitui a atenção cruzada tradicional por atenção multimodal para aprimorar a interação áudio-vídeo, enquanto detecta emoções a partir do áudio para refinar expressões faciais por meio de camada de normalização adaptativa de emoção. Resultados extensivos quantitativos e qualitativos demonstram que o MEMO gera vídeos falantes mais realistas em diversos tipos de imagem e áudio, superando os métodos de ponta em qualidade geral, sincronização áudio-labial, consistência de identidade e alinhamento entre expressão e emoção.
Neste artigo, propomos o ZipAR, um framework de decodificação paralela plug-and-play, sem necessidade de treinamento, para acelerar a geração visual auto-regressiva (AR). A motivação deriva da observação de que as imagens exibem estruturas locais, e regiões espacialmente distantes tendem a ter interdependência mínima. Dado um conjunto parcialmente decodificado de tokens visuais, além do esquema original de previsão do próximo token na dimensão da linha, os tokens correspondentes a regiões espacialmente adjacentes na dimensão da coluna podem ser decodificados em paralelo, possibilitando o paradigma de "próxima previsão de conjunto". Ao decodificar vários tokens simultaneamente em uma única passagem direta, o número de passagens diretas necessárias para gerar uma imagem é significativamente reduzido, resultando em uma melhoria substancial na eficiência de geração. Experimentos demonstram que o ZipAR pode reduzir o número de passagens diretas do modelo em até 91% no modelo Emu3-Gen sem exigir nenhum retrabalho adicional.
Os atuais grandes modelos de linguagem são principalmente baseados em transformadores com estrutura apenas de decodificação, que possuem ótimas capacidades de aprendizado em contexto (ICL). Acredita-se geralmente que a base importante de sua capacidade de ICL seja o mecanismo de cabeçalhos de indução, que requer pelo menos duas camadas de atenção. Para implementar de forma mais eficiente a capacidade de indução do modelo, revisitamos o mecanismo de cabeçalhos de indução e propusemos uma atenção de deslocamento KV. Demonstramos teoricamente que a atenção de deslocamento KV reduz os requisitos do modelo para a profundidade e largura do mecanismo de cabeçalhos de indução. Nossos resultados experimentais demonstram que a atenção de deslocamento KV é benéfica para o aprendizado de cabeçalhos de indução e modelagem de linguagem, o que resulta em melhor desempenho ou convergência mais rápida, desde modelos simples até modelos de pré-treinamento com mais de 10 bilhões de parâmetros.
Propomos o 4Real-Video, um novo framework para gerar vídeos 4D, organizados como uma grade de quadros de vídeo com eixos de tempo e ponto de vista. Nesta grade, cada linha contém quadros que compartilham o mesmo intervalo de tempo, enquanto cada coluna contém quadros do mesmo ponto de vista. Propomos uma arquitetura de dois fluxos inovadora. Um fluxo realiza atualizações de ponto de vista nas colunas, e o outro fluxo realiza atualizações temporais nas linhas. Após cada camada de transformador de difusão, uma camada de sincronização troca informações entre os dois fluxos de tokens. Propomos duas implementações da camada de sincronização, usando sincronização rígida ou suave. Esta arquitetura feedforward melhora trabalhos anteriores de três maneiras: maior velocidade de inferência, qualidade visual aprimorada (medida por FVD, CLIP e VideoScore), e melhor consistência temporal e de ponto de vista (medida por VideoScore e Dust3R-Confidence).
Apesar do desempenho notável dos grandes modelos de linguagem multimodais (MLLMs) em diversas tarefas, os substanciais custos de treinamento e inferência impedem seu avanço. A maioria da computação advém do volume avassalador de tokens de visão processados pelo decodificador transformer. Neste artigo, propomos construir MLLMs eficientes aproveitando o mecanismo de Mistura de Profundidades (MoD), onde cada camada do decodificador transformer seleciona tokens de visão essenciais para processamento, enquanto ignora os redundantes. No entanto, a integração do MoD nos MLLMs é complexa. Para enfrentar os desafios de estabilidade no treinamento e inferência, bem como a limitação de dados de treinamento, adaptamos o módulo MoD com dois projetos inovadores: normalização de peso com portas tanh (TanhNorm) e reponderação simétrica de tokens (STRing). Além disso, observamos que os tokens de visão apresentam maior redundância em camadas mais profundas e, portanto, projetamos uma estratégia de decaimento progressivo de razão (PRD), que reduz gradualmente a taxa de retenção de tokens camada por camada, empregando um cronograma cosseno deslocado. Este projeto crucial libera totalmente o potencial do MoD, impulsionando significativamente a eficiência e o desempenho de nossos modelos. Para validar a eficácia de nossa abordagem, realizamos experimentos extensivos com dois modelos de referência em 14 benchmarks. Nosso modelo, p-MoD, iguala ou até supera o desempenho dos modelos de referência, com apenas 55,6% de TFLOPs e 53,8% de armazenamento de cache KV durante a inferência, e 77,7% de horas de GPU durante o treinamento.
Apesar dos avanços significativos em modelos de visão-linguagem (VLMs), ainda faltam abordagens eficazes para melhorar a qualidade das respostas ao escalar a computação no tempo de inferência. Essa capacidade é conhecida por ser um passo fundamental em direção aos modelos autoaperfeiçoáveis em estudos recentes de grandes modelos de linguagem. Neste artigo, apresentamos o Modelo de Valor de Visão (VisVM) que pode orientar a busca em tempo de inferência do VLM para gerar respostas com melhor compreensão visual. Especificamente, o VisVM não apenas avalia a qualidade da frase gerada na etapa de busca atual, mas também antecipa a qualidade das frases subsequentes que podem resultar da etapa atual, fornecendo assim um valor a longo prazo. Dessa forma, o VisVM direciona os VLMs para longe da geração de frases propensas a alucinações ou com detalhes insuficientes, produzindo assim respostas de maior qualidade. Resultados experimentais demonstram que a busca orientada pelo VisVM melhora significativamente a capacidade dos VLMs de gerar legendas descritivas com detalhes visuais mais ricos e menos alucinações, em comparação com a decodificação gananciosa e métodos de busca com outros sinais de recompensa visual. Além disso, descobrimos que o autotreinamento do modelo com as legendas orientadas pelo VisVM melhora o desempenho do VLM em uma ampla gama de benchmarks multimodais, indicando o potencial para o desenvolvimento de VLMs autoaperfeiçoáveis. Nosso modelo de valor e código estão disponíveis em https://github.com/si0wang/VisVM.
A segmentação de imagens médicas tem demonstrado recentemente um progresso impressionante com redes neurais profundas, no entanto, as modalidades heterogêneas e a escassez de anotações de máscaras limitam o desenvolvimento de modelos de segmentação em modalidades não anotadas. Este artigo investiga um novo paradigma para alavancar modelos generativos em aplicações médicas: sintetizar de forma controlada dados para modalidades não anotadas, sem a necessidade de pares de dados registrados. Especificamente, apresentamos as seguintes contribuições neste artigo: (i) coletamos e curamos um conjunto de dados de imagem-texto em radiologia em larga escala, MedGen-1M, composto por rótulos de modalidade, atributos, região e informações de órgãos, juntamente com um subconjunto de anotações de máscara de órgãos, para apoiar a pesquisa em geração de imagens médicas controláveis; (ii) propomos um mecanismo de dados baseado em difusão, denominado MRGen, que permite a geração condicionada a prompts de texto e máscaras, sintetizando imagens de RM para diversas modalidades carentes de anotações de máscara, a fim de treinar modelos de segmentação em modalidades não anotadas; (iii) realizamos experimentos extensivos em várias modalidades, ilustrando que nosso mecanismo de dados pode sintetizar efetivamente amostras de treinamento e estender a segmentação de RM para modalidades não anotadas.
A extração de tabelas de imagens de documentos é um problema desafiador em IA, e dados rotulados para muitos domínios de conteúdo são difíceis de obter. Conjuntos de dados existentes de extração de tabelas frequentemente se concentram em tabelas científicas devido à grande quantidade de artigos acadêmicos prontamente disponíveis, juntamente com seus códigos-fonte. No entanto, existem diferenças significativas de layout e tipografia entre tabelas encontradas em domínios científicos, financeiros e outros. Conjuntos de dados atuais frequentemente não incluem as palavras e suas posições contidas nas tabelas, em vez disso, dependem de OCR não confiável para extrair esses recursos para treinar modelos modernos de aprendizado de máquina em tarefas de processamento de linguagem natural. Portanto, há uma necessidade de um método mais geral para obter dados rotulados. Apresentamos o SynFinTabs, um conjunto de dados rotulado em grande escala de tabelas financeiras sintéticas. Esperamos que nosso método de geração dessas tabelas sintéticas seja transferível para outros domínios. Para demonstrar a eficácia de nosso conjunto de dados no treinamento de modelos para extrair informações de imagens de tabelas, criamos o FinTabQA, um grande modelo de linguagem de layout treinado em uma tarefa de pergunta-resposta extrativa. Testamos nosso modelo usando tabelas financeiras do mundo real e o comparamos com um modelo generativo de ponta, discutindo os resultados. Disponibilizamos publicamente o conjunto de dados, o modelo e o código de geração de conjunto de dados.
Plataformas abertas orientadas pela comunidade, como o Chatbot Arena, que coletam dados de preferência do usuário de visitantes do site, ganharam reputação como um dos benchmarks publicamente disponíveis mais confiáveis para o desempenho de LLM. Embora agora padrão, é complicado implementar diretrizes eficazes para coletar anotações de alta qualidade de humanos. Neste artigo, demonstramos que três fontes de más anotações, tanto maliciosas quanto não intencionais, podem corromper a confiabilidade das classificações de líderes de placar aberto. Em particular, mostramos que apenas 10% dos votos de baixa qualidade por anotadores apáticos (visitantes do site não devidamente incentivados a fornecer votos corretos) ou adversários (atores mal-intencionados buscando inflar a classificação de um modelo-alvo) podem alterar as classificações dos modelos em até 5 posições no placar. Por fim, discutimos os desafios abertos em garantir anotações humanas de alta qualidade.
Desenvolvemos leis de escalonamento de tarefas e modelos de escadas para prever o desempenho individual de tarefas de modelos de linguagem pré-treinados (LMs) no cenário de sobreajuste. As leis de potência padrão para perda de modelagem de linguagem não conseguem modelar com precisão o desempenho da tarefa. Portanto, aproveitamos uma abordagem de previsão em duas etapas: primeiro, usamos o tamanho do modelo e dos dados para prever uma perda específica da tarefa e, em seguida, usamos essa perda da tarefa para prever o desempenho da tarefa. Treinamos um conjunto de modelos em pequena escala "escada", coletamos pontos de dados para ajustar as funções parametrizadas das duas etapas de previsão e fazemos previsões para dois modelos-alvo: um modelo de 7B treinado com 4T tokens e um modelo de 13B treinado com 5T tokens. Treinar os modelos de escada custa apenas 1% do cálculo usado nos modelos-alvo. Em quatro tarefas de múltipla escolha escritas em formato de classificação classificada, podemos prever a precisão de ambos os modelos-alvo com um erro absoluto de até 2 pontos. Temos um erro de previsão mais alto em outras quatro tarefas (erro absoluto médio de 6,9) e descobrimos que essas são frequentemente tarefas com maior variância nas métricas da tarefa. Também descobrimos que usar menos cálculos para treinar menos modelos de escada tende a deteriorar as previsões. Por fim, mostramos empiricamente que nossas escolhas de design e a abordagem em duas etapas levam a um desempenho superior na definição de leis de escalonamento.