Artigos de pesquisa em IA selecionados diariamente com traduções
À medida que os modelos de linguagem continuam a escalar, os Grandes Modelos de Linguagem (LLMs) têm demonstrado capacidades emergentes em Aprendizado em Contexto (ICL), permitindo-lhes resolver tarefas de linguagem ao prefixar algumas demonstrações em contexto (ICDs) como contexto. Inspirados por esses avanços, os pesquisadores estenderam essas técnicas para desenvolver Grandes Modelos Multimodais (LMMs) com capacidades de ICL. No entanto, os LMMs existentes enfrentam um problema crítico: frequentemente falham em aproveitar efetivamente o contexto visual em demonstrações multimodais e, em vez disso, simplesmente seguem padrões textuais. Isso indica que os LMMs não alcançam uma alinhamento eficaz entre as demonstrações multimodais e as saídas do modelo. Para resolver esse problema, propomos a Otimização de Preferência Direta de Demonstração de Símbolos (SymDPO). Especificamente, o SymDPO tem como objetivo quebrar o paradigma tradicional de construir demonstrações multimodais usando símbolos aleatórios para substituir respostas de texto dentro das instâncias. Isso força o modelo a entender cuidadosamente as imagens da demonstração e estabelecer uma relação entre as imagens e os símbolos para responder corretamente às perguntas. Validamos a eficácia deste método em múltiplos benchmarks, demonstrando que com o SymDPO, os LMMs podem entender de forma mais eficaz o contexto multimodal dentro dos exemplos e utilizar esse conhecimento para responder melhor às perguntas.
Embora a quantização para camadas lineares seja amplamente utilizada, sua aplicação para acelerar o processo de atenção ainda é limitada. O SageAttention utiliza multiplicação de matriz de 8 bits, multiplicação de matriz de 16 bits com acumulador de 16 bits e métodos de aprimoramento de precisão, implementando um kernel preciso e com aumento de velocidade de 2x em comparação com o FlashAttention2. Para aprimorar ainda mais a eficiência do cálculo de atenção mantendo a precisão, propomos o SageAttention2, que utiliza uma multiplicação de matriz de 4 bits (Matmul) significativamente mais rápida juntamente com técnicas adicionais de aprimoramento de precisão. Primeiramente, propomos quantizar as matrizes (Q, K) para INT4 em uma granularidade de nível de warp e quantizar as matrizes (widetilde P, V) para FP8. Em segundo lugar, propomos um método para suavizar Q e V, aprimorando a precisão da atenção com INT4 QK e FP8 PV. Em terceiro lugar, analisamos a precisão da quantização ao longo dos passos de tempo e camadas, e propomos um método de quantização adaptativa para garantir as métricas de ponta a ponta em vários modelos. As operações por segundo (OPS) do SageAttention2 superam o FlashAttention2 e os xformers em cerca de 3x e 5x no RTX4090, respectivamente. Experimentos abrangentes confirmam que nossa abordagem incorre em perda negligenciável de métricas de ponta a ponta em diversos modelos, incluindo aqueles para processamento de linguagem extensa, geração de imagens e geração de vídeos. Os códigos estão disponíveis em https://github.com/thu-ml/SageAttention.
A geração de vídeo tem testemunhado avanços significativos, no entanto, a avaliação desses modelos continua sendo um desafio. Um benchmark abrangente de avaliação para geração de vídeo é indispensável por duas razões: 1) As métricas existentes não estão totalmente alinhadas com as percepções humanas; 2) Um sistema de avaliação ideal deve fornecer insights para orientar futuros desenvolvimentos na geração de vídeo. Nesse sentido, apresentamos o VBench, uma suíte de benchmark abrangente que divide a "qualidade da geração de vídeo" em dimensões específicas, hierárquicas e desembaraçadas, cada uma com instruções e métodos de avaliação personalizados. O VBench possui várias propriedades atrativas: 1) Dimensões Abrangentes: O VBench compreende 16 dimensões na geração de vídeo (por exemplo, inconsistência na identidade do sujeito, suavidade do movimento, cintilação temporal e relação espacial, etc). As métricas de avaliação com níveis detalhados revelam as forças e fraquezas dos modelos individuais. 2) Alinhamento Humano: Também fornecemos um conjunto de dados de anotações de preferência humana para validar o alinhamento de nossos benchmarks com a percepção humana, para cada dimensão de avaliação, respectivamente. 3) Insights Valiosos: Analisamos a capacidade dos modelos atuais em várias dimensões de avaliação e tipos de conteúdo diversos. Também investigamos as lacunas entre os modelos de geração de vídeo e imagem. 4) Benchmarking Versátil: O VBench++ suporta a avaliação de texto-para-vídeo e imagem-para-vídeo. Apresentamos um Conjunto de Imagens de alta qualidade com uma proporção de aspecto adaptativa para permitir avaliações justas em diferentes configurações de geração de imagem-para-vídeo. Além de avaliar a qualidade técnica, o VBench++ avalia a confiabilidade dos modelos gerativos de vídeo, fornecendo uma visão mais holística do desempenho do modelo. 5) Totalmente de Código Aberto: Disponibilizamos o VBench++ em código aberto completo e continuamente adicionamos novos modelos de geração de vídeo ao nosso ranking para impulsionar o campo da geração de vídeo.
Os modelos multimodais de grande escala (LMMs) com capacidades avançadas de análise de vídeo têm recentemente recebido significativa atenção. No entanto, a maioria das avaliações depende de métodos tradicionais, como perguntas de múltipla escolha em benchmarks como VideoMME e LongVideoBench, que estão sujeitos a não ter a profundidade necessária para capturar as demandas complexas de usuários do mundo real. Para lidar com essa limitação - e devido ao custo proibitivo e ritmo lento da anotação humana para tarefas de vídeo - introduzimos o VideoAutoArena, um benchmark no estilo arena inspirado no framework LMSYS Chatbot Arena, projetado para avaliar automaticamente as habilidades de análise de vídeo dos LMMs. O VideoAutoArena utiliza simulação de usuário para gerar perguntas abertas e adaptativas que avaliam rigorosamente o desempenho do modelo na compreensão de vídeo. O benchmark apresenta um framework de avaliação automatizado e escalável, incorporando um Sistema de Classificação ELO modificado para comparações justas e contínuas entre vários LMMs. Para validar nosso sistema de julgamento automatizado, construímos um 'padrão-ouro' usando um subconjunto cuidadosamente selecionado de anotações humanas, demonstrando que nossa arena está fortemente alinhada com o julgamento humano, mantendo a escalabilidade. Além disso, introduzimos uma estratégia de evolução orientada por falhas, aumentando progressivamente a complexidade das perguntas para levar os modelos a lidar com cenários de análise de vídeo mais desafiadores. Resultados experimentais demonstram que o VideoAutoArena diferencia efetivamente entre os LMMs de ponta, fornecendo insights sobre pontos fortes do modelo e áreas para melhoria. Para otimizar ainda mais nossa avaliação, introduzimos o VideoAutoBench como um benchmark auxiliar, onde anotadores humanos rotulam vencedores em um subconjunto de batalhas do VideoAutoArena. Utilizamos o GPT-4o como juiz para comparar as respostas com essas respostas validadas por humanos. Juntos, o VideoAutoArena e o VideoAutoBench oferecem um framework econômico e escalável para avaliar LMMs na análise de vídeo centrada no usuário.
O Modelo Segment Anything 2 (SAM 2) demonstrou um desempenho sólido em tarefas de segmentação de objetos, mas enfrenta desafios no rastreamento visual de objetos, especialmente ao lidar com cenas lotadas com objetos em movimento rápido ou auto-oclusivos. Além disso, a abordagem de memória de janela fixa no modelo original não considera a qualidade das memórias selecionadas para condicionar as características da imagem para o próximo quadro, levando à propagação de erros em vídeos. Este artigo apresenta o SAMURAI, uma adaptação aprimorada do SAM 2 especificamente projetada para o rastreamento visual de objetos. Ao incorporar pistas temporais de movimento com o mecanismo de seleção de memória consciente de movimento proposto, o SAMURAI prevê efetivamente o movimento do objeto e aprimora a seleção de máscara, alcançando um rastreamento robusto e preciso sem a necessidade de retrabalho ou ajuste fino. O SAMURAI opera em tempo real e demonstra um forte desempenho de zero-shot em diversos conjuntos de dados de referência, mostrando sua capacidade de generalização sem ajuste fino. Nas avaliações, o SAMURAI alcança melhorias significativas na taxa de sucesso e precisão em relação aos rastreadores existentes, com um ganho de 7,1% de AUC no LaSOT_{ext} e um ganho de 3,5% de AO no GOT-10k. Além disso, ele alcança resultados competitivos em comparação com métodos totalmente supervisionados no LaSOT, destacando sua robustez em cenários de rastreamento complexos e seu potencial para aplicações do mundo real em ambientes dinâmicos. O código e os resultados estão disponíveis em https://github.com/yangchris11/samurai.
Ampliar o tamanho da janela de contexto permite que grandes modelos de linguagem (LLMs) processem sequências mais longas e lidem com tarefas mais complexas. A Incorporação Posicional Rotativa (RoPE) tornou-se o padrão de facto devido às suas propriedades de codificação posicional relativa que beneficiam o treinamento de longo contexto. No entanto, observamos que o uso do RoPE com o formato BFloat16 resulta em problemas numéricos, fazendo com que se desvie de sua codificação posicional relativa pretendida, especialmente em cenários de longo contexto. Esse problema surge da precisão limitada do BFloat16 e se acumula à medida que o comprimento do contexto aumenta, com o primeiro token contribuindo significativamente para esse problema. Para resolver isso, desenvolvemos o AnchorAttention, um método de atenção plug-and-play que alivia os problemas numéricos causados pelo BFloat16, melhora as capacidades de longo contexto e acelera o treinamento. O AnchorAttention reduz cálculos de atenção desnecessários, mantém a coerência semântica e aumenta a eficiência computacional tratando o primeiro token como uma âncora compartilhada com um ID de posição consistente, tornando-o visível para todos os documentos dentro do contexto de treinamento. Experimentos em três tipos de LLMs demonstram que o AnchorAttention melhora significativamente o desempenho de longo contexto e reduz o tempo de treinamento em mais de 50\% em comparação com mecanismos de atenção completos padrão, preservando as capacidades originais do LLM em tarefas gerais. Nosso código está disponível em https://github.com/haonan3/AnchorContext.
Agentes de linguagem têm demonstrado capacidades promissoras na automatização de tarefas baseadas na web, embora suas abordagens reativas atuais ainda apresentem desempenho inferior em grande parte em comparação com os humanos. A incorporação de algoritmos avançados de planejamento, particularmente métodos de busca em árvore, poderia aprimorar o desempenho desses agentes, no entanto, implementar a busca em árvore diretamente em sites ao vivo apresenta riscos significativos de segurança e restrições práticas devido a ações irreversíveis, como a confirmação de uma compra. Neste artigo, introduzimos um novo paradigma que aprimora agentes de linguagem com planejamento baseado em modelo, pioneirizando o uso inovador de grandes modelos de linguagem (LLMs) como modelos do mundo em ambientes web complexos. Nosso método, WebDreamer, baseia-se na percepção fundamental de que os LLMs codificam inerentemente conhecimento abrangente sobre estruturas e funcionalidades de sites. Especificamente, o WebDreamer utiliza LLMs para simular resultados para cada ação candidata (por exemplo, "o que aconteceria se eu clicasse neste botão?") usando descrições em linguagem natural, e então avalia esses resultados imaginados para determinar a ação ótima em cada etapa. Resultados empíricos em dois benchmarks representativos de agentes web com interação online - VisualWebArena e Mind2Web-live - demonstram que o WebDreamer alcança melhorias substanciais em relação às bases reativas. Ao estabelecer a viabilidade dos LLMs como modelos do mundo em ambientes web, este trabalho lança as bases para uma mudança de paradigma na interação web automatizada. Mais amplamente, nossas descobertas abrem novas e empolgantes possibilidades para futuras pesquisas em 1) otimização de LLMs especificamente para modelagem do mundo em ambientes complexos e dinâmicos, e 2) planejamento especulativo baseado em modelo para agentes de linguagem.
Os modelos de difusão se destacam na geração de imagens, mas controlá-los ainda é um desafio. Nos concentramos no problema da geração de imagens condicionadas a estilo. Embora imagens de exemplo funcionem, elas são complicadas: os srefs (códigos de referência de estilo) do MidJourney resolvem esse problema ao expressar um estilo de imagem específico em um código numérico curto. Eles têm sido amplamente adotados nas redes sociais devido à facilidade de compartilhamento e ao fato de permitirem o controle de estilo de uma imagem sem a necessidade de postar as imagens de origem. No entanto, os usuários não conseguem gerar srefs a partir de suas próprias imagens, nem o procedimento de treinamento subjacente é público. Propomos os StyleCodes: uma arquitetura de codificador de estilo de código aberto e de pesquisa aberta, juntamente com um procedimento de treinamento para expressar o estilo de imagem como um código base64 de 20 símbolos. Nossos experimentos mostram que nossa codificação resulta em perda mínima de qualidade em comparação com técnicas tradicionais de imagem-para-estilo.
Os mais recentes avanços em Modelos Multimodais de Grande Escala (LMMs) ampliaram suas capacidades para incluir a compreensão de vídeo. Especificamente, os modelos Texto-para-Vídeo (T2V) têm feito progressos significativos em qualidade, compreensão e duração, destacando-se na criação de vídeos a partir de simples sugestões textuais. No entanto, eles ainda frequentemente produzem conteúdo alucinado que claramente indica que o vídeo é gerado por IA. Apresentamos o ViBe: um Benchmark de Grande Escala de Texto-para-Vídeo de vídeos alucinados por modelos T2V. Identificamos cinco principais tipos de alucinação: Sujeito Desaparecido, Variabilidade Numérica, Disformia Temporal, Erro de Omissão e Incongruência Física. Utilizando 10 modelos T2V de código aberto, desenvolvemos o primeiro conjunto de dados de grande escala de vídeos alucinados, composto por 3.782 vídeos anotados por humanos nessas cinco categorias. O ViBe oferece um recurso único para avaliar a confiabilidade de modelos T2V e fornece uma base para melhorar a detecção e mitigação de alucinações na geração de vídeo. Estabelecemos a classificação como linha de base e apresentamos várias configurações de classificadores em conjunto, com a combinação TimeSFormer + CNN obtendo o melhor desempenho, alcançando uma precisão de 0,345 e um escore F1 de 0,342. Este benchmark tem como objetivo impulsionar o desenvolvimento de modelos T2V robustos que produzam vídeos mais precisamente alinhados com as sugestões de entrada.
Embora as leis de escala forneçam uma metodologia confiável para prever a perda de treinamento em diferentes escalas de computação para uma única distribuição de dados, sabe-se menos sobre como essas previsões devem mudar ao alterarmos a distribuição. Neste artigo, derivamos uma estratégia para prever uma perda a partir de outra e a aplicamos para prever em diferentes conjuntos de dados de pré-treinamento e do pré-treinamento para os dados da tarefa subsequente. Nossas previsões extrapolam bem, mesmo em 20 vezes o maior orçamento de FLOP usado para ajustar as curvas. Mais precisamente, descobrimos que existem relações simples de lei de potência deslocada entre (1) as perdas de treinamento de dois modelos treinados em dois conjuntos de dados separados quando os modelos são emparelhados pelo cálculo de treinamento (treino-a-treino), (2) a perda de treinamento e a perda de teste em qualquer distribuição subsequente para um único modelo (treino-a-teste), e (3) as perdas de teste de dois modelos treinados em dois conjuntos de dados de treinamento separados (teste-a-teste). Os resultados se mantêm para conjuntos de dados de pré-treinamento que diferem substancialmente (alguns são totalmente compostos por código e outros não possuem código algum) e em uma variedade de tarefas subsequentes. Por fim, descobrimos que em alguns cenários essas relações de lei de potência deslocada podem fornecer previsões mais precisas do que a extrapolação das leis de escala de um único conjunto de dados.
Modelos generativos de difusão texto-imagem podem gerar imagens de alta qualidade, porém exigem um engenharia de prompts tediosa. A controlabilidade pode ser melhorada ao introduzir condicionamento de layout, no entanto, os métodos existentes carecem de capacidade de edição de layout e controle refinado sobre atributos de objetos. O conceito de geração de múltiplas camadas tem um grande potencial para abordar essas limitações, no entanto, gerar instâncias de imagem simultaneamente à composição da cena limita o controle sobre atributos de objetos refinados, posicionamento relativo no espaço 3D e habilidades de manipulação de cena. Neste trabalho, propomos um novo paradigma de geração em múltiplos estágios que é projetado para controle refinado, flexibilidade e interatividade. Para garantir controle sobre os atributos das instâncias, desenvolvemos um novo paradigma de treinamento para adaptar um modelo de difusão para gerar componentes de cena isolados como imagens RGBA com informações de transparência. Para construir imagens complexas, utilizamos essas instâncias pré-geradas e introduzimos um processo de geração composta de múltiplas camadas que monta suavemente os componentes em cenas realistas. Nossos experimentos mostram que nosso modelo de difusão RGBA é capaz de gerar instâncias diversas e de alta qualidade com controle preciso sobre os atributos dos objetos. Através da composição de múltiplas camadas, demonstramos que nossa abordagem permite construir e manipular imagens a partir de prompts altamente complexos com controle refinado sobre a aparência e localização dos objetos, concedendo um maior grau de controle do que os métodos concorrentes.
O objetivo da Geração de Relatórios de Radiologia (GRR) é gerar automaticamente análises textuais coerentes de doenças com base em imagens radiológicas, aliviando assim a carga de trabalho dos radiologistas. Os métodos atuais baseados em IA para GRR concentram-se principalmente em modificações na arquitetura do modelo codificador-decodificador. Para avançar nesses enfoques, este artigo apresenta um framework Orientado por Informações Organ-Regionais (ORID) que pode integrar efetivamente informações multimodais e reduzir a influência de ruídos de órgãos não relacionados. Especificamente, com base no LLaVA-Med, primeiro construímos um conjunto de dados de instruções relacionadas à GRR para melhorar a capacidade de descrição do diagnóstico regional do órgão e obter o LLaVA-Med-GRR. Em seguida, propomos um módulo de fusão cruzada baseado em órgãos para combinar efetivamente as informações da descrição do diagnóstico regional do órgão e da imagem radiológica. Para reduzir ainda mais a influência de ruídos de órgãos não relacionados na geração de relatórios de radiologia, introduzimos um módulo de análise de coeficiente de importância do órgão, que utiliza a Rede Neural de Grafos (RNG) para examinar as interconexões das informações cruzadas de cada região do órgão. Experimentos extensos e comparações com métodos de ponta em várias métricas de avaliação demonstram o desempenho superior do nosso método proposto.