Artigos de pesquisa em IA selecionados diariamente com traduções
Os LLMs e sistemas RAG agora são capazes de lidar com milhões de tokens de entrada ou mais. No entanto, avaliar a qualidade de saída desses sistemas em tarefas de longo contexto continua sendo um desafio, pois tarefas como "Needle-in-a-Haystack" carecem de complexidade. Neste trabalho, argumentamos que a sumarização pode desempenhar um papel central nessa avaliação. Projetamos um procedimento para sintetizar "Haystacks" de documentos, garantindo que insights específicos se repitam entre os documentos. A tarefa "Sumário de um Haystack" (SummHay) então requer que um sistema processe o Haystack e gere, dado uma consulta, um resumo que identifique os insights relevantes e cite precisamente os documentos de origem. Como temos conhecimento preciso sobre quais insights devem aparecer em um resumo de haystack e quais documentos devem ser citados, implementamos uma avaliação automática altamente reprodutível que pode pontuar os resumos em dois aspectos - Cobertura e Citação. Geramos Haystacks em dois domínios (conversação, notícias) e realizamos uma avaliação em larga escala de 10 LLMs e 50 sistemas RAG correspondentes. Nossas descobertas indicam que SummHay é um desafio aberto para os sistemas atuais, pois mesmo os sistemas fornecidos com um sinal Oracle de relevância do documento ficam 10+ pontos atrás de nossa estimativa de desempenho humano (56\%) em um Escore Conjunto. Sem um recuperador, LLMs de longo contexto como GPT-4o e Claude 3 Opus pontuam abaixo de 20% no SummHay. Mostramos que o SummHay também pode ser usado para estudar sistemas RAG empresariais e viés de posicionamento em modelos de longo contexto. Esperamos que os sistemas futuros possam igualar e superar o desempenho humano no SummHay.
Os avanços recentes em modelos de linguagem grandes (LLMs) têm avançado significativamente na automação de tarefas de desenvolvimento de software, incluindo síntese de código, reparo de programas e geração de testes. Mais recentemente, pesquisadores e profissionais da indústria desenvolveram vários agentes autônomos baseados em LLM para realizar tarefas de desenvolvimento de software de ponta a ponta. Esses agentes estão equipados com a capacidade de usar ferramentas, executar comandos, observar feedback do ambiente e planejar ações futuras. No entanto, a complexidade dessas abordagens baseadas em agentes, juntamente com as habilidades limitadas dos LLMs atuais, levanta a seguinte questão: Será realmente necessário empregar agentes de software autônomos complexos? Para tentar responder a essa pergunta, desenvolvemos o Agenteless - uma abordagem sem agente para resolver automaticamente problemas de desenvolvimento de software. Comparado à configuração verbosa e complexa das abordagens baseadas em agentes, o Agenteless emprega um processo simplista de duas fases de localização seguido por reparo, sem permitir que o LLM decida ações futuras ou opere com ferramentas complexas. Nossos resultados no popular benchmark SWE-bench Lite mostram que, surpreendentemente, o simplista Agenteless é capaz de alcançar tanto o melhor desempenho (27,33%) quanto o menor custo (\$0,34) em comparação com todos os agentes de software de código aberto existentes! Além disso, classificamos manualmente os problemas no SWE-bench Lite e encontramos problemas com patch de verdade absoluta exata ou descrições de problemas insuficientes/enganosas. Como tal, construímos o SWE-bench Lite-S excluindo esses problemas problemáticos para realizar uma avaliação e comparação mais rigorosas. Nosso trabalho destaca o potencial atualmente negligenciado de uma técnica simples e interpretável no desenvolvimento de software autônomo. Esperamos que o Agenteless ajude a redefinir a linha de base, ponto de partida e horizonte para agentes de software autônomos, e inspire trabalhos futuros nessa direção crucial.
A geração de texto para vídeo (T2V) tem recentemente recebido significativa atenção graças ao grande modelo multimodal Sora. No entanto, a geração T2V ainda enfrenta dois desafios importantes: 1) Falta de um conjunto de dados de alta qualidade, preciso e de código aberto. Os conjuntos de dados de vídeo populares anteriores, como WebVid-10M e Panda-70M, são de baixa qualidade ou muito grandes para a maioria das instituições de pesquisa. Portanto, é desafiador, mas crucial, coletar pares texto-vídeo precisos e de alta qualidade para a geração T2V. 2) Falha em utilizar totalmente a informação textual. Métodos recentes de T2V têm se concentrado em transformadores visuais, utilizando um módulo de atenção cruzada simples para a geração de vídeo, o que não extrai completamente informações semânticas da entrada de texto. Para abordar essas questões, apresentamos o OpenVid-1M, um conjunto de dados preciso e de alta qualidade com legendas expressivas. Este conjunto de dados de cenário aberto contém mais de 1 milhão de pares texto-vídeo, facilitando a pesquisa em geração T2V. Além disso, curamos 433 mil vídeos em 1080p do OpenVid-1M para criar o OpenVidHD-0.4M, avançando na geração de vídeos em alta definição. Adicionalmente, propomos um novo Transformador de Difusão de Vídeo Multimodal (MVDiT) capaz de extrair tanto informações estruturais dos tokens visuais quanto informações semânticas dos tokens de texto. Experimentos extensivos e estudos de ablação verificam a superioridade do OpenVid-1M em relação a conjuntos de dados anteriores e a eficácia do nosso MVDiT.
Os desafios computacionais da inferência de Modelos de Linguagem Grandes (LLM) continuam a ser uma barreira significativa para sua implantação generalizada, especialmente à medida que os comprimentos das entradas continuam a aumentar. Devido à complexidade quadrática do cálculo de atenção, um LLM de 8B leva 30 minutos para processar uma entrada de 1M de tokens (ou seja, a etapa de pré-preenchimento) em uma única GPU A100. Métodos existentes para acelerar o pré-preenchimento frequentemente falham em manter precisão ou eficiência aceitáveis quando aplicados a LLMs de contexto longo. Para abordar essa lacuna, introduzimos o MInference (Inferência de Milhões de Tokens), um método de cálculo esparsa projetado para acelerar o processamento de sequências longas na etapa de pré-preenchimento. Especificamente, identificamos três padrões únicos em matrizes de atenção de contexto longo - o formato A, Vertical-Slash e Bloco-Esparsos - que podem ser aproveitados para cálculos esparsos eficientes em GPUs. Determinamos o padrão ideal para cada cabeça de atenção offline e construímos dinamicamente índices esparsos com base no padrão atribuído durante a inferência. Com o padrão e os índices esparsos, realizamos cálculos de atenção esparsos eficientes por meio de nossos kernels de GPU otimizados para reduzir significativamente a latência na etapa de pré-preenchimento de LLMs de contexto longo. Nossa técnica proposta pode ser aplicada diretamente a LLMs existentes sem modificações na configuração de pré-treinamento ou ajustes adicionais. Ao avaliar uma ampla gama de tarefas secundárias, incluindo InfiniteBench, RULER, PG-19 e Needle In A Haystack, e modelos como LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K e Qwen2-128K, demonstramos que o MInference reduz efetivamente a latência de inferência em até 10 vezes para o pré-preenchimento em uma A100, mantendo a precisão. Nosso código está disponível em https://aka.ms/MInference.
A alinhamento de preferências tornou-se um componente crucial na melhoria do desempenho de Modelos de Linguagem Grandes (LLMs), no entanto, seu impacto em Modelos de Linguagem Grandes Multimodais (MLLMs) ainda é relativamente pouco explorado. Semelhante aos modelos de linguagem, MLLMs para tarefas de compreensão de imagens enfrentam desafios como a alucinação. Em MLLMs, a alucinação pode ocorrer não apenas ao declarar fatos incorretos, mas também ao produzir respostas que são inconsistentes com o conteúdo da imagem. Um objetivo primário do alinhamento para MLLMs é incentivar esses modelos a alinhar as respostas mais de perto com as informações da imagem. Recentemente, vários trabalhos introduziram conjuntos de dados de preferência para MLLMs e examinaram diferentes métodos de alinhamento, incluindo Otimização Direta de Preferência (DPO) e Otimização de Política Proximal (PPO). No entanto, devido a variações nos conjuntos de dados, tipos de modelos base e métodos de alinhamento, ainda não está claro quais elementos específicos contribuem mais significativamente para as melhorias relatadas nesses trabalhos. Neste artigo, analisamos independentemente cada aspecto do alinhamento de preferências em MLLMs. Começamos categorizando os algoritmos de alinhamento em dois grupos, offline (como DPO) e online (como online-DPO), e mostramos que a combinação de métodos offline e online pode melhorar o desempenho do modelo em determinados cenários. Revisamos uma variedade de conjuntos de dados de preferência multimodais publicados e discutimos como os detalhes de sua construção impactam o desempenho do modelo. Com base nesses insights, introduzimos uma nova forma de criar dados de preferência multimodais chamada Amostragem de Alucinação Dirigida por Viés (BDHS) que não necessita de anotação adicional nem de modelos externos, e mostramos que pode alcançar um desempenho competitivo em relação ao trabalho de alinhamento previamente publicado para modelos multimodais em uma variedade de benchmarks.
Apresentamos o Magic Insert, um método para arrastar e soltar objetos de uma imagem fornecida pelo usuário em uma imagem de destino de estilo diferente de maneira fisicamente plausível, ao mesmo tempo em que combina o estilo da imagem de destino. Este trabalho formaliza o problema de arrastar e soltar com consciência de estilo e apresenta um método para lidar com ele, abordando dois subproblemas: personalização com consciência de estilo e inserção realista de objetos em imagens estilizadas. Para personalização com consciência de estilo, nosso método primeiro ajusta finamente um modelo de difusão de texto para imagem pré-treinado usando LoRA e tokens de texto aprendidos na imagem do objeto e, em seguida, o infunde com uma representação CLIP do estilo alvo. Para inserção de objetos, utilizamos Adaptação de Domínio Bootstrap para adaptar um modelo de inserção de objetos fotorrealísticos específico de domínio ao domínio de estilos artísticos diversos. No geral, o método supera significativamente abordagens tradicionais como inpainting. Por fim, apresentamos um conjunto de dados, SubjectPlop, para facilitar a avaliação e o progresso futuro nesta área. Página do projeto: https://magicinsert.github.io/
O Fluxo de Correspondência (FM) é um framework geral para definir caminhos de probabilidade via Equações Diferenciais Ordinárias (ODEs) para transformar entre ruído e amostras de dados. Abordagens recentes tentam endireitar essas trajetórias de fluxo para gerar amostras de alta qualidade com menos avaliações de função, tipicamente através de métodos de retificação iterativa ou soluções de transporte ótimo. Neste artigo, introduzimos o Fluxo de Correspondência de Consistência (Consistency-FM), um novo método FM que explicitamente impõe autoconsistência no campo de velocidade. O Consistency-FM define diretamente fluxos retos começando de diferentes tempos para o mesmo ponto final, impondo restrições em seus valores de velocidade. Além disso, propomos uma abordagem de treinamento de vários segmentos para o Consistency-FM para melhorar a expressividade, alcançando um melhor equilíbrio entre qualidade de amostragem e velocidade. Experimentos preliminares demonstram que nosso Consistency-FM melhora significativamente a eficiência de treinamento, convergindo 4,4 vezes mais rápido do que modelos de consistência e 1,7 vezes mais rápido do que modelos de fluxo retificado, enquanto alcança melhor qualidade de geração. Nosso código está disponível em: https://github.com/YangLing0818/consistency_flow_matching
Modelos de Linguagem Grandes (LLMs) treinados em extensos corpora inevitavelmente retêm dados sensíveis, como informações de privacidade pessoal e material protegido por direitos autorais. Avanços recentes em desaprendizado de conhecimento envolvem a atualização dos parâmetros do LLM para apagar conhecimento específico. No entanto, os paradigmas atuais de desaprendizado estão imersos em fronteiras de esquecimento vagas, frequentemente apagando conhecimento indiscriminadamente. Neste trabalho, apresentamos o KnowUnDo, um benchmark contendo conteúdo protegido por direitos autorais e domínios de privacidade do usuário para avaliar se o processo de desaprendizado apaga inadvertidamente conhecimento essencial. Nossos resultados indicam que os métodos de desaprendizado existentes frequentemente sofrem de desaprendizado excessivo. Para lidar com isso, propomos um método simples, porém eficaz, chamado MemFlex, que utiliza informações de gradiente para mirar precisamente e desaprender parâmetros sensíveis. Resultados experimentais mostram que o MemFlex é superior aos métodos existentes tanto no desaprendizado preciso de conhecimento quanto na retenção de conhecimento geral dos LLMs. O código e o conjunto de dados serão disponibilizados em https://github.com/zjunlp/KnowUnDo.
Descobrir valores e opiniões latentes em grandes modelos de linguagem (LLMs) pode ajudar a identificar viéses e mitigar possíveis danos. Recentemente, isso tem sido abordado apresentando LLMs com perguntas de pesquisa e quantificando suas posturas em relação a declarações moral e politicamente carregadas. No entanto, as posturas geradas pelos LLMs podem variar consideravelmente dependendo de como são solicitados, e existem muitas maneiras de argumentar a favor ou contra uma determinada posição. Neste trabalho, propomos abordar isso analisando um conjunto de dados grande e robusto de 156k respostas de LLM às 62 proposições do Teste da Bússola Política (PCT) geradas por 6 LLMs usando 420 variações de prompts. Realizamos uma análise de granularidade grosseira de suas posturas geradas e uma análise de granularidade fina das justificativas em texto simples para essas posturas. Para a análise de granularidade fina, propomos identificar tropos nas respostas: frases semanticamente similares que são recorrentes e consistentes em diferentes prompts, revelando padrões no texto que um determinado LLM tem propensão a produzir. Descobrimos que características demográficas adicionadas aos prompts afetam significativamente os resultados no PCT, refletindo viés, bem como disparidades entre os resultados dos testes ao solicitar respostas de formato fechado versus domínio aberto. Além disso, padrões nas justificativas em texto simples via tropos mostram que justificativas semelhantes são geradas repetidamente entre modelos e prompts, mesmo com posturas díspares.
Avanços recentes na geração de vídeos baseada em difusão têm apresentado resultados notáveis, no entanto, a lacuna entre vídeos sintéticos e vídeos do mundo real permanece pouco explorada. Neste estudo, examinamos essa lacuna a partir de três perspectivas fundamentais: aparência, movimento e geometria, comparando vídeos do mundo real com aqueles gerados por um modelo de IA de ponta, Stable Video Diffusion. Para alcançar isso, treinamos três classificadores usando redes convolucionais 3D, cada um visando aspectos distintos: características do modelo de fundação de visão para aparência, fluxo óptico para movimento e profundidade monocular para geometria. Cada classificador apresenta forte desempenho na detecção de vídeos falsos, tanto qualitativa quanto quantitativamente. Isso indica que vídeos gerados por IA ainda são facilmente detectáveis, e uma lacuna significativa entre vídeos reais e falsos persiste. Além disso, utilizando o Grad-CAM, identificamos falhas sistemáticas de vídeos gerados por IA na aparência, movimento e geometria. Por fim, propomos um modelo de Conjunto de Especialistas que integra informações de aparência, fluxo óptico e profundidade para detecção de vídeos falsos, resultando em maior robustez e capacidade de generalização. Nosso modelo é capaz de detectar vídeos gerados por Sora com alta precisão, mesmo sem exposição a quaisquer vídeos de Sora durante o treinamento. Isso sugere que a lacuna entre vídeos reais e falsos pode ser generalizada entre vários modelos generativos de vídeo. Página do projeto: https://justin-crchang.github.io/3DCNNDetection.github.io/
Estudamos o Neural Foley, a geração automática de efeitos sonoros de alta qualidade sincronizados com vídeos, permitindo uma experiência audiovisual imersiva. Apesar de sua ampla gama de aplicações, abordagens existentes encontram limitações ao sintetizar simultaneamente sons de alta qualidade e alinhados com vídeos (ou seja, semanticamente relevantes e sincronizados temporalmente). Para superar essas limitações, propomos o FoleyCrafter, um novo framework que aproveita um modelo pré-treinado de texto para áudio para garantir a geração de áudio de alta qualidade. FoleyCrafter é composto por dois componentes principais: o adaptador semântico para alinhamento semântico e o controlador temporal para sincronização precisa de áudio e vídeo. O adaptador semântico utiliza camadas de atenção cruzada paralelas para condicionar a geração de áudio em características de vídeo, produzindo efeitos sonoros realistas que são semanticamente relevantes para o conteúdo visual. Enquanto isso, o controlador temporal incorpora um detector de início e um adaptador baseado em marca de tempo para alcançar um alinhamento preciso de áudio e vídeo. Uma vantagem notável do FoleyCrafter é sua compatibilidade com prompts de texto, permitindo o uso de descrições de texto para alcançar uma geração de vídeo para áudio controlável e diversificada de acordo com as intenções do usuário. Realizamos experimentos quantitativos e qualitativos extensivos em benchmarks padrão para verificar a eficácia do FoleyCrafter. Modelos e códigos estão disponíveis em https://github.com/open-mmlab/FoleyCrafter.
Os avanços recentes em microscopia possibilitaram a rápida geração de terabytes de dados de imagem em biologia celular e pesquisa biomédica. Modelos visão-linguagem (VLMs) oferecem uma solução promissora para análise de imagens biológicas em larga escala, aprimorando a eficiência dos pesquisadores, identificando novos biomarcadores de imagem e acelerando a geração de hipóteses e descobertas científicas. No entanto, há uma falta de benchmarks visão-linguagem padronizados, diversos e em larga escala para avaliar as capacidades de percepção e cognição dos VLMs na compreensão de imagens biológicas. Para abordar essa lacuna, apresentamos o {\mu}-Bench, um benchmark elaborado por especialistas que abrange 22 tarefas biomédicas em diversas disciplinas científicas (biologia, patologia), modalidades de microscopia (elétron, fluorescência, luz), escalas (subcelular, celular, tecidual) e organismos em estados normais e anormais. Avaliamos os VLMs biomédicos, de patologia e gerais de última geração no {\mu}-Bench e constatamos que: i) os modelos atuais enfrentam dificuldades em todas as categorias, mesmo em tarefas básicas como distinguir modalidades de microscopia; ii) os modelos especializados atuais, ajustados em dados biomédicos, frequentemente têm desempenho inferior aos modelos generalistas; iii) o ajuste fino em domínios específicos de microscopia pode causar esquecimento catastrófico, erodindo o conhecimento biomédico anterior codificado em seu modelo base. iv) a interpolação de pesos entre modelos ajustados finamente e pré-treinados oferece uma solução para o esquecimento e melhora o desempenho geral em tarefas biomédicas. Disponibilizamos o {\mu}-Bench sob uma licença permissiva para acelerar a pesquisa e o desenvolvimento de modelos fundamentais de microscopia.