Artigos de pesquisa em IA selecionados diariamente com traduções
Nos grandes modelos de visão e linguagem (LVLMs), as imagens servem como entradas que carregam uma riqueza de informações. Como o ditado "Uma imagem vale mais que mil palavras" sugere, representar uma única imagem nos LVLMs atuais pode exigir centenas ou até milhares de tokens. Isso resulta em custos computacionais significativos, que crescem de forma quadrática à medida que a resolução da imagem de entrada aumenta, impactando severamente a eficiência tanto do treinamento quanto da inferência. Abordagens anteriores tentaram reduzir o número de tokens de imagem antes ou nas camadas iniciais dos LVLMs. No entanto, essas estratégias inevitavelmente resultam na perda de informações cruciais da imagem, diminuindo, em última instância, o desempenho do modelo. Para enfrentar esse desafio, realizamos um estudo empírico que revela que todos os tokens visuais são necessários para os LVLMs nas camadas rasas, e a redundância de tokens aumenta progressivamente nas camadas mais profundas do modelo. Para isso, propomos o PyramidDrop, uma estratégia de redução de redundância visual para os LVLMs a fim de impulsionar sua eficiência tanto no treinamento quanto na inferência, com uma perda de desempenho negligenciável. Especificamente, dividimos o LVLM em várias etapas e eliminamos parte dos tokens de imagem no final de cada etapa com uma proporção pré-definida, criando tokens visuais em forma de pirâmide através das camadas do modelo. A eliminação é baseada em um cálculo de similaridade leve com um tempo de execução negligenciável. Experimentos extensos demonstram que o PyramidDrop pode alcançar uma aceleração de 40% no tempo de treinamento e 55% nas FLOPs de inferência do LLaVA-NeXT com desempenho comparável. Além disso, o PyramidDrop também poderia servir como uma estratégia plug-and-play para aceleração de inferência sem treinamento, com melhor desempenho e menor custo de inferência do que os concorrentes. Esperamos que as ideias e abordagem introduzidas pelo PyramidDrop inspirem pesquisas futuras para investigar ainda mais o papel dos tokens de imagem nos LVLMs.
Apresentamos o SpectroMotion, uma abordagem inovadora que combina Splatting Gaussiano 3D (3DGS) com renderização baseada em física (PBR) e campos de deformação para reconstruir cenas especulares dinâmicas. Métodos anteriores que estendem o 3DGS para modelar cenas dinâmicas têm enfrentado dificuldades em representar com precisão superfícies especulares. Nosso método aborda essa limitação ao introduzir uma técnica de correção residual para o cálculo preciso da normal da superfície durante a deformação, complementada por um mapa de ambiente deformável que se adapta às condições de iluminação variáveis no tempo. Implementamos uma estratégia de treinamento de baixa para alta resolução que melhora significativamente tanto a geometria da cena quanto a previsão da cor especular. Demonstramos que nosso modelo supera os métodos anteriores para síntese de visualização de cenas contendo objetos especulares dinâmicos e que é o único método 3DGS existente capaz de sintetizar cenas especulares dinâmicas do mundo real fotorrealistas, superando os métodos de ponta na renderização de cenas complexas, dinâmicas e especulares.
O raciocínio em cadeia (CoT) em modelos de linguagem visual (VLMs) é crucial para melhorar a interpretabilidade e confiabilidade. No entanto, as receitas de treinamento atuais carecem de dados robustos de raciocínio CoT, dependendo de conjuntos de dados dominados por anotações curtas com justificativas mínimas. Neste trabalho, mostramos que treinar VLM em respostas curtas não generaliza bem para tarefas de raciocínio que exigem respostas mais detalhadas. Para lidar com isso, propomos uma abordagem em duas etapas. Primeiro, destilamos justificativas do modelo GPT-4o para enriquecer os dados de treinamento e ajustar finamente os VLMs, aumentando seu desempenho CoT. Em segundo lugar, aplicamos aprendizado por reforço para calibrar ainda mais a qualidade do raciocínio. Especificamente, construímos pares positivos (corretos) e negativos (incorretos) de cadeias de raciocínio geradas pelo modelo, comparando suas previsões com respostas curtas anotadas. Usando esses dados em pares, aplicamos o algoritmo de Otimização de Preferência Direta para refinar as habilidades de raciocínio do modelo. Nossos experimentos demonstram melhorias significativas no raciocínio CoT em conjuntos de dados de referência e melhor generalização para a previsão de respostas diretas também. Este trabalho enfatiza a importância de incorporar justificativas detalhadas no treinamento e de alavancar o aprendizado por reforço para fortalecer as capacidades de raciocínio dos VLMs.
O alinhamento automatizado desenvolve sistemas de alinhamento com intervenção humana mínima. A chave para o alinhamento automatizado está em fornecer sinais de preferência aprendíveis e precisos para aprendizado de preferência sem anotação humana. Neste artigo, apresentamos a Otimização de Auto-Direcionamento (SSO), um algoritmo que gera autonomamente sinais de preferência de alta qualidade com base em princípios predefinidos durante o treinamento iterativo, eliminando a necessidade de anotação manual. O SSO mantém a precisão dos sinais garantindo uma lacuna consistente entre respostas escolhidas e rejeitadas, mantendo ambas on-policy para se adequarem à capacidade de aprendizado do modelo de política atual. O SSO pode beneficiar o treinamento online e offline do modelo de política, bem como aprimorar o treinamento de modelos de recompensa. Validamos a eficácia do SSO com dois modelos fundamentais, Qwen2 e Llama3.1, indicando que fornece sinais de preferência precisos e on-policy ao longo do treinamento iterativo. Sem nenhuma anotação manual ou modelos externos, o SSO leva a melhorias significativas de desempenho em seis benchmarks subjetivos ou objetivos. Além disso, os dados de preferência gerados pelo SSO melhoraram significativamente o desempenho do modelo de recompensa no Rewardbench. Nosso trabalho apresenta uma abordagem escalável para otimização de preferência, abrindo caminho para um alinhamento automatizado mais eficiente e eficaz.
Apresentamos o xGen-MM-Vid (BLIP-3-Video): um modelo de linguagem multimodal para vídeos, especialmente projetado para capturar eficientemente informações temporais ao longo de vários quadros. O BLIP-3-Video aproveita o 'codificador temporal' além do tokenizador visual convencional, que mapeia uma sequência de tokens em vários quadros em um conjunto compacto de tokens visuais. Isso permite que o BLIP3-Video utilize muito menos tokens visuais do que seus modelos concorrentes (por exemplo, 32 vs. 4608 tokens). Exploramos diferentes tipos de codificadores temporais, incluindo pooling espaço-temporal aprendível, bem como modelos sequenciais como Máquinas de Tokens Turing. Experimentalmente, confirmamos que o BLIP-3-Video obtém precisões de perguntas e respostas em vídeo comparáveis a modelos state-of-the-art muito maiores (por exemplo, 34B), sendo muito menor (ou seja, 4B) e mais eficiente ao usar menos tokens visuais. O site do projeto está em https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
A destilação de conhecimento (KD) é amplamente utilizada para treinar modelos de linguagem (LMs) de estudantes pequenos e de alto desempenho usando grandes LMs de professores. Embora eficaz no ajuste fino, a KD durante o pré-treinamento enfrenta desafios em eficiência, flexibilidade e eficácia. Métodos existentes incorrem em altos custos computacionais devido à inferência online do professor, exigem correspondência de tokenização entre LMs de professor e aluno, ou correm o risco de perder a dificuldade e diversidade dos dados de treinamento gerados pelo professor. Para lidar com essas questões, propomos o MiniPLM, um framework de KD para pré-treinar LMs refinando a distribuição dos dados de treinamento com o conhecimento do professor. Para eficiência, o MiniPLM realiza a inferência offline do LM do professor, permitindo a KD para múltiplos LMs de alunos sem adicionar custos de tempo de treinamento. Para flexibilidade, o MiniPLM opera exclusivamente no corpus de treinamento, possibilitando a KD entre famílias de modelos. Para eficácia, o MiniPLM aproveita as diferenças entre LMs grandes e pequenos para aprimorar a dificuldade e diversidade dos dados de treinamento, ajudando os LMs de alunos a adquirir conhecimento versátil e sofisticado. Experimentos extensivos demonstram que o MiniPLM impulsiona o desempenho dos LMs de alunos em 9 tarefas downstream amplamente utilizadas, melhora as capacidades de modelagem de linguagem e reduz a computação de pré-treinamento. O benefício do MiniPLM se estende a grandes escalas de pré-treinamento, evidenciado pela extrapolação das curvas de escalonamento. Análises adicionais revelam que o MiniPLM suporta a KD entre famílias de modelos e aprimora a utilização dos dados de pré-treinamento. Nosso modelo, código e dados estão disponíveis em https://github.com/thu-coai/MiniPLM.
Os Modelos de Linguagem Visual de Grande Escala (LVLMs) recentes apresentam notáveis capacidades de conversação e raciocínio zero-shot dadas consultas multimodais. No entanto, eles sofrem de alucinação de objetos, um fenômeno no qual os LVLMs são propensos a gerar respostas textuais que não estão alinhadas factualmente com as entradas de imagem. Nosso estudo piloto revela que a alucinação de objetos está intimamente ligada à Codificação de Posição Rotativa (RoPE), um modelo de design de modelagem de dependência posicional amplamente adotado nos LVLMs existentes. Devido ao decaimento de longo prazo em RoPE, os LVLMs tendem a alucinar mais quando as pistas visuais relevantes estão distantes dos tokens de instrução na sequência de entrada multimodal. Além disso, observamos um efeito semelhante ao inverter a ordem sequencial dos tokens visuais durante o alinhamento multimodal. Nossos testes indicam que o decaimento de longo prazo em RoPE apresenta desafios para os LVLMs ao capturar interações visuais-instrução em longas distâncias. Propomos a Atenção Causal Concêntrica (CCA), uma estratégia de alinhamento posicional simples, porém eficaz, que mitiga o impacto do decaimento de longo prazo de RoPE nos LVLMs, reduzindo naturalmente a distância relativa entre os tokens visuais e de instrução. Com a CCA, os tokens visuais podem interagir melhor com os tokens de instrução, melhorando assim a capacidade de percepção do modelo e aliviando a alucinação de objetos. Sem firulas, nosso método de alinhamento posicional supera significativamente as estratégias existentes de mitigação de alucinação em múltiplos benchmarks de alucinação de objetos.
Num sistema de IA composto, componentes como uma chamada de LLM, um recuperador, um intérprete de código ou ferramentas estão interconectados. O comportamento do sistema é principalmente impulsionado por parâmetros como instruções ou definições de ferramentas. Avanços recentes possibilitam a otimização ponta a ponta desses parâmetros usando um LLM. Notavelmente, aproveitar um LLM como otimizador é particularmente eficiente porque evita o cálculo de gradientes e pode gerar código e instruções complexas. Este artigo apresenta uma pesquisa sobre os princípios e tendências emergentes na otimização baseada em LLM de sistemas de IA compostos. Ele aborda arquétipos de sistemas de IA compostos, abordagens para otimização ponta a ponta baseada em LLM e insights sobre direções futuras e impactos mais amplos. Importante ressaltar que esta pesquisa utiliza conceitos de análise de programas para fornecer uma visão unificada de como um otimizador LLM é solicitado a otimizar um sistema de IA composto. A lista exaustiva de artigos está disponível em https://github.com/linyuhongg/LLM-based-Optimization-of-Compound-AI-Systems.
Acelerar a pesquisa sobre Modelos Multimodais Grandes (LMMs) em idiomas não ingleses é crucial para aprimorar as experiências do usuário em populações mais amplas. Neste artigo, apresentamos o JMMMU (Japanese MMMU), o primeiro benchmark japonês em larga escala projetado para avaliar LMMs em tarefas de nível especializado com base no contexto cultural japonês. Para facilitar uma avaliação abrangente consciente da cultura, o JMMMU apresenta dois subconjuntos complementares: (i) subconjunto agnóstico à cultura (CA), onde os assuntos independentes da cultura (por exemplo, Matemática) são selecionados e traduzidos para o japonês, permitindo uma comparação direta com seu equivalente em inglês, o MMMU; e (ii) subconjunto específico da cultura (CS), composto por assuntos recém-criados que refletem o contexto cultural japonês. Utilizando o subconjunto CA, observamos uma queda de desempenho em muitos LMMs quando avaliados em japonês, atribuível puramente à variação linguística. Com o subconjunto CS, revelamos a inadequada compreensão cultural japonesa desses modelos. Além disso, ao combinar ambos os subconjuntos, identificamos que alguns LMMs têm bom desempenho no subconjunto CA, mas não no subconjunto CS, expondo uma compreensão superficial do idioma japonês que carece de profundidade na compreensão cultural. Esperamos que este trabalho não apenas ajude a avançar o desempenho dos LMMs em japonês, mas também sirva como um guia para criar benchmarks culturalmente diversos e de alto padrão para o desenvolvimento de LMMs multilíngues. A página do projeto é https://mmmu-japanese-benchmark.github.io/JMMMU/.
Os altos custos computacionais dos grandes modelos de linguagem (LLMs) têm levado a uma enxurrada de pesquisas sobre compressão de LLM, por meio de métodos como quantização, esparsificação ou poda estruturada. Uma nova fronteira nessa área é apresentada por métodos de compressão dinâmica e não uniforme, que ajustam os níveis de compressão (por exemplo, esparsidade) por bloco ou até por camada para minimizar a perda de precisão, garantindo ao mesmo tempo um limiar global de compressão. No entanto, os métodos atuais dependem de heurísticas para identificar a "importância" de uma determinada camada em relação à perda, com base em pressupostos como a monotonicidade do erro, ou seja, que o erro de compressão do modelo de ponta a ponta é proporcional à soma dos erros por camada. Neste artigo, revisitamos essa área e propomos uma abordagem nova e geral para compressão dinâmica que é comprovadamente ótima em uma determinada faixa de entrada. Partimos da observação motivadora de que, em geral, a monotonicidade do erro não se aplica aos LLMs: modelos comprimidos com menor soma de erros por camada podem ter desempenho pior do que modelos com somas de erros mais altas. Para lidar com isso, propomos um novo framework evolutivo geral para compressão dinâmica de LLM chamado EvoPress, que possui convergência comprovada e baixa complexidade de amostragem e avaliação. Mostramos que essas garantias teóricas levam a um desempenho prático altamente competitivo para a compressão dinâmica dos modelos Llama, Mistral e Phi. Por meio do EvoPress, estabelecemos novos resultados de ponta em todas as abordagens de compressão: poda estrutural (descarte de bloco/camada), esparsidade não estruturada, bem como quantização com larguras de bits dinâmicas. Nosso código está disponível em https://github.com/IST-DASLab/EvoPress.
O raciocínio matemático é uma área altamente ativa da pesquisa em Modelos de Linguagem de Grande Escala (LLM) porque é uma característica marcante da inteligência artificial. No entanto, poucos trabalhos exploraram como o raciocínio matemático é codificado nos parâmetros do LLM e se é uma habilidade que pode ser isolada dentro de um modelo. Fazer isso poderia permitir intervenções direcionadas para melhorar o desempenho matemático sem alterar o comportamento não matemático e promover a compreensão de como os modelos codificam o raciocínio matemático. Apresentamos a Neurocirurgia Matemática (MathNeuro), um método para isolar parâmetros específicos de matemática em LLMs usando apenas passagens diretas. O MathNeuro se baseia em trabalhos existentes ao usar pesos e ativações para calcular a importância dos parâmetros, mas isola parâmetros específicos de matemática removendo aqueles importantes para tarefas de linguagem geral. Podar os parâmetros identificados pelo MathNeuro exclui a capacidade de raciocínio matemático de um LLM sem destruir sua capacidade de linguagem geral. Escalonar esses parâmetros por uma pequena constante melhora o desempenho de um LLM pré-treinado ou ajustado para instruções em 4-17% no GSM8K, deixando o comportamento não matemático inalterado. O MathNeuro também é eficiente em dados: grande parte de sua eficácia permanece ao identificar parâmetros específicos de matemática usando uma única amostra. O MathNeuro destaca o potencial para trabalhos futuros intervir em parâmetros específicos de matemática.
A síntese de visualizações inéditas tem como objetivo gerar visualizações inéditas de uma cena a partir de múltiplas imagens ou vídeos de entrada, e avanços recentes como o espalhamento gaussiano 3D (3DGS) alcançaram sucesso notável na produção de renderizações fotorrealistas com pipelines eficientes. No entanto, gerar visualizações inéditas de alta qualidade em ambientes desafiadores, como visualizações de entrada esparsas, continua sendo difícil devido à informação insuficiente em áreas subamostradas, resultando frequentemente em artefatos perceptíveis. Este artigo apresenta o 3DGS-Enhancer, um novo pipeline para aprimorar a qualidade de representação das representações 3DGS. Nós utilizamos priores de difusão de vídeo 2D para lidar com o desafiador problema de consistência de visualização 3D, reformulando-o como alcançar consistência temporal dentro de um processo de geração de vídeo. O 3DGS-Enhancer restaura características latentes consistentes com a visualização de visualizações inéditas renderizadas e as integra com as visualizações de entrada por meio de um decodificador espacial-temporal. As visualizações aprimoradas são então usadas para ajustar o modelo 3DGS inicial, melhorando significativamente seu desempenho de renderização. Experimentos extensivos em conjuntos de dados em grande escala de cenas ilimitadas demonstram que o 3DGS-Enhancer proporciona um desempenho de reconstrução superior e resultados de renderização de alta fidelidade em comparação com métodos de ponta. A página do projeto pode ser acessada em https://xiliu8006.github.io/3DGS-Enhancer-project.
A colonoscopia é atualmente um dos métodos de triagem mais sensíveis para o câncer colorretal. Este estudo investiga as fronteiras das técnicas de colonoscopia inteligente e suas possíveis implicações para aplicações médicas multimodais. Com esse objetivo, começamos avaliando os cenários atuais centrados em dados e modelos por meio de quatro tarefas para percepção de cena colonoscópica, incluindo classificação, detecção, segmentação e compreensão visão-linguagem. Essa avaliação nos permite identificar desafios específicos do domínio e revela que a pesquisa multimodal em colonoscopia permanece aberta para exploração adicional. Para abraçar a iminente era multimodal, estabelecemos três iniciativas fundamentais: um grande conjunto de dados de ajuste de instruções multimodal ColonINST, um modelo de linguagem multimodal projetado para colonoscopia ColonGPT e um benchmark multimodal. Para facilitar o monitoramento contínuo desse campo em rápida evolução, fornecemos um site público para as últimas atualizações: https://github.com/ai4colonoscopy/IntelliScope.