Artigos de pesquisa em IA selecionados diariamente com traduções
A animação humana de ponta a ponta, como a geração de humanos falantes impulsionada por áudio, passou por avanços notáveis nos últimos anos. No entanto, os métodos existentes ainda enfrentam dificuldades para escalar como grandes modelos gerais de geração de vídeo, limitando seu potencial em aplicações reais. Neste artigo, propomos o OmniHuman, um framework baseado em Transformador de Difusão que amplia os dados misturando condições relacionadas ao movimento na fase de treinamento. Para isso, introduzimos dois princípios de treinamento para essas condições mistas, juntamente com a arquitetura do modelo correspondente e estratégia de inferência. Esses projetos permitem que o OmniHuman aproveite totalmente a geração de movimento orientada por dados, alcançando, em última instância, a geração de vídeos humanos altamente realistas. Mais importante ainda, o OmniHuman suporta vários conteúdos de retrato (close-up do rosto, retrato, meio corpo, corpo inteiro), suporta tanto fala quanto canto, lida com interações humano-objeto e poses corporais desafiadoras, e acomoda diferentes estilos de imagem. Comparado aos métodos existentes de ponta a ponta impulsionados por áudio, o OmniHuman não apenas produz vídeos mais realistas, mas também oferece maior flexibilidade nos inputs. Ele também suporta múltiplas modalidades de controle (impulsionado por áudio, impulsionado por vídeo e sinais de controle combinados). Amostras de vídeo estão disponíveis na página do projeto ttfamily (https://omnihuman-lab.github.io)
Algoritmos de Alinhamento Direto (AADs) simplificam o alinhamento de modelos de linguagem substituindo o aprendizado por reforço (RL) e modelagem de recompensa (RM) no Aprendizado por Reforço a partir do Feedback Humano (RLHF) pela otimização direta de políticas. Os AADs podem ser classificados por suas perdas de classificação (por pares versus pontuais), pelas recompensas usadas nessas perdas (por exemplo, razões de verossimilhança da política e política de referência, ou razões de chances), ou pela necessidade de uma fase de Ajuste Fino Supervisionado (AFS) (de duas etapas versus de uma etapa). Primeiramente, demonstramos que os métodos de uma etapa têm desempenho inferior aos métodos de duas etapas. Para lidar com isso, incorporamos uma fase explícita de AFS e introduzimos o parâmetro beta, que controla a força da otimização de preferência, nos métodos de uma etapa ORPO e ASFT. Essas modificações melhoram seu desempenho no Alpaca Eval 2 em +3,46 (ORPO) e +8,27 (ASFT), equiparando-se aos métodos de duas etapas como DPO. Uma análise adicional revela que o fator chave é se a abordagem utiliza objetivos por pares ou pontuais, em vez da recompensa ou função de perda implícita específica. Esses resultados destacam a importância de uma avaliação cuidadosa para evitar reivindicações prematuras de ganhos de desempenho ou superioridade geral em algoritmos de alinhamento.
Recompensas densas de processo têm se mostrado uma alternativa mais eficaz às recompensas esparsas de nível de resultado na escalabilidade de modelos de linguagem grandes (LLMs) durante a inferência, especialmente em tarefas que exigem raciocínio complexo de vários passos. Enquanto as recompensas densas também oferecem uma escolha atraente para o aprendizado por reforço (RL) de LLMs, uma vez que suas recompensas detalhadas têm o potencial de lidar com alguns problemas inerentes das recompensas de resultado, como eficiência de treinamento e atribuição de crédito, esse potencial permanece amplamente não realizado. Isso pode ser atribuído principalmente aos desafios de treinar modelos de recompensa de processo (PRMs) online, onde a coleta de rótulos de processo de alta qualidade é proibitivamente cara, tornando-os particularmente vulneráveis a manipulações de recompensa. Para enfrentar esses desafios, propomos o PRIME (Reforço de Processo por Meio de Recompensas Implícitas), que permite atualizações online de PRM usando apenas execuções de política e rótulos de resultado por meio de recompensas de processo implícitas. O PRIME combina bem com várias funções de vantagem e dispensa a fase de treinamento do modelo de recompensa dedicado que abordagens existentes exigem, reduzindo substancialmente o custo de desenvolvimento. Demonstramos a eficácia do PRIME em matemática e codificação competitivas. Partindo do Qwen2.5-Math-7B-Base, o PRIME alcança uma melhoria média de 15,1% em vários benchmarks de raciocínio-chave em relação ao modelo SFT. Notavelmente, nosso modelo resultante, Eurus-2-7B-PRIME, supera o Qwen2.5-Math-7B-Instruct em sete benchmarks de raciocínio com 10% dos dados de treinamento deste último.
Grandes Modelos de Linguagem (GMLs) como juízes e a síntese de dados baseada em GMLs surgiram como dois métodos fundamentais de anotação de dados impulsionados por GML no desenvolvimento de modelos. Embora a combinação desses métodos melhore significativamente a eficiência do treinamento e avaliação do modelo, pouca atenção tem sido dada à contaminação potencial trazida por esse novo paradigma de desenvolvimento de modelo. Neste trabalho, expomos o vazamento de preferência, um problema de contaminação em GML-como-juiz causado pela relação entre os geradores de dados sintéticos e os avaliadores baseados em GML. Para estudar essa questão, primeiro definimos três tipos comuns de relacionamentos entre o GML gerador de dados e o GML juiz: ser o mesmo modelo, ter uma relação de herança e pertencer à mesma família de modelos. Através de experimentos extensivos, confirmamos empiricamente o viés dos juízes em relação aos seus modelos estudantes relacionados causados pelo vazamento de preferência em diversos cenários e benchmarks de GML. Uma análise adicional sugere que o vazamento de preferência é um problema generalizado e desafiador, mais difícil de detectar em comparação com viéses previamente identificados em cenários de GML-como-juiz. Todas essas descobertas implicam que o vazamento de preferência é um problema amplo e desafiador na área de GML-como-juiz. Disponibilizamos todos os códigos e dados em: https://github.com/David-Li0406/Preference-Leakage.
Ajustar características visuais com incorporações de linguagem é um desafio fundamental em modelos de visão-linguagem (VLMs). O desempenho desses modelos depende de ter um bom conector que mapeie características visuais geradas por um codificador de visão para um espaço de incorporação compartilhado com o LLM, preservando a similaridade semântica. Conectores existentes, como perceptrons de múltiplas camadas (MLPs), frequentemente produzem entradas fora da distribuição ou ruidosas, levando a um desalinhamento entre as modalidades. Neste trabalho, propomos um novo método de alinhamento visão-texto, AlignVLM, que mapeia características visuais para uma média ponderada das incorporações de texto do LLM. Nossa abordagem aproveita os conhecimentos linguísticos codificados pelo LLM para garantir que as características visuais sejam mapeadas para regiões do espaço que o LLM pode interpretar efetivamente. AlignVLM é particularmente eficaz para tarefas de compreensão de documentos, onde imagens de documentos digitalizados devem ser mapeadas com precisão para seu conteúdo textual. Nossos experimentos extensivos mostram que AlignVLM alcança um desempenho de ponta em comparação com métodos de alinhamento anteriores. Fornecemos análises adicionais demonstrando um melhor alinhamento de características visão-texto e robustez ao ruído.
O paradigma de indexação-recuperação-geração da geração aumentada por recuperação (RAG) tem sido altamente bem-sucedido na resolução de tarefas intensivas em conhecimento ao integrar conhecimento externo em grandes modelos de linguagem (LLMs). No entanto, a incorporação de conhecimento externo e não verificado aumenta a vulnerabilidade dos LLMs, pois os atacantes podem realizar tarefas de ataque manipulando o conhecimento. Neste artigo, introduzimos um benchmark chamado SafeRAG, projetado para avaliar a segurança do RAG. Primeiramente, classificamos as tarefas de ataque em ruído prateado, conflito intercontextual, anúncio suave e Negação-de-Serviço branca. Em seguida, construímos um conjunto de dados de avaliação de segurança do RAG (ou seja, conjunto de dados SafeRAG) principalmente manualmente para cada tarefa. Em seguida, utilizamos o conjunto de dados SafeRAG para simular vários cenários de ataque que o RAG pode enfrentar. Experimentos realizados em 14 componentes representativos do RAG demonstram que o RAG exibe uma vulnerabilidade significativa a todas as tarefas de ataque e até mesmo a tarefa de ataque mais evidente pode facilmente contornar os recuperadores, filtros ou LLMs avançados existentes, resultando na degradação da qualidade do serviço do RAG. O código está disponível em: https://github.com/IAAR-Shanghai/SafeRAG.
Apresentamos o SliderSpace, um framework para decompor automaticamente as capacidades visuais de modelos de difusão em direções controláveis e compreensíveis pelos humanos. Ao contrário dos métodos de controle existentes que exigem que um usuário especifique atributos para cada direção de edição individualmente, o SliderSpace descobre múltiplas direções interpretáveis e diversas simultaneamente a partir de um único prompt de texto. Cada direção é treinada como um adaptador de baixa classificação, possibilitando controle composicional e a descoberta de possibilidades surpreendentes no espaço latente do modelo. Através de experimentos extensivos em modelos de difusão de ponta, demonstramos a eficácia do SliderSpace em três aplicações: decomposição de conceitos, exploração de estilo artístico e aumento de diversidade. Nossa avaliação quantitativa mostra que as direções descobertas pelo SliderSpace decomponem efetivamente a estrutura visual do conhecimento do modelo, oferecendo insights sobre as capacidades latentes codificadas nos modelos de difusão. Estudos de usuários validam ainda mais que nosso método produz variações mais diversas e úteis em comparação com as bases. Nosso código, dados e pesos treinados estão disponíveis em https://sliderspace.baulab.info
Propomos o SCONE (Incorporação de N-grama Escalonável e Contextualizada), um método para estender camadas de incorporação de entrada para aprimorar o desempenho do modelo de linguagem à medida que o tamanho da camada aumenta. Para evitar o aumento dos custos de decodificação, o SCONE mantém o vocabulário original enquanto introduz incorporações para um conjunto de n-gramas frequentes. Essas incorporações fornecem uma representação contextualizada para cada token de entrada e são aprendidas com um modelo separado durante o treinamento. Durante a inferência, elas são pré-calculadas e armazenadas na memória fora do acelerador com impacto mínimo na velocidade de inferência. O SCONE possibilita duas novas estratégias de escalonamento: aumentar o número de incorporações de n-gramas em cache e escalar o modelo usado para aprendê-las, mantendo os FLOPS fixos no tempo de inferência. Mostramos que escalando ambos os aspectos, o SCONE supera um modelo de referência com 1,9 bilhão de parâmetros em diversos corpora, utilizando apenas metade dos FLOPS no tempo de inferência.
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado um potencial notável em raciocínio, embora ainda sofram de alucinações factuais graves devido à atualidade, precisão e cobertura do conhecimento paramétrico. Enquanto isso, a integração do raciocínio com a geração aumentada por recuperação (RAG) continua sendo um desafio devido à decomposição de tarefas ineficaz e à recuperação redundante, o que pode introduzir ruído e degradar a qualidade da resposta. Neste artigo, propomos o DeepRAG, um framework que modela o raciocínio aumentado por recuperação como um Processo de Decisão de Markov (MDP), possibilitando uma recuperação estratégica e adaptativa. Ao decompor iterativamente as consultas, o DeepRAG determina dinamicamente se deve recuperar conhecimento externo ou confiar no raciocínio paramétrico em cada etapa. Experimentos mostram que o DeepRAG melhora a eficiência de recuperação, ao mesmo tempo em que aumenta a precisão das respostas em 21,99%, demonstrando sua eficácia na otimização do raciocínio aumentado por recuperação.
Os testes de QI têm servido como uma metodologia fundamental para avaliar as capacidades cognitivas humanas, deliberadamente desvinculando a avaliação do histórico linguístico, proficiência em idiomas ou conhecimento específico de domínio para isolar competências centrais em abstração e raciocínio. No entanto, a pesquisa em inteligência artificial atualmente carece de benchmarks sistemáticos para quantificar essas dimensões cognitivas críticas em sistemas multimodais. Para abordar essa lacuna crítica, propomos o MM-IQ, um framework abrangente de avaliação composto por 2.710 itens de teste meticulosamente selecionados abrangendo 8 paradigmas distintos de raciocínio. Através da avaliação sistemática de modelos multimodais líderes de código aberto e proprietários, nosso benchmark revela limitações marcantes: mesmo arquiteturas de ponta alcançam apenas um desempenho marginalmente superior ao acaso (27,49% vs. 25% de precisão de linha de base). Esse abismo de desempenho substancial destaca a inadequação dos sistemas multimodais atuais em aproximar as capacidades de raciocínio humano fundamentais, destacando a necessidade de avanços paradigmáticos para superar essa divisão cognitiva.
Uma característica da inteligência humana é a capacidade de criar artefatos complexos por meio de processos estruturados de vários passos. Gerar tutoriais procedimentais com IA é um objetivo antigo, porém desafiador, enfrentando três obstáculos principais: (1) escassez de conjuntos de dados procedimentais multi-tarefa, (2) manutenção da continuidade lógica e consistência visual entre os passos e (3) generalização em múltiplos domínios. Para lidar com esses desafios, propomos um conjunto de dados multi-domínio que abrange 21 tarefas com mais de 24.000 sequências procedimentais. Construindo sobre essa base, introduzimos o MakeAnything, um framework baseado no transformer de difusão (DIT), que aproveita o ajuste fino para ativar as capacidades contextuais do DIT na geração de sequências procedimentais consistentes. Apresentamos a adaptação assimétrica de baixa ordem (LoRA) para geração de imagens, que equilibra as capacidades de generalização e o desempenho específico da tarefa congelando os parâmetros do codificador enquanto ajusta adaptativamente as camadas do decodificador. Além disso, nosso modelo ReCraft permite a geração de imagem para processo por meio de restrições de consistência espaço-temporal, permitindo que imagens estáticas sejam decompostas em sequências de criação plausíveis. Experimentos extensivos demonstram que o MakeAnything supera os métodos existentes, estabelecendo novos benchmarks de desempenho para tarefas de geração procedimental.
Investigamos as capacidades de raciocínio lógico dos grandes modelos de linguagem (LLMs) e sua escalabilidade em raciocínio não-monotônico complexo. Para isso, apresentamos o ZebraLogic, um framework abrangente de avaliação para avaliar o desempenho de raciocínio do LLM em quebra-cabeças de grade lógica derivados de problemas de satisfação de restrições (CSPs). O ZebraLogic permite a geração de quebra-cabeças com complexidade controlável e quantificável, facilitando um estudo sistemático dos limites de escalabilidade de modelos como Llama, o1 models e DeepSeek-R1. Ao abranger uma ampla gama de complexidades de espaço de busca e diversas restrições lógicas, o ZebraLogic fornece um ambiente estruturado para avaliar o raciocínio sob dificuldades crescentes. Nossos resultados revelam uma queda significativa na precisão à medida que a complexidade do problema aumenta - um fenômeno que denominamos de maldição da complexidade. Essa limitação persiste mesmo com modelos maiores e aumento na computação em tempo de inferência, sugerindo limitações inerentes nas capacidades de raciocínio atuais dos LLMs. Além disso, exploramos estratégias para aprimorar o raciocínio lógico, incluindo a amostragem Best-of-N, mecanismos de retrocesso e prompts de autoverificação. Nossas descobertas oferecem insights críticos sobre a escalabilidade do raciocínio dos LLMs, destacam limitações fundamentais e delineiam direções potenciais para melhorias.
Embora os grandes modelos de linguagem (LLMs) se destaquem no manuseio de sequências de longo contexto, eles requerem caches substanciais de chave-valor (KV) para armazenar informações contextuais, o que pode sobrecarregar significativamente a eficiência computacional e o uso de memória. Esforços anteriores para comprimir esses caches KV focaram principalmente em reduzir as demandas de memória, mas eram limitados em melhorar a latência. Para abordar essa questão, apresentamos o FastKV, um método de compressão de cache KV projetado para melhorar a latência de sequências de longo contexto. Para aprimorar a velocidade de processamento mantendo a precisão, o FastKV adota uma abordagem inovadora de Propagação Seletiva de Tokens (TSP) que mantém todas as informações de contexto nas camadas iniciais dos LLMs e propaga seletivamente apenas uma parte dessas informações em camadas mais profundas, mesmo na fase de pré-preenchimento. Além disso, o FastKV incorpora compressão de cache KV consciente de agrupamento de consultas (GQA) para explorar as vantagens do GQA em eficiência de memória e computacional. Nossos resultados experimentais mostram que o FastKV alcança melhorias de 2,00 vezes e 1,40 vezes no tempo até o primeiro token (TTFT) e na taxa de transferência, respectivamente, em comparação com o HeadKV, o método de compressão de cache KV de última geração. Além disso, o FastKV mantém com sucesso a precisão em benchmarks de longo contexto em níveis comparáveis aos baselines. Nosso código está disponível em https://github.com/dongwonjo/FastKV.
Em meio ao rápido progresso dos grandes modelos de linguagem (LLMs) e sua evolução para grandes modelos multimodais (LMMs), foram feitos avanços significativos em línguas de alto recurso como inglês e chinês. Enquanto os LLMs árabes têm visto progressos notáveis, os LMMs árabes permanecem em grande parte inexplorados, muitas vezes focando estreitamente em alguns aspectos específicos da linguagem e compreensão visual. Para preencher essa lacuna, apresentamos o AIN - o Modelo Multimodal Inclusivo Árabe - projetado para se destacar em diversos domínios. O AIN é um LMM bilíngue inglês-árabe projetado para se destacar em inglês e árabe, aproveitando amostras multimodais árabe-inglês de alta qualidade cuidadosamente construídas, totalizando 3,6 milhões. O AIN demonstra um desempenho de ponta em árabe, enquanto também possui fortes capacidades visuais em inglês. No recente benchmark CAMEL-Bench, composto por 38 subdomínios, incluindo compreensão multi-imagem, percepção visual complexa, compreensão de documentos manuscritos, compreensão de vídeo, imagens médicas, doenças de plantas e compreensão do uso da terra com base em sensoriamento remoto, nosso AIN demonstra um desempenho sólido com o modelo 7B superando o GPT-4o em um ganho absoluto de 3,4% em média ao longo de oito domínios e 38 subdomínios. As capacidades superiores do AIN o posicionam como um passo significativo em direção ao empoderamento de falantes de árabe com ferramentas avançadas de IA generativa multimodal em diversas aplicações.
Os lançamentos do o1 e o3 da OpenAI marcam uma mudança significativa de paradigma em Modelos de Linguagem de Grande Escala em direção a capacidades avançadas de raciocínio. Notavelmente, o o3 superou humanos em resolução de problemas inovadores e aquisição de habilidades no Corpus de Abstração e Raciocínio para Inteligência Artificial Geral (ARC-AGI). No entanto, este benchmark é limitado a padrões simbólicos, enquanto os humanos frequentemente percebem e raciocinam sobre cenários multimodais envolvendo tanto dados visuais quanto linguísticos. Assim, há uma necessidade urgente de investigar capacidades avançadas de raciocínio em tarefas multimodais. Para isso, acompanhamos a evolução dos modelos da série GPT-[n] e o-[n] em quebra-cabeças multimodais desafiadores, exigindo percepção visual detalhada com raciocínio abstrato ou algorítmico. O desempenho superior do o1 vem com um custo computacional quase 750 vezes maior que o do GPT-4o, levantando preocupações sobre sua eficiência. Nossos resultados revelam uma clara tendência ascendente nas capacidades de raciocínio ao longo das iterações dos modelos, com saltos de desempenho notáveis nos modelos da série GPT e subsequentemente no o1. No entanto, observamos que o modelo o1 ainda enfrenta dificuldades com quebra-cabeças multimodais simples que exigem raciocínio abstrato. Além disso, seu desempenho em quebra-cabeças algorítmicos permanece baixo. Planejamos acompanhar continuamente novos modelos na série e atualizar nossos resultados neste artigo conforme necessário. Todos os recursos utilizados nesta avaliação estão disponíveis abertamente em https://github.com/declare-lab/LLM-PuzzleTest.
Mesmo modelos de linguagem grandes (LLMs) altamente capazes podem produzir respostas enviesadas ou inseguras, e técnicas de alinhamento, como RLHF, destinadas a mitigar esse problema, são caras e propensas ao overfitting, pois retratam o LLM. Este artigo apresenta uma abordagem de alinhamento no momento da inferência que garante que os LLMs gerem respostas seguras quase com certeza, ou seja, com uma probabilidade que se aproxima de um. Conseguimos isso ao enquadrar a geração segura de respostas no momento da inferência como um processo de decisão de Markov restrito dentro do espaço latente do LLM. Crucialmente, nós aumentamos um estado de segurança que acompanha a evolução das restrições de segurança e nos permite demonstrar garantias formais de segurança ao resolver o MDP no espaço latente. Com base nesse fundamento, propomos o InferenceGuard, uma implementação prática que alinha seguramente os LLMs sem modificar os pesos do modelo. Empiricamente, demonstramos que o InferenceGuard equilibra efetivamente a segurança e o desempenho da tarefa, superando os métodos de alinhamento no momento da inferência existentes na geração de respostas seguras e alinhadas.
Os benchmarks existentes para modelos de vanguarda frequentemente testam conhecimentos especializados de nível de "doutorado" que são difíceis de serem compreendidos por não especialistas. Em contraste, apresentamos um benchmark baseado no Desafio de Quebra-Cabeça Dominical da NPR que requer apenas conhecimento geral. Nosso benchmark é desafiador tanto para humanos quanto para modelos, no entanto, as soluções corretas são fáceis de verificar, e os erros dos modelos são fáceis de identificar. Nosso trabalho revela lacunas de capacidade que não são evidentes nos benchmarks existentes: o OpenAI o1 supera significativamente outros modelos de raciocínio que estão no mesmo nível em benchmarks que testam conhecimento especializado. Além disso, nossa análise das saídas de raciocínio revela novos tipos de falhas. O DeepSeek R1, por exemplo, frequentemente desiste com um "Eu desisto" antes de fornecer uma resposta que sabe estar errada. R1 também pode ser notavelmente "incerto" em sua saída e, em casos raros, não "conclui o pensamento", o que sugere a necessidade de uma técnica de tempo de inferência para "finalizar" antes que o limite da janela de contexto seja atingido. Também quantificamos a eficácia de raciocinar por mais tempo com R1 e Gemini Thinking para identificar o ponto além do qual mais raciocínio provavelmente não melhorará a precisão em nosso benchmark.
Apresentamos uma abordagem ao RL baseado em modelos que alcança um novo estado da arte no desafiador benchmark Craftax-classic, um jogo de sobrevivência 2D de mundo aberto que requer que os agentes demonstrem uma ampla gama de habilidades gerais - como forte generalização, exploração profunda e raciocínio de longo prazo. Com uma série de escolhas de design cuidadosas voltadas para melhorar a eficiência da amostragem, nosso algoritmo de MBRL alcança uma recompensa de 67,4% após apenas 1 milhão de passos de ambiente, superando significativamente o DreamerV3, que alcança 53,2%, e, pela primeira vez, supera o desempenho humano de 65,0%. Nosso método começa construindo uma linha de base sem modelo de última geração, usando uma arquitetura de política inovadora que combina CNNs e RNNs. Em seguida, adicionamos três melhorias à configuração padrão de MBRL: (a) "Dyna com aquecimento", que treina a política em dados reais e imaginários, (b) "tokenizador de vizinho mais próximo" em patches de imagem, que melhora o esquema para criar os inputs do modelo de mundo transformador (TWM), e (c) "forçamento de professor em bloco", que permite ao TWM raciocinar conjuntamente sobre os tokens futuros do próximo passo de tempo.
A Adaptação de Baixo Rank (LoRA) e suas variantes têm mostrado resultados impressionantes na redução do número de parâmetros treináveis e requisitos de memória de grandes redes de transformadores, mantendo o desempenho de ajuste fino. No entanto, a natureza de baixo rank da atualização de pesos limita inerentemente o poder de representação dos modelos ajustados finamente, comprometendo potencialmente o desempenho em tarefas complexas. Isso levanta uma questão crítica: quando se observa uma diferença de desempenho entre LoRA e o ajuste fino padrão, ela se deve ao número reduzido de parâmetros treináveis ou à deficiência de rank? Este artigo tem como objetivo responder a essa pergunta ao introduzir o RandLoRA, um método eficiente em parâmetros que realiza atualizações de rank completo usando combinações lineares aprendidas de matrizes aleatórias de baixo rank e não treináveis. Nosso método limita o número de parâmetros treináveis restringindo a otimização a matrizes de escala diagonal aplicadas às matrizes aleatórias fixas. Isso nos permite superar efetivamente as limitações de baixo rank, mantendo eficiência de parâmetros e memória durante o treinamento. Através de experimentação extensiva em benchmarks de visão, linguagem e visão-linguagem, avaliamos sistematicamente as limitações de LoRA e métodos de base aleatória existentes. Nossas descobertas revelam que atualizações de rank completo são benéficas em tarefas de visão e linguagem individualmente, e ainda mais em tarefas de visão-linguagem, onde o RandLoRA reduz significativamente - e às vezes elimina - a diferença de desempenho entre o ajuste fino padrão e LoRA, demonstrando sua eficácia.
Os modelos de consistência são uma nova família de modelos generativos capazes de produzir amostras de alta qualidade em um único passo ou em vários passos. Recentemente, os modelos de consistência têm demonstrado um desempenho impressionante, alcançando resultados comparáveis aos modelos de difusão no espaço de pixels. No entanto, o sucesso em escalar o treinamento de consistência para conjuntos de dados em larga escala, especialmente para tarefas de geração de texto para imagem e vídeo, é determinado pelo desempenho no espaço latente. Neste trabalho, analisamos as diferenças estatísticas entre os espaços de pixels e latentes, descobrindo que os dados latentes frequentemente contêm outliers altamente impulsivos, que degradam significativamente o desempenho do iCT no espaço latente. Para lidar com isso, substituímos as perdas Pseudo-Huber por perdas de Cauchy, mitigando efetivamente o impacto dos outliers. Além disso, introduzimos uma perda de difusão nos primeiros passos e utilizamos acoplamento de transporte ótimo (OT) para melhorar ainda mais o desempenho. Por fim, introduzimos o programador de escalonamento adaptativo para gerenciar o processo de treinamento robusto e adotamos a LayerNorm não escalonável na arquitetura para capturar melhor as estatísticas das características e reduzir o impacto dos outliers. Com essas estratégias, treinamos com sucesso modelos de consistência latente capazes de amostragem de alta qualidade com um ou dois passos, reduzindo significativamente a lacuna de desempenho entre a consistência latente e os modelos de difusão. A implementação está disponível em: https://github.com/quandao10/sLCT/
Trabalhos anteriores em edição de conhecimento por modificação de parâmetros mostraram que a edição sequencial em larga escala leva a uma degradação significativa do modelo. Neste artigo, estudamos as razões por trás disso e escalamos a edição sequencial de conhecimento para 10.000 edições sequenciais, mantendo o desempenho subsequente do modelo original. Primeiramente, demonstramos que os métodos de edição de conhecimento localizar-e-depois-editar levam ao overfitting nos fatos editados. Também mostramos que a edição contínua de conhecimento usando esses métodos resulta em um crescimento desproporcional na norma da matriz editada. Em seguida, fornecemos uma visão crucial sobre o funcionamento interno dos métodos localizar-e-depois-editar. Mostramos que o crescimento da norma é um truque oculto empregado por esses métodos que dá maior importância às ativações de saída produzidas pelas camadas editadas. Com esse "hack de importância", as camadas editadas contribuem muito mais para a saída do modelo. Para mitigar esses problemas, apresentamos o ENCORE - Edição Robusta com Parada Antecipada e Restrição de Norma. O ENCORE controla o overfitting e o crescimento desproporcional da norma para permitir a edição sequencial de longo prazo, onde conseguimos realizar até 10.000 edições sequenciais sem perda de desempenho subsequente. O ENCORE também é 61% mais rápido que o MEMIT e 64% mais rápido que o AlphaEdit no Llama3-8B.
A geração de longos textos é crucial para a escrita acadêmica de artigos e para a geração de código em nível de repositório. Apesar disso, os modelos atuais, incluindo o GPT-4o, ainda apresentam desempenho insatisfatório. Os métodos existentes que utilizam aprendizado de preferência com supervisão de resultados frequentemente falham em fornecer feedback detalhado para contextos extensos. Essa deficiência pode resultar em conteúdo que não atende totalmente aos requisitos da consulta, resultando em problemas como desvios de comprimento e qualidade reduzida. Neste artigo, propomos aprimorar a geração de longos textos incorporando supervisão do processo. Utilizamos a busca de árvore de Monte Carlo para reunir pares de preferência passo a passo, utilizando um pool de memória global para manter a consistência. Para abordar o problema da seleção subótima de candidatos, integramos críticas externas para refinar e melhorar a qualidade dos pares de preferência. Por fim, aplicamos DPO em nível de passo usando os pares de preferência coletados passo a passo. Os resultados experimentais mostram que nosso método melhora o comprimento e a qualidade em benchmarks de geração de longos textos, com quase nenhum prejuízo de desempenho em benchmarks gerais em várias estruturas de modelos.
Os testes unitários (UTs) desempenham um papel fundamental na avaliação da correção do código, bem como no fornecimento de feedback a um grande modelo de linguagem (LLM) à medida que depura iterativamente o código com falhas, motivando a geração automatizada de testes. No entanto, descobrimos um trade-off entre a geração de entradas de teste unitário que revelam erros ao fornecer um código com falhas e prever corretamente a saída do teste unitário sem acesso à solução de referência. Para lidar com esse trade-off, propomos o UTGen, que ensina LLMs a gerar entradas de teste unitário que revelam erros juntamente com suas saídas esperadas corretas com base em descrições de tarefas e código candidato. Integramos o UTGen ao UTDebug, um pipeline robusto de depuração que utiliza testes gerados para ajudar os LLMs a depurar de forma eficaz. Uma vez que os testes gerados pelo modelo podem fornecer sinais ruidosos (por exemplo, de saídas previstas incorretamente), o UTDebug (i) dimensiona o UTGen por meio de cálculos no momento do teste para melhorar a previsão de saída do UT, e (ii) valida e retrocede edições com base em múltiplos UTs gerados para evitar overfitting. Mostramos que o UTGen supera as linhas de base de geração de UT em 7,59% com base em uma métrica que mede a presença tanto de entradas de UT que revelam erros quanto de saídas de UT corretas. Quando usado com o UTDebug, descobrimos que o feedback dos testes unitários do UTGen melhora a precisão pass@1 do Qwen-2.5 7B no HumanEvalFix e em nossa própria divisão de depuração mais difícil do MBPP+ em mais de 3% e 12,35% (respectivamente) em relação a outras linhas de base de geração de UT baseadas em LLMs.
Os modelos de linguagem (LMs) devem fornecer estimativas de confiança confiáveis para ajudar os usuários a detectar erros em suas saídas e recorrer a especialistas humanos quando necessário. Pedir a um modelo de linguagem para avaliar sua confiança ("Avalie sua confiança de 0 a 1.") é uma forma natural de avaliar sua incerteza. No entanto, os modelos têm dificuldade em fornecer avaliações absolutas de confiança (ou seja, julgar a confiança em responder a uma pergunta independentemente de outras perguntas) e as pontuações grosseiras que produzem não são úteis para avaliar a correção de suas respostas. Propomos a estimativa de confiança relativa, onde confrontamos perguntas umas contra as outras e pedimos ao modelo para fazer julgamentos relativos de confiança ("Em qual pergunta você está mais confiante em responder corretamente?"). Tratando cada pergunta como um "jogador" em uma série de confrontos contra outras perguntas e as preferências do modelo como resultados de confrontos, podemos usar métodos de agregação de classificação como Elo rating e Bradley-Terry para traduzir as preferências de confiança do modelo em pontuações de confiança. Avaliamos a estimativa de confiança relativa em comparação com a estimativa de confiança absoluta e métodos de confiança de autoconsistência em cinco modelos de ponta de LMs -- GPT-4, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet e Llama 3.1 405B -- em 14 desafiadoras tarefas de perguntas e respostas de raciocínio STEM, ciências sociais e senso comum. Nossos resultados demonstram que a estimativa de confiança relativa fornece consistentemente pontuações de confiança mais confiáveis do que a estimativa de confiança absoluta, com ganhos médios de 3,5% em AUC de classificação seletiva em relação aos métodos de estimativa de confiança absoluta direta e 1,7% em relação às abordagens de autoconsistência em todos os modelos e conjuntos de dados.
O retroperitônio abriga uma variedade de tumores, incluindo tipos raros benignos e malignos, que apresentam desafios diagnósticos e de tratamento devido à sua infrequência e proximidade de estruturas vitais. Estimar o volume do tumor é difícil devido às suas formas irregulares, e a segmentação manual é demorada. A segmentação automática usando U-Net e suas variantes, incorporando elementos do Transformador de Visão (ViT), tem mostrado resultados promissores, mas enfrenta dificuldades com altas demandas computacionais. Para lidar com isso, arquiteturas como o Modelo de Espaço de Estado Mamba (SSM) e Memória Estendida de Longo e Curto Prazo (xLSTM) oferecem soluções eficientes ao lidar com dependências de longo alcance com menor consumo de recursos. Este estudo avalia melhorias na U-Net, incluindo CNN, ViT, Mamba e xLSTM, em um novo conjunto de dados de TC interno e um conjunto de dados público de segmentação de órgãos. O modelo proposto ViLU-Net integra blocos Vi para uma segmentação aprimorada. Os resultados destacam a eficiência do xLSTM no framework U-Net. O código está publicamente acessível no GitHub.
Os Modelos Fundamentais de Patologia (FMs) têm grande potencial para a área da saúde. Antes de serem utilizados na prática clínica, é essencial garantir que sejam robustos às variações entre centros médicos. Medimos se os FMs de patologia se concentram em características biológicas como tecido e tipo de câncer, ou nas conhecidas assinaturas confundidoras de centros médicos introduzidas pelo procedimento de coloração e outras diferenças. Apresentamos o Índice de Robustez. Esta métrica de robustez inovadora reflete em que medida as características biológicas dominam as características confundidoras. Dez atuais FMs de patologia disponíveis publicamente são avaliados. Descobrimos que todos os modelos fundamentais de patologia atuais avaliados representam o centro médico em grande medida. São observadas diferenças significativas no índice de robustez. Apenas um modelo até o momento possui um índice de robustez maior que um, significando que as características biológicas dominam as características confundidoras, mas apenas ligeiramente. É descrito um enfoque quantitativo para medir a influência das diferenças entre centros médicos no desempenho de previsão baseado em FM. Analisamos o impacto da não robustez no desempenho de classificação de modelos subsequentes e descobrimos que os erros de classificação do tipo de câncer não são aleatórios, mas especificamente atribuíveis aos confundidores do mesmo centro: imagens de outras classes do mesmo centro médico. Visualizamos os espaços de incorporação dos FMs e descobrimos que estes estão mais fortemente organizados por centros médicos do que por fatores biológicos. Como consequência, o centro médico de origem é previsto com mais precisão do que a fonte de tecido e o tipo de câncer. O índice de robustez introduzido aqui é fornecido com o objetivo de avançar no progresso em direção à adoção clínica de FMs de patologia robustos e confiáveis.