Artigos de pesquisa em IA selecionados diariamente com traduções
Apesar do tremendo progresso recente, os modelos generativos de vídeo ainda lutam para capturar o movimento, dinâmica e física do mundo real. Mostramos que essa limitação decorre do objetivo convencional de reconstrução de pixels, que enviesa os modelos em direção à fidelidade de aparência em detrimento da coerência de movimento. Para lidar com isso, introduzimos o VideoJAM, um novo framework que incorpora uma prioridade de movimento eficaz aos geradores de vídeo, incentivando o modelo a aprender uma representação conjunta de aparência e movimento. O VideoJAM é composto por duas unidades complementares. Durante o treinamento, estendemos o objetivo para prever tanto os pixels gerados quanto seus movimentos correspondentes a partir de uma única representação aprendida. Durante a inferência, introduzimos o Inner-Guidance, um mecanismo que direciona a geração em direção a um movimento coerente, aproveitando a previsão de movimento em evolução do próprio modelo como um sinal dinâmico de orientação. Notavelmente, nosso framework pode ser aplicado a qualquer modelo de vídeo com adaptações mínimas, não exigindo modificações nos dados de treinamento ou escalonamento do modelo. O VideoJAM alcança um desempenho de ponta em coerência de movimento, superando modelos proprietários altamente competitivos, ao mesmo tempo em que aprimora a qualidade visual percebida das gerações. Essas descobertas enfatizam que a aparência e o movimento podem ser complementares e, quando integrados de forma eficaz, aprimoram tanto a qualidade visual quanto a coerência da geração de vídeo. Website do projeto: https://hila-chefer.github.io/videojam-paper.github.io/
A maioria dos avanços nos modelos de codificadores recentes tem sido impulsionada pelo ajuste fino supervisionado (SFT), enquanto o potencial do aprendizado por reforço (RL) permanece amplamente inexplorado, principalmente devido à falta de dados/modelo de recompensa confiáveis no domínio do código. Neste artigo, abordamos esse desafio aproveitando a síntese automatizada em larga escala de casos de teste para aprimorar o treinamento do modelo de código. Especificamente, projetamos um pipeline que gera extensos pares (pergunta, casos de teste) a partir de dados de código existentes. Usando esses casos de teste, construímos pares de preferência com base nas taxas de aprovação em programas amostrados para treinar modelos de recompensa com perda de Bradley-Terry. Isso mostra uma melhoria média de 10 pontos para Llama-3.1-8B-Ins e 5 pontos para Qwen2.5-Coder-7B-Ins por meio da melhor seleção de 32, tornando o modelo 7B equivalente ao DeepSeek-V2.5 de 236B. Além disso, realizamos aprendizado por reforço com ambos os modelos de recompensa e recompensas de aprovação de casos de teste, resultando em melhorias consistentes em HumanEval, MBPP, BigCodeBench e LiveCodeBench (V4). Notavelmente, seguimos o treinamento no estilo R1 para começar diretamente do Qwen2.5-Coder-base e demonstramos que nosso treinamento de RL pode melhorar o modelo em HumanEval-plus em mais de 25\% e em MBPP-plus em 6\% em apenas 80 etapas de otimização. Acreditamos que nossos resultados destacam o enorme potencial do aprendizado por reforço em modelos de codificadores.
Aprender a modelar pontes de difusão é fácil; torná-las rápidas e práticas é uma arte. Os modelos de ponte de difusão (DBMs) são uma extensão promissora dos modelos de difusão para aplicações em tradução de imagem para imagem. No entanto, assim como muitos modelos modernos de difusão e fluxo, os DBMs sofrem do problema de inferência lenta. Para abordá-lo, propomos uma técnica de destilação inovadora com base na formulação de correspondência de ponte inversa e derivamos o objetivo viável para resolvê-lo na prática. Ao contrário das técnicas de destilação de DBM desenvolvidas anteriormente, o método proposto pode destilar tanto tipos condicionais quanto incondicionais de DBMs, destilar modelos em um gerador de um passo e usar apenas imagens corrompidas para treinamento. Avaliamos nossa abordagem para ambos os tipos condicionais e incondicionais de correspondência de ponte em uma ampla variedade de configurações, incluindo super-resolução, restauração de JPEG, esboço para imagem e outras tarefas, e mostramos que nossa técnica de destilação nos permite acelerar a inferência de DBMs de 4x a 100x e até mesmo fornecer melhor qualidade de geração do que o modelo professor utilizado, dependendo da configuração específica.
Os grandes modelos de linguagem (LLMs) têm demonstrado notáveis capacidades de raciocínio em diversos domínios. Estudos recentes têm mostrado que aumentar a computação no momento do teste aprimora as capacidades de raciocínio dos LLMs. Isso normalmente envolve uma amostragem extensiva no momento da inferência guiada por um verificador externo de LLM, resultando em um sistema de dois jogadores. Apesar da orientação externa, a eficácia desse sistema demonstra o potencial de um único LLM para lidar com tarefas complexas. Assim, propomos um novo problema de pesquisa: Podemos internalizar as capacidades de busca para aprimorar fundamentalmente as habilidades de raciocínio de um único LLM? Este trabalho explora uma direção ortogonal focada em LLMs pós-treinamento para busca autoregressiva (ou seja, um processo de raciocínio estendido com autorreflexão e autoexploração de novas estratégias). Para alcançar isso, propomos o raciocínio em Cadeia-de-Ação-Pensamento (COAT) e um paradigma de treinamento em duas etapas: 1) uma etapa de ajuste de formato em pequena escala para internalizar o formato de raciocínio COAT e 2) uma etapa de autoaperfeiçoamento em grande escala aproveitando o aprendizado por reforço. Nossa abordagem resulta no Satori, um LLM de 7B treinado em modelos e dados de código aberto. Avaliações empíricas extensivas demonstram que o Satori alcança um desempenho de ponta em benchmarks de raciocínio matemático, enquanto exibe forte capacidade de generalização para tarefas fora do domínio. O código, dados e modelos serão totalmente disponibilizados em código aberto.
Os agentes de linguagem tornaram-se uma solução promissora para tarefas interativas complexas. Um dos principais elementos para o sucesso dos agentes de linguagem é o modelo de recompensa na trajetória do fluxo de trabalho do agente, que fornece orientação valiosa durante o treinamento ou inferência. No entanto, devido à falta de anotações de interações intermediárias, a maioria dos trabalhos existentes utiliza um modelo de recompensa de resultado para otimizar políticas em trajetórias completas. Isso pode resultar em políticas subótimas e prejudicar o desempenho geral. Para lidar com isso, propomos o QLASS (Busca Passo a Passo de Agente de Linguagem Guiado por Q), para gerar automaticamente anotações estimando os valores Q de maneira passo a passo para agentes de linguagem aberta. Ao introduzir uma árvore de raciocínio e realizar modelagem de recompensa de processo, o QLASS fornece orientação intermediária eficaz para cada etapa. Com a orientação passo a passo, propomos uma estratégia de geração guiada por Q para permitir que os agentes de linguagem se adaptem melhor ao valor de longo prazo, resultando em melhorias significativas de desempenho durante a inferência do modelo em tarefas de agente interativo complexas. Notavelmente, mesmo com quase metade dos dados anotados, o QLASS mantém um desempenho sólido, demonstrando sua eficiência no tratamento de supervisão limitada. Também demonstramos empiricamente que o QLASS pode levar a tomadas de decisão mais eficazes por meio de análises qualitativas. Vamos disponibilizar nosso código e dados.
Este artigo investiga um desafio pouco explorado em modelos de linguagem grandes (LLMs): o impacto dos métodos de compressão de cache KV nas capacidades fundamentais dos LLMs. Enquanto os métodos existentes alcançam índices impressionantes de compressão em benchmarks de contexto longo, seus efeitos nas capacidades principais do modelo permanecem pouco estudados. Apresentamos um estudo empírico abrangente que avalia métodos proeminentes de compressão de cache KV em diversas tarefas, abrangendo conhecimento mundial, raciocínio do senso comum, raciocínio aritmético, geração de código, segurança e compreensão e geração de contexto longo. Nossa análise revela que os métodos de compressão de cache KV apresentam degradação de desempenho específica da tarefa. Tarefas de raciocínio aritmético mostram-se particularmente sensíveis à compressão agressiva, com diferentes métodos apresentando quedas de desempenho de 17,4% a 43,3%. Notavelmente, o modelo DeepSeek R1 Distill exibe uma tolerância de compressão mais robusta em comparação com modelos ajustados por instrução, apresentando apenas uma degradação de desempenho de 9,67% a 25,53%. Com base em nossa análise de padrões de atenção e desempenho de compressão entre tarefas, propomos o ShotKV, uma abordagem de compressão inovadora que lida de forma distinta com as fases de pré-preenchimento e decodificação, mantendo a coerência semântica em nível de shot. Resultados empíricos mostram que o ShotKV alcança melhorias de desempenho de 9% a 18% em tarefas de geração de contexto longo sob índices agressivos de compressão.
A combinação de saídas de fontes diversas é uma abordagem simples, porém eficaz, para aumentar o desempenho. Mixture-of-Agents (MoA) é um método de conjunto popular que agrega saídas de múltiplos Modelos de Linguagem Grandes (LLMs) diferentes. Este artigo levanta a questão no contexto dos modelos de linguagem: misturar diferentes LLMs é realmente benéfico? Propomos o Self-MoA - um método de conjunto que agrega saídas apenas do LLM de melhor desempenho. Nossos experimentos extensivos revelam que, surpreendentemente, o Self-MoA supera o MoA padrão que mistura diferentes LLMs em um grande número de cenários: o Self-MoA alcança uma melhoria de 6,6% sobre o MoA no benchmark AlpacaEval 2.0, e uma média de 3,8% de melhoria em vários benchmarks, incluindo MMLU, CRUX e MATH. Aplicar o Self-MoA a um dos modelos mais bem classificados no AlpacaEval 2.0 alcança diretamente o novo desempenho de ponta no quadro de líderes. Para entender a eficácia do Self-MoA, investigamos sistematicamente o equilíbrio entre diversidade e qualidade das saídas em várias configurações do MoA. Confirmamos que o desempenho do MoA é bastante sensível à qualidade, e misturar diferentes LLMs frequentemente reduz a qualidade média dos modelos. Para complementar o estudo, identificamos os cenários em que a mistura de diferentes LLMs pode ser útil. Este artigo também introduz uma versão sequencial do Self-MoA, capaz de agregar um grande número de saídas de LLMs dinamicamente ao longo de várias rodadas, e é tão eficaz quanto a agregação de todas as saídas de uma vez.
Apesar do notável progresso em modelos generativos de texto para imagem, eles são propensos a ataques adversariais e geram inadvertidamente conteúdo inseguro e antiético. As abordagens existentes frequentemente dependem do ajuste fino dos modelos para remover conceitos específicos, o que é computacionalmente caro, carece de escalabilidade e/ou compromete a qualidade da geração. Neste trabalho, propomos um novo framework que utiliza autoencoders k-esparsos (k-SAEs) para possibilitar a manipulação eficiente e interpretável de conceitos em modelos de difusão. Especificamente, identificamos primeiramente conceitos monossemânticos interpretáveis no espaço latente dos embeddings de texto e os utilizamos para direcionar precisamente a geração para longe ou em direção a um conceito específico (por exemplo, nudez) ou para introduzir um novo conceito (por exemplo, estilo fotográfico). Através de experimentos extensivos, demonstramos que nossa abordagem é muito simples, não requer retrabalho do modelo base nem adaptadores LoRA, não compromete a qualidade da geração e é robusta a manipulações adversariais de prompts. Nosso método resulta em uma melhoria de 20,01% na remoção de conceitos inseguros, é eficaz na manipulação de estilo e é 5 vezes mais rápido do que o estado-da-arte atual.
A busca baseada em amostragem, um paradigma simples para utilizar o tempo de teste de computação, envolve gerar múltiplas respostas candidatas e selecionar a melhor delas - tipicamente verificando cada resposta quanto à correção. Neste artigo, estudamos as tendências de escalabilidade que regem a busca baseada em amostragem. Entre nossas descobertas está o fato de que simplesmente aumentar a escala de uma implementação minimalista que utiliza apenas amostragem aleatória e autoverificação direta resulta em melhorias de desempenho sustentadas que, por exemplo, elevam as capacidades de raciocínio do modelo Gemini v1.5 Pro acima do o1-Preview em benchmarks populares. Atribuímos parcialmente a escalabilidade da busca baseada em amostragem a um fenômeno de escalonamento implícito, onde amostrar um pool maior de respostas por sua vez melhora a precisão da verificação. Identificamos ainda dois princípios úteis para melhorar as capacidades de autoverificação com tempo de teste: (1) comparar entre respostas fornece sinais úteis sobre os locais de erros e alucinações, e (2) estilos de saída de modelo diferentes são úteis para contextos diferentes - cadeias de pensamento são úteis para raciocínio, mas mais difíceis de verificar. Também descobrimos que, embora a verificação precisa possa ser obtida, os modelos de fronteira demonstram capacidades de verificação fora da caixa notavelmente fracas e introduzem um benchmark para medir o progresso nessas deficiências.
Este artigo apresenta o conjunto de dados COCONut-PanCap, criado para aprimorar a segmentação panóptica e a geração de legendas de imagens fundamentadas. Construído a partir do conjunto de dados COCO com máscaras panópticas avançadas COCONut, este conjunto de dados tem como objetivo superar as limitações nos conjuntos de dados imagem-texto existentes que frequentemente carecem de descrições detalhadas e abrangentes da cena. O conjunto de dados COCONut-PanCap incorpora legendas em nível de região detalhadas, fundamentadas em máscaras de segmentação panóptica, garantindo consistência e melhorando o detalhamento das legendas geradas. Através de descrições densamente anotadas e editadas por humanos, o COCONut-PanCap apoia o aprimoramento do treinamento de modelos visão-linguagem (VLMs) para compreensão de imagens e modelos generativos para tarefas de texto-para-imagem. Resultados experimentais demonstram que o COCONut-PanCap melhora significativamente o desempenho em tarefas de compreensão e geração, oferecendo benefícios complementares aos conjuntos de dados em grande escala. Este conjunto de dados estabelece um novo referencial para avaliar modelos em tarefas conjuntas de segmentação panóptica e geração de legendas fundamentadas, abordando a necessidade de anotações imagem-texto detalhadas e de alta qualidade em aprendizado multimodal.
A criação de modelos de Design Assistido por Computador (CAD) requer expertise significativa e esforço. O Texto-para-CAD, que converte descrições textuais em sequências paramétricas CAD, é crucial para otimizar esse processo. Estudos recentes têm utilizado sequências paramétricas de referência, conhecidas como sinais sequenciais, como supervisão para alcançar esse objetivo. No entanto, os modelos CAD são inerentemente multimodais, compreendendo sequências paramétricas e objetos visuais renderizados correspondentes. Além disso, o processo de renderização de sequências paramétricas para objetos visuais é de muitos para um. Portanto, tanto os sinais sequenciais quanto visuais são cruciais para um treinamento eficaz. Neste trabalho, apresentamos o CADFusion, um framework que utiliza Modelos de Linguagem Grandes (LLMs) como base e alterna entre duas etapas de treinamento: a etapa de aprendizado sequencial (SL) e a etapa de feedback visual (VF). Na etapa SL, treinamos LLMs usando sequências paramétricas de referência, possibilitando a geração de sequências paramétricas logicamente coerentes. Na etapa VF, recompensamos sequências paramétricas que se transformam em objetos visualmente preferidos e penalizamos aquelas que não o fazem, permitindo que os LLMs aprendam como os objetos visuais renderizados são percebidos e avaliados. Essas duas etapas alternam ao longo do treinamento, garantindo um aprendizado equilibrado e preservando os benefícios de ambos os sinais. Experimentos demonstram que o CADFusion melhora significativamente o desempenho, tanto qualitativa quanto quantitativamente.
A personalização de modelos texto-imagem permite aos usuários inserir conceitos personalizados e gerar os conceitos em ambientes não vistos. Métodos existentes geralmente dependem de otimização custosa no momento do teste ou treinam codificadores em conjuntos de dados de treinamento de única imagem sem supervisão multi-imagem, resultando em qualidade de imagem inferior. Propomos uma abordagem simples que aborda ambas as limitações. Primeiramente, aproveitamos modelos texto-imagem existentes e conjuntos de dados 3D para criar um Conjunto de Dados de Personalização Sintética (SynCD) de alta qualidade, consistindo de múltiplas imagens do mesmo objeto em diferentes iluminações, fundos e poses. Em seguida, propomos uma nova arquitetura de codificador baseada em mecanismos de atenção compartilhada que incorporam melhor detalhes visuais refinados das imagens de entrada. Por fim, propomos uma nova técnica de inferência que mitiga problemas de superexposição durante a inferência, normalizando os vetores de orientação de texto e imagem. Através de experimentos extensivos, demonstramos que nosso modelo, treinado no conjunto de dados sintético com o codificador e algoritmo de inferência propostos, supera os métodos existentes sem ajuste em benchmarks padrão de personalização.
O ajuste fino de grandes modelos de linguagem (LLMs) em dispositivos está atraindo um interesse crescente. Trabalhos recentes têm fundido técnicas de adaptação de baixa ordem (LoRA) com ajuste fino federado para mitigar os desafios associados aos tamanhos de modelo de dispositivo e à escassez de dados. Ainda assim, a heterogeneidade dos recursos computacionais permanece um gargalo crítico: enquanto módulos de ordem superior geralmente melhoram o desempenho, as capacidades variadas dos dispositivos restringem a faixa de ordem viável do LoRA. Abordagens existentes que tentam resolver esse problema ou carecem de justificativa analítica ou impõem sobrecarga computacional adicional, deixando uma lacuna ampla para uma solução eficiente e teoricamente fundamentada. Para enfrentar esses desafios, propomos o LoRA de esboço federado (FSLoRA), que alavanca um mecanismo de esboço para permitir que os dispositivos atualizem seletivamente submatrizes dos módulos globais do LoRA mantidos pelo servidor. Ao ajustar as proporções de esboço, que determinam as ordens das submatrizes nos dispositivos, o FSLoRA se adapta de forma flexível às restrições de comunicação e computacionais específicas do dispositivo. Fornecemos uma análise rigorosa de convergência do FSLoRA que caracteriza como as proporções de esboço afetam a taxa de convergência. Através de experimentos abrangentes em vários conjuntos de dados e modelos LLM, demonstramos o desempenho superior do FSLoRA em comparação com várias bases.
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis em diversos domínios. Acompanhando as capacidades em evolução e os cenários de implementação em expansão dos LLMs, os desafios de implementação aumentam devido à sua grande escala e aos designs avançados, porém complexos, prevalentes em séries de modelos notáveis, como Llama, Gemma e Mistral. Esses desafios têm se tornado particularmente evidentes em cenários de implementação com recursos limitados, nos quais a mitigação de gargalos de eficiência de inferência é imperativa. Entre vários esforços recentes, a aproximação de ativação surgiu como uma via promissora para buscar eficiência de inferência, às vezes considerada indispensável em aplicações como inferência privada. Apesar de alcançar melhorias substanciais de velocidade com impacto mínimo na utilidade, parecendo viável e prática até mesmo para implementação no mundo real, as implicações de segurança das aproximações de ativação permanecem incertas. Neste trabalho, preenchemos essa lacuna crítica na segurança de LLMs realizando a primeira avaliação sistemática de segurança de aproximações de ativação. Nossa avaliação de segurança abrange sete técnicas de ponta em três categorias populares, revelando uma degradação consistente na segurança em dez LLMs alinhados com a segurança.