Artigos de pesquisa em IA selecionados diariamente com traduções
Estudamos modelos de linguagem grandes (LLMs) de raciocínio auto-recompensador, que podem gerar passo a passo o raciocínio e avaliar a correção de suas saídas durante o tempo de inferência - sem feedback externo. Esta abordagem integrada permite que um único modelo guie independentemente seu processo de raciocínio, oferecendo vantagens computacionais para a implantação do modelo. Focamos particularmente na tarefa representativa de auto-correção, onde os modelos detectam autonomamente erros em suas respostas, revisam as saídas e decidem quando encerrar os loops de refinamento iterativo. Para viabilizar isso, propomos um framework algorítmico em duas etapas para a construção de modelos de raciocínio auto-recompensador usando apenas dados auto-gerados. Na primeira etapa, empregamos amostragem sequencial de rejeição para sintetizar longas trajetórias de encadeamento de pensamento que incorporam tanto mecanismos de auto-recompensa quanto de auto-correção. O ajuste fino dos modelos a esses dados curados permite que aprendam os padrões de auto-recompensa e auto-correção. Na segunda etapa, aprimoramos ainda mais a capacidade dos modelos de avaliar a precisão da resposta e refinar as saídas por meio de aprendizado por reforço com sinais baseados em regras. Experimentos com Llama-3 e Qwen-2.5 demonstram que nossa abordagem supera as capacidades intrínsecas de auto-correção e alcança desempenho comparável a sistemas que dependem de modelos de recompensa externos.
O raciocínio é uma fronteira crítica para o avanço da análise de imagens médicas, onde a transparência e confiabilidade desempenham um papel central tanto na confiança dos clínicos quanto na aprovação regulatória. Embora os Modelos de Linguagem Visual Médica (VLMs) mostrem promessa para tarefas radiológicas, a maioria dos VLMs existentes apenas produz respostas finais sem revelar o raciocínio subjacente. Para abordar essa lacuna, apresentamos o MedVLM-R1, um VLM médico que gera explicitamente raciocínio em linguagem natural para aprimorar a transparência e confiabilidade. Em vez de depender do ajuste fino supervisionado (SFT), que frequentemente sofre com ajuste excessivo às distribuições de treinamento e falha em promover um raciocínio genuíno, o MedVLM-R1 emprega um framework de aprendizado por reforço que incentiva o modelo a descobrir caminhos de raciocínio interpretáveis pelos humanos sem utilizar quaisquer referências de raciocínio. Apesar dos dados de treinamento limitados (600 amostras de perguntas visuais) e dos parâmetros do modelo (2B), o MedVLM-R1 aumenta a precisão de 55,11% para 78,22% em benchmarks de ressonância magnética, tomografia computadorizada e raio-X, superando modelos maiores treinados em mais de um milhão de amostras. Ele também demonstra uma generalização de domínio robusta em tarefas fora da distribuição. Ao unificar a análise de imagens médicas com raciocínio explícito, o MedVLM-R1 marca um passo fundamental em direção a uma IA confiável e interpretável na prática clínica.
Em modelos multimodais grandes (LMMs), a percepção de modalidades não linguísticas (por exemplo, representações visuais) geralmente não está no mesmo nível das poderosas capacidades de raciocínio dos grandes modelos de linguagem (LLMs), o que prejudica o desempenho dos LMMs em tarefas desafiadoras. Essa fraqueza foi recentemente mitigada substituindo o codificador de visão por um modelo de mistura de especialistas (MoE), que fornece representações ricas, multigranulares e diversas necessárias para diversas tarefas subsequentes. O desempenho do MoE multimodal depende em grande parte de seu roteador, que repondera e mistura as representações de diferentes especialistas para cada entrada. No entanto, observamos que o roteador treinado de ponta a ponta nem sempre produz os pesos de roteamento ideais para cada amostra de teste. Para preencher essa lacuna, propomos um método novo e eficiente "Re-Routing in Test-Time (R2-T2)" que otimiza localmente o vetor de pesos de roteamento no momento do teste movendo-o em direção aos vetores das amostras corretamente previstas em uma vizinhança da amostra de teste. Propomos três estratégias R2-T2 com diferentes objetivos de otimização e espaços de busca de vizinhos. O R2-T2 melhora consistentemente e significativamente o desempenho dos LMMs de ponta em benchmarks desafiadores de tarefas diversas, sem treinar quaisquer parâmetros do modelo base.
LongRoPE2 é uma abordagem inovadora que estende a janela de contexto efetiva de modelos de linguagem grandes (LLMs) pré-treinados para o comprimento alvo, preservando ao mesmo tempo o desempenho na janela de contexto original mais curta. Isso é alcançado por meio de três contribuições: (1) uma hipótese de que o treinamento insuficiente em dimensões RoPE mais altas contribui para os persistentes problemas fora da distribuição (OOD) observados em métodos existentes; (2) um algoritmo eficaz de redimensionamento RoPE que adota uma busca evolutiva guiada pela perplexidade "impulsionada por agulha" para abordar o problema de treinamento insuficiente; (3) uma abordagem de treinamento de janela de contexto mista que ajusta os pesos do modelo para adotar RoPE redimensionado para sequências de longo contexto, preservando o desempenho de curto contexto com o RoPE original. Experimentos extensivos em LLaMA3-8B e Phi3-mini-3.8B em vários benchmarks validam a hipótese e demonstram a eficácia do LongRoPE2. Notavelmente, o LongRoPE2 estende o LLaMA3-8B para alcançar um comprimento de contexto efetivo de 128K, mantendo mais de 98,5% do desempenho de curto contexto, usando apenas 10B de tokens - 80 vezes menos do que a abordagem da Meta, que não consegue atingir o comprimento de contexto efetivo desejado. O código estará disponível em https://github.com/microsoft/LongRoPE.
As recentes inovações em arquitetura, pré-treinamento e ajuste fino têm levado às notáveis habilidades de aprendizado e raciocínio em contexto de grandes modelos de linguagem autorregressivos como LLaMA e DeepSeek. Em contraste, codificadores como BERT e RoBERTa não têm visto o mesmo nível de progresso, apesar de serem fundamentais para muitas aplicações downstream de PNL. Para preencher essa lacuna, apresentamos o NeoBERT, um codificador de próxima geração que redefine as capacidades de modelos bidirecionais integrando avanços de ponta em arquitetura, dados modernos e metodologias otimizadas de pré-treinamento. O NeoBERT é projetado para adoção fácil: ele serve como uma substituição plug-and-play para modelos base existentes, depende de uma proporção ótima de profundidade para largura e aproveita um comprimento de contexto estendido de 4.096 tokens. Apesar de sua pegada compacta de 250M parâmetros, ele alcança resultados de ponta no amplo benchmark MTEB, superando BERT large, RoBERTa large, NomicBERT e ModernBERT sob condições idênticas de ajuste fino. Além disso, avaliamos rigorosamente o impacto de cada modificação no GLUE e projetamos um framework uniforme de ajuste fino e avaliação para o MTEB. Disponibilizamos todo o código, dados, checkpoints e scripts de treinamento para acelerar a pesquisa e a adoção no mundo real.
A disparidade de representação entre geração visual e compreensão impõe uma lacuna crítica na integração dessas capacidades em um único framework. Para preencher essa lacuna, apresentamos o UniTok, um tokenizador visual discreto que codifica detalhes refinados para geração, enquanto também captura semântica de alto nível para compreensão. Apesar de estudos recentes terem mostrado que esses objetivos podem induzir conflitos de perda durante o treinamento, revelamos que o gargalo subjacente decorre da capacidade limitada de representação de tokens discretos. Abordamos isso introduzindo a quantização multi-codebook, que divide a quantização vetorial em vários sub-codebooks independentes para expandir o espaço de características latentes, evitando instabilidade de treinamento causada por codebooks muito grandes. Nosso método eleva significativamente o limite superior de tokenizadores discretos unificados para igualar ou até mesmo superar tokenizadores contínuos específicos de domínio. Por exemplo, o UniTok alcança um rFID notável de 0,38 (em comparação com 0,87 para SD-VAE) e uma precisão de zero-shot de 78,6% (em comparação com 76,2% para CLIP) no ImageNet. Nosso código está disponível em https://github.com/FoundationVision/UniTok.
O campo da geração avançada de texto para imagem está testemunhando o surgimento de estruturas unificadas que integram codificadores de texto poderosos, como CLIP e T5, com espinhas dorsais de Transformadores de Difusão. Embora tenham sido feitos esforços para controlar imagens de saída com condições adicionais, como canny e mapa de profundidade, ainda falta um framework abrangente para controle intercalado arbitrário de texto-imagem. Essa lacuna é especialmente evidente ao tentar mesclar conceitos ou elementos visuais de múltiplas imagens no processo de geração. Para mitigar a lacuna, realizamos experimentos preliminares mostrando que grandes modelos multimodais (LMMs) oferecem um espaço de representação compartilhado eficaz, onde imagem e texto podem ser bem alinhados para servir como condição para modelos de difusão externos. Com base nessa descoberta, propomos Dream Engine, um framework eficiente e unificado projetado para controle intercalado arbitrário de texto-imagem em modelos de geração de imagem. Construindo sobre modelos poderosos de texto para imagem como SD3.5, substituímos os codificadores originais de apenas texto incorporando codificadores de informações multimodais versáteis como QwenVL. Nossa abordagem utiliza um paradigma de treinamento em duas etapas, consistindo de alinhamento conjunto de texto-imagem e ajuste de instrução intercalada multimodal. Nossos experimentos demonstram que este método de treinamento é eficaz, alcançando uma pontuação geral de 0.69 no benchmark GenEval, e igualando o desempenho de modelos de texto para imagem de ponta como SD3.5 e FLUX.
Muitas tarefas desafiadoras de raciocínio exigem não apenas respostas rápidas e intuitivas, mas uma abordagem mais deliberada e em vários passos. O progresso recente em grandes modelos de linguagem (LLMs) destaca uma mudança importante do modo "Sistema 1" de reações rápidas para o estilo "Sistema 2" de resolução de problemas por reflexão e correção. No entanto, os benchmarks atuais dependem fortemente da precisão da resposta final, deixando muitos dos passos intermediários de raciocínio de um modelo sem serem examinados. Isso falha em avaliar a capacidade do modelo de refletir e corrigir erros dentro do processo de raciocínio. Para preencher essa lacuna, apresentamos o FINEREASON, um benchmark de quebra-cabeças lógicos para avaliação detalhada das capacidades de raciocínio dos LLMs. Cada quebra-cabeça pode ser decomposta em passos atômicos, tornando-a ideal para validação rigorosa da correção intermediária. Com base nisso, introduzimos duas tarefas: verificação de estado e transição de estado, para uma avaliação abrangente de como os modelos avaliam a situação atual e planejam a próxima jogada. Para apoiar pesquisas mais amplas, também fornecemos um conjunto de treinamento de quebra-cabeças com o objetivo de aprimorar o desempenho em tarefas matemáticas gerais. Mostramos que os modelos treinados em nossos dados de verificação e transição de estado demonstram ganhos no raciocínio matemático de até 5,1% no GSM8K.
Os Modelos de Linguagem de Grande Escala (LLMs) têm apresentado um desempenho excepcional em engenharia de software, mas enfrentam desafios na adaptação ao conhecimento de código em constante evolução, especialmente em relação às atualizações frequentes das APIs de bibliotecas de terceiros. Essa limitação, decorrente de conjuntos de dados estáticos de pré-treinamento, frequentemente resulta em código não executável ou implementações com segurança e eficiência subótimas. Neste sentido, este artigo apresenta o CODESYNC, um mecanismo de dados para identificar padrões de código desatualizados e coletar atualizações de conhecimento de código em tempo real de bibliotecas de terceiros em Python. Com base no CODESYNC, desenvolvemos o CODESYNCBENCH, um benchmark abrangente para avaliar a capacidade dos LLMs de se manterem sincronizados com a evolução do código, que abrange atualizações do mundo real para 220 APIs de seis bibliotecas em Python. Nosso benchmark oferece 3.300 casos de teste em três tarefas de avaliação e um conjunto de dados de ajuste de instruções consciente de atualizações, composto por 2.200 amostras de treinamento. Experimentos extensivos em 14 LLMs de ponta revelam que eles enfrentam dificuldades com a evolução dinâmica do código, mesmo com o suporte de métodos avançados de atualização de conhecimento (por exemplo, DPO, ORPO e SimPO). Acreditamos que nosso benchmark pode fornecer uma base sólida para o desenvolvimento de métodos mais eficazes para atualização de conhecimento de código em tempo real no futuro. O código experimental e o conjunto de dados estão disponíveis publicamente em: https://github.com/Lucky-voyage/Code-Sync.
Apesar do desempenho notável, os modernos Transformadores de Difusão são prejudicados por requisitos substanciais de recursos durante a inferência, decorrentes da quantidade fixa e grande de computação necessária para cada etapa de remoção de ruído. Neste trabalho, revisitamos o paradigma estático convencional que aloca um orçamento fixo de computação por iteração de remoção de ruído e propomos uma estratégia dinâmica em vez disso. Nosso framework simples e eficiente em amostras permite que modelos DiT pré-treinados sejam convertidos em modelos flexíveis - chamados FlexiDiT - permitindo que processem entradas em orçamentos de computação variáveis. Demonstramos como um único modelo flexível pode gerar imagens sem queda na qualidade, enquanto reduz os FLOPs necessários em mais de 40\% em comparação com seus equivalentes estáticos, tanto para geração de imagens condicionadas por classe quanto por texto. Nosso método é geral e agnóstico em relação às modalidades de entrada e condicionamento. Mostramos como nossa abordagem pode ser prontamente estendida para geração de vídeo, onde modelos FlexiDiT geram amostras com até 75% menos computação sem comprometer o desempenho.
Apresentamos o Mobius, um método inovador para gerar vídeos em loop de forma contínua a partir de descrições de texto diretamente, sem a necessidade de anotações do usuário, criando assim novos materiais visuais para apresentações multimídia. Nosso método reutiliza o modelo de difusão latente de vídeo pré-treinado para gerar vídeos em loop a partir de prompts de texto sem necessidade de treinamento. Durante a inferência, primeiro construímos um ciclo latente conectando o ruído inicial e final dos vídeos. Dado que a consistência temporal pode ser mantida pelo contexto do modelo de difusão de vídeo, realizamos uma desnoização latente de vários quadros, deslocando gradualmente o latente do primeiro quadro para o final a cada passo. Como resultado, o contexto de desnoização varia em cada passo, mantendo a consistência ao longo do processo de inferência. Além disso, o ciclo latente em nosso método pode ter qualquer comprimento. Isso amplia nossa abordagem de deslocamento latente para gerar vídeos em loop contínuo além do escopo do contexto do modelo de difusão de vídeo. Ao contrário de cinemagrafias anteriores, o método proposto não requer uma imagem como aparência, o que restringiria os movimentos dos resultados gerados. Em vez disso, nosso método pode produzir movimentos mais dinâmicos e melhor qualidade visual. Realizamos múltiplos experimentos e comparações para verificar a eficácia do método proposto, demonstrando sua eficácia em diferentes cenários. Todo o código estará disponível.
A modelagem autorregressiva (AR), conhecida por seu paradigma de previsão do próximo token, sustenta os modelos generativos de linguagem e visão de ponta. Tradicionalmente, um "token" é tratado como a menor unidade de previsão, frequentemente um símbolo discreto na linguagem ou um patch quantizado na visão. No entanto, a definição ótima de token para estruturas de imagem 2D permanece uma questão em aberto. Além disso, os modelos AR sofrem viés de exposição, onde o ensino forçado durante o treinamento leva à acumulação de erros na inferência. Neste artigo, propomos xAR, um framework AR generalizado que estende a noção de token para uma entidade X, que pode representar um token de patch individual, uma célula (um agrupamento k vezes k de patches vizinhos), uma subamostra (um agrupamento não local de patches distantes), uma escala (resolução grossa a fina) ou até mesmo uma imagem inteira. Além disso, reformulamos a classificação de token discreto como regressão contínua de entidades, aproveitando métodos de correspondência de fluxo em cada etapa AR. Esta abordagem condiciona o treinamento em entidades ruidosas em vez de tokens de verdade, levando à Aprendizagem de Contexto Ruidoso, que efetivamente alivia o viés de exposição. Como resultado, xAR oferece duas vantagens principais: (1) permite unidades de previsão flexíveis que capturam diferentes granularidades contextuais e estruturas espaciais, e (2) mitiga o viés de exposição evitando a dependência do ensino forçado. No benchmark de geração ImageNet-256, nosso modelo base, xAR-B (172M), supera o DiT-XL/SiT-XL (675M) enquanto alcança uma inferência 20 vezes mais rápida. Enquanto isso, o xAR-H estabelece um novo estado da arte com um FID de 1,24, sendo 2,2 vezes mais rápido que o modelo anterior de melhor desempenho sem depender de módulos de fundação de visão (por exemplo, DINOv2) ou amostragem de intervalo de orientação avançada.
Construir objetos articulados é um desafio fundamental em visão computacional. Métodos existentes frequentemente falham em integrar efetivamente informações entre diferentes estados do objeto, limitando a precisão da reconstrução de malhas de partes e modelagem de dinâmicas de partes, especialmente para objetos articulados complexos de várias partes. Apresentamos o ArtGS, uma abordagem inovadora que utiliza Gaussianas 3D como uma representação flexível e eficiente para lidar com esses problemas. Nosso método incorpora Gaussianas canônicas com inicialização e atualizações de baixo para alto nível para alinhar informações de partes articuladas entre diferentes estados do objeto, e emprega um módulo de modelagem de dinâmicas de partes inspirado em "skinning" para melhorar tanto a reconstrução de malhas de partes quanto a aprendizagem de articulação. Experimentos extensos em conjuntos de dados sintéticos e do mundo real, incluindo um novo benchmark para objetos complexos de várias partes, demonstram que o ArtGS alcança desempenho de ponta na estimativa de parâmetros conjuntos e na reconstrução de malhas de partes. Nossa abordagem melhora significativamente a qualidade e eficiência da reconstrução, especialmente para objetos articulados de várias partes. Além disso, fornecemos análises abrangentes de nossas escolhas de design, validando a eficácia de cada componente para destacar áreas potenciais de melhoria futura.
A Otimização de Política Próxima (PPO) baseada em Aprendizado por Reforço a partir de Feedback Humano (RLHF) é essencial para alinhar grandes modelos de linguagem (LLMs) com as preferências humanas. Requer o treinamento conjunto de um ator e um crítico com um modelo de recompensa pré-treinado e fixo para orientação. Esse método aumenta a complexidade computacional e a instabilidade devido à interdependência entre ator e crítico. Além disso, o PPO não tem acesso às recompensas verdadeiras do ambiente em tarefas de LLM, limitando sua adaptabilidade. Nessas condições, o pré-treinamento de um modelo de valor ou um modelo de recompensa se torna equivalente, pois ambos fornecem sinais de supervisão fixos sem novos feedbacks de verdade absoluta. Para lidar com essas questões, propomos a Otimização de Política de Valor Desacoplada (DVPO), um arcabouço enxuto que substitui a modelagem de recompensa tradicional por um modelo de valor global pré-treinado (GVM). O GVM é condicionado em trajetórias de política e prevê estimativas de retorno ao longo dos tokens. Ao desacoplar o modelo de valor do treinamento de política (por meio de objetivos de RL conduzidos por GVM congelado), o DVPO elimina a interdependência entre ator e crítico, reduzindo o uso de memória da GPU em 40% e o tempo de treinamento em 35% em comparação com RLHF convencional. Experimentos em diversos benchmarks mostram que o DVPO supera métodos eficientes de RLHF (por exemplo, DPO) enquanto se equipara ao PPO de ponta em desempenho.
Os agentes de IA autônomos que utilizam grandes modelos de linguagem podem criar valores inegáveis em todos os setores da sociedade, mas enfrentam ameaças de segurança por parte de adversários que exigem soluções protetivas imediatas, uma vez que surgem questões de confiança e segurança. Considerando o jailbreaking de muitos disparos e o alinhamento enganoso como alguns dos principais ataques avançados, que não podem ser mitigados pelas barreiras estáticas utilizadas durante o treinamento supervisionado, aponta para uma prioridade crucial de pesquisa para a robustez no mundo real. A combinação de barreiras estáticas em um sistema multiagente dinâmico falha em defender contra esses ataques. Pretendemos aprimorar a segurança para agentes baseados em LLM por meio do desenvolvimento de novos frameworks de avaliação que identificam e combatem ameaças para um deployment operacional seguro. Nosso trabalho utiliza três métodos de exame para detectar agentes fraudulentos por meio de um Teste de Turing Reverso e analisar o alinhamento enganoso por meio de simulações multiagente, e desenvolve um sistema anti-jailbreaking testando-o com os modelos GEMINI 1.5 pro e llama-3.3-70B, deepseek r1, usando cenários adversariais mediados por ferramentas. As capacidades de detecção são fortes, como uma precisão de 94\% para o GEMINI 1.5 pro, no entanto, o sistema sofre vulnerabilidades persistentes durante ataques prolongados, à medida que o comprimento da solicitação aumenta as taxas de sucesso do ataque (ASR) e as métricas de diversidade se tornam ineficazes na previsão, revelando múltiplas falhas complexas no sistema. Os resultados demonstram a necessidade de adotar sistemas de segurança flexíveis baseados em monitoramento ativo que podem ser realizados pelos próprios agentes, juntamente com intervenções adaptáveis pelo administrador do sistema, uma vez que os modelos atuais podem criar vulnerabilidades que podem levar a um sistema não confiável e vulnerável. Assim, em nosso trabalho, tentamos abordar tais situações e propor um framework abrangente para combater os problemas de segurança.
Os frameworks predominantes de resolução de problemas geralmente dependem de modelos comerciais, resultando em altos custos e preocupações com privacidade. As abordagens de treinamento existentes para resolução de problemas enfrentam dificuldades de generalização e não conseguem aproveitar totalmente os recursos de desenvolvimento de código aberto. Propomos o Ajuste Fino Reforçado Orientado a Subtarefas (SoRFT), uma abordagem de treinamento inovadora para aprimorar a capacidade de resolução de problemas dos LLMs. Nós decomponemos a resolução de problemas em subtarefas estruturadas: localização de arquivos, localização de funções, localização de linhas e geração de edição de código. O SoRFT consiste em duas etapas de treinamento: (1) ajuste fino supervisionado com amostragem de rejeição, os dados da Cadeia de Pensamento (CoT) são filtrados usando a verdade básica antes do ajuste fino do LLM, e (2) aprendizado por reforço baseado em regras, que utiliza o PPO com recompensas baseadas na verdade básica. Avaliamos o modelo treinado com SoRFT no SWE-Bench Verified e SWE-Bench Lite, alcançando desempenho de ponta entre os modelos de código aberto (por exemplo, resolvendo 21,4% dos problemas no SWE-Bench Verified com SoRFT-Qwen-7B). Os resultados experimentais demonstram que o SoRFT melhora significativamente o desempenho na resolução de problemas, aprimora a generalização do modelo e oferece uma alternativa eficiente em termos de custos aos modelos comerciais.
Apesar dos avanços recentes em modelos de linguagem grandes aprimorados com raciocínio, como o DeepSeek-R1, a incorporação do raciocínio no momento da inferência na tradução automática, onde tradutores humanos naturalmente empregam cadeias de pensamento estruturadas e em camadas, ainda é pouco explorada. Métodos existentes ou projetam uma cadeia de pensamento fixa adaptada para uma sub-tarefa específica de tradução automática (por exemplo, tradução de literatura), ou dependem da síntese de cadeias de pensamento não alinhadas com as dos humanos e do ajuste fino supervisionado propenso ao esquecimento catastrófico, limitando sua adaptabilidade a cenários de tradução diversos. Este artigo apresenta o R1-Translator (R1-T1), um novo framework para alcançar o raciocínio no momento da inferência para tradução automática geral por meio de aprendizado por reforço (RL) com cadeias de pensamento alinhadas com humanos, compostas por seis padrões comuns. Nossa abordagem pioneira apresenta três inovações: (1) estendendo a tradução baseada em raciocínio além das sub-tarefas de tradução automática para seis idiomas e diversas tarefas (por exemplo, adaptação de domínio legal/médico, resolução de idiomas); (2) formalizando seis modelos de cadeias de pensamento curadas por especialistas que refletem estratégias híbridas humanas como parafraseamento consciente do contexto e tradução reversa; e (3) possibilitando a descoberta de cadeias de pensamento autoevolutivas e a adaptação contra o esquecimento por meio de RL com recompensas com restrição de KL. Resultados experimentais indicam uma melhoria constante no desempenho de tradução em 21 idiomas e 80 direções de tradução no conjunto de testes Flores-101, especialmente em relação aos 15 idiomas não vistos durante o treinamento, mantendo suas habilidades multilíngues gerais preservadas em comparação com o simples ajuste fino supervisionado.
Em grandes modelos de linguagem (LLMs), certos neurônios podem armazenar peças distintas de conhecimento aprendidas durante o pré-treinamento. Enquanto o conhecimento normalmente aparece como uma combinação de relações e entidades, ainda não está claro se alguns neurônios se concentram em uma relação em si -- independente de qualquer entidade. Nossa hipótese é que tais neurônios detectam uma relação no texto de entrada e orientam a geração envolvendo tal relação. Para investigar isso, estudamos a família Llama-2 em um conjunto escolhido de relações com um método baseado em estatísticas. Nossos experimentos demonstram a existência de neurônios específicos de relação. Medimos o efeito de desativar seletivamente neurônios candidatos específicos para a relação r na capacidade do LLM de lidar com (1) fatos cuja relação é r e (2) fatos cuja relação é uma relação diferente r' neq r. Com relação à capacidade de codificar informações de relação, fornecemos evidências para as seguintes três propriedades dos neurônios específicos de relação. (i) Cumulatividade do neurônio. Os neurônios para r apresentam um efeito cumulativo de modo que desativar uma parte maior deles resulta na degradação de mais fatos em r. (ii) Versatilidade do neurônio. Os neurônios podem ser compartilhados entre múltiplas relações intimamente relacionadas, bem como relações menos relacionadas. Alguns neurônios de relação são transferidos entre idiomas. (iii) Interferência do neurônio. Desativar neurônios específicos de uma relação pode melhorar o desempenho de geração do LLM para fatos de outras relações. Disponibilizaremos nosso código publicamente em https://github.com/cisnlp/relation-specific-neurons.
As estruturas de agentes e algoritmos de inferência recentes frequentemente enfrentam dificuldades com problemas de planejamento complexos devido a limitações na verificação de planos gerados ou no raciocínio e na complexidade variável de instâncias dentro de uma única tarefa. Muitos métodos existentes para essas tarefas realizam verificação em nível de tarefa sem considerar restrições ou aplicam algoritmos de inferência sem se adaptar à complexidade em nível de instância. Para lidar com essas limitações, propomos o PlanGEN, um framework de agente independente de modelo e facilmente escalável com três componentes-chave: agentes de restrição, verificação e seleção. Especificamente, nossa abordagem propõe verificação iterativa guiada por restrição para aprimorar o desempenho de algoritmos de tempo de inferência - Best of N, Tree-of-Thought e REBASE. No framework PlanGEN, o agente de seleção otimiza a escolha do algoritmo com base na complexidade da instância, garantindo uma melhor adaptabilidade a problemas de planejamento complexos. Resultados experimentais demonstram melhorias significativas em relação à linha de base mais forte em vários benchmarks, alcançando resultados de ponta em NATURAL PLAN (sim8%uparrow), OlympiadBench (sim4%uparrow), DocFinQA (sim7%uparrow) e GPQA (sim1%uparrow). Nossa descoberta chave destaca que a verificação iterativa guiada por restrição melhora os algoritmos de tempo de inferência, e a seleção adaptativa impulsiona ainda mais o desempenho em problemas complexos de planejamento e raciocínio.
O Treinamento de Consistência (CT) surgiu recentemente como uma alternativa promissora aos modelos de difusão, alcançando desempenho competitivo em tarefas de geração de imagens. No entanto, o treinamento de consistência sem destilação frequentemente sofre com alta variância e instabilidade, e a análise e melhoria de sua dinâmica de treinamento é uma área ativa de pesquisa. Neste trabalho, propomos uma abordagem de treinamento CT inovadora baseada no framework de Correspondência de Fluxo. Nossa principal contribuição é um esquema de acoplamento de ruído treinado inspirado na arquitetura de Autoencoders Variacionais (VAE). Ao treinar um modelo de emissão de ruído dependente dos dados implementado como uma arquitetura de codificador, nosso método pode aprender indiretamente a geometria do mapeamento de ruído para dados, que é em vez disso fixado pela escolha do processo direto no CT clássico. Resultados empíricos em diversos conjuntos de dados de imagens mostram melhorias generativas significativas, com nosso modelo superando as bases e alcançando o estado-da-arte (SoTA) de CT sem destilação FID no CIFAR-10, e atingindo FID em nível com SoTA no ImageNet em resolução de 64 por 64 em geração de 2 etapas. Nosso código está disponível em https://github.com/sony/vct.
Renderizar cenas dinâmicas a partir de vídeos monoculares é uma tarefa crucial, porém desafiadora. O recente método de Splatting Gaussiano Deformável surgiu como uma solução robusta para representar cenas dinâmicas do mundo real. No entanto, frequentemente resulta em Gaussianas altamente redundantes, tentando se ajustar a cada visualização de treinamento em vários momentos no tempo, o que leva a velocidades de renderização mais lentas. Além disso, os atributos das Gaussianas em áreas estáticas são invariantes no tempo, tornando desnecessário modelar cada Gaussiana, o que pode causar instabilidade em regiões estáticas. Na prática, o principal gargalo na velocidade de renderização de cenas dinâmicas é o número de Gaussianas. Em resposta, apresentamos o Splatting Gaussiano Dinâmico Eficiente (EDGS), que representa cenas dinâmicas por meio de modelagem esparsa de atributos variantes no tempo. Nossa abordagem formula cenas dinâmicas usando uma representação esparsa de grade de âncoras, com o fluxo de movimento das Gaussianas densas calculado por meio de uma representação de kernel clássica. Além disso, propomos uma estratégia não supervisionada para filtrar eficientemente âncoras correspondentes a áreas estáticas. Apenas âncoras associadas a objetos deformáveis são inseridas em MLPs para consultar atributos variantes no tempo. Experimentos em dois conjuntos de dados do mundo real demonstram que nosso EDGS melhora significativamente a velocidade de renderização com qualidade de renderização superior em comparação com métodos anteriores de ponta.