Artigos de pesquisa em IA selecionados diariamente com traduções
Embora os modelos de linguagem de difusão (DLMs) estejam evoluindo rapidamente, muitos modelos recentes convergem para um conjunto de componentes compartilhados. No entanto, esses componentes estão distribuídos em bases de código de pesquisa ad-hoc ou carecem de implementações transparentes, tornando-os difíceis de reproduzir ou estender. À medida que o campo acelera, há uma necessidade clara de uma estrutura unificada que padronize esses componentes comuns, mantendo-se flexível o suficiente para suportar novos métodos e arquiteturas. Para preencher essa lacuna, apresentamos o dLLM, uma estrutura de código aberto que unifica os componentes centrais da modelagem de linguagem por difusão — treinamento, inferência e avaliação — e facilita sua personalização para novos projetos. Com o dLLM, os usuários podem reproduzir, ajustar, implantar e avaliar grandes DLMs de código aberto, como LLaDA e Dream, por meio de um *pipeline* padronizado. A estrutura também fornece *recipes* mínimas e reproduzíveis para construir pequenos DLMs do zero com recursos computacionais acessíveis, incluindo a conversão de qualquer codificador no estilo BERT ou modelo de linguagem autoregressivo em um DLM. Também disponibilizamos os *checkpoints* desses pequenos DLMs para tornar os DLMs mais acessíveis e acelerar pesquisas futuras.
A otimização de kernels GPU é fundamental para o aprendizado profundo moderno, mas permanece uma tarefa altamente especializada que requer profundo conhecimento de hardware. Apesar do forte desempenho em programação geral, os grandes modelos de linguagem (LLMs) permanecem não competitivos com sistemas baseados em compiladores, como o torch.compile, para geração de kernels CUDA. As abordagens existentes de geração de código CUDA ou dependem de refinamento sem treinamento ou ajustam modelos em loops fixos de execução-feedback multi-turn, mas ambos os paradigmas falham em melhorar fundamentalmente a capacidade intrínseca de otimização CUDA do modelo, resultando em ganhos de desempenho limitados. Apresentamos o CUDA Agent, um sistema de aprendizado por reforço agentivo em larga escala que desenvolve expertise em kernels CUDA através de três componentes: um pipeline escalável de síntese de dados, um ambiente de desenvolvimento CUDA com habilidades aumentadas e verificação e profiling automatizados para fornecer sinais de recompensa confiáveis, e técnicas algorítmicas de aprendizado por reforço que permitem treinamento estável. O CUDA Agent alcança resultados state-of-the-art no KernelBench, fornecendo taxas 100%, 100% e 92% mais rápidas que o torch.compile nas divisões Level-1, Level-2 e Level-3 do KernelBench, superando os modelos proprietários mais fortes, como Claude Opus 4.5 e Gemini 3 Pro, em cerca de 40% na configuração mais difícil Level-3.
Os recentes avanços na geração de texto para imagem têm melhorado significativamente a fidelidade visual e a criatividade, mas também impuseram demandas mais elevadas quanto à complexidade dos comandos textuais – particularmente na codificação de relações espaciais intrincadas. Nestes casos, alcançar resultados satisfatórios frequentemente requer múltiplas tentativas de amostragem. Para enfrentar este desafio, introduzimos um método inovador que reforça a compreensão espacial dos modelos atuais de geração de imagens. Primeiro, construímos o SpatialReward-Dataset com mais de 80 mil pares de preferência. Com base neste conjunto de dados, desenvolvemos o SpatialScore, um modelo de recompensa projetado para avaliar a precisão das relações espaciais na geração de texto para imagem, alcançando um desempenho que supera até mesmo modelos proprietários líderes na avaliação espacial. Demonstramos ainda que este modelo de recompensa permite efetivamente o aprendizado por reforço online para a geração espacial complexa. Experimentos extensivos em múltiplos benchmarks mostram que nosso modelo de recompensa especializado produz ganhos significativos e consistentes na compreensão espacial para geração de imagens.
A confiabilidade da avaliação de modelos de linguagem grandes (LLMs) multilingues é atualmente comprometida pela qualidade inconsistente dos benchmarks traduzidos. Os recursos existentes frequentemente sofrem com desvio semântico e perda de contexto, o que pode levar a métricas de desempenho enganosas. Neste trabalho, apresentamos uma estrutura totalmente automatizada concebida para enfrentar estes desafios, permitindo a tradução escalável e de alta qualidade de conjuntos de dados e benchmarks. Demonstramos que a adaptação de estratégias de dimensionamento de computação no momento do teste, especificamente a Autossuperação Universal (USI) e o nosso método de classificação em múltiplas rondas proposto, T-RANK, permite obter resultados significativamente superiores em qualidade em comparação com os pipelines tradicionais. A nossa estrutura garante que os benchmarks preservam a sua estrutura de tarefa original e nuances linguísticas durante a localização. Aplicamos esta abordagem para traduzir benchmarks e conjuntos de dados populares para oito línguas da Europa Oriental e Meridional (Ucraniano, Búlgaro, Eslovaco, Romeno, Lituano, Estónio, Turco, Grego). As avaliações utilizando tanto métricas baseadas em referência como o método LLM-como-juiz mostram que as nossas traduções superam os recursos existentes, resultando numa avaliação de modelos subsequente mais precisa. Disponibilizamos tanto a estrutura como os benchmarks melhorados para facilitar um desenvolvimento de IA multilingue robusto e reproduzível.
A escalabilidade da geração de vídeos de segundos para minutos enfrenta um gargalo crítico: embora os dados de vídeos curtos sejam abundantes e de alta fidelidade, os dados coerentes de longa duração são escassos e limitados a domínios restritos. Para resolver isso, propomos um paradigma de treinamento onde a Busca de Modos encontra a Busca pela Média, desacoplando a fidelidade local da coerência de longo prazo com base numa representação unificada via um Transformer de Difusão Desacoplado. Nossa abordagem utiliza um cabeçalho global de Flow Matching treinado via aprendizado supervisionado em vídeos longos para capturar a estrutura narrativa, enquanto emprega simultaneamente um cabeçalho local de Distribution Matching que alinha janelas deslizantes a um professor congelado de vídeos curtos via uma divergência reverse-KL de busca de modos. Esta estratégia permite a síntese de vídeos em escala de minutos que aprende coerência e movimentos de longo alcance a partir de vídeos longos limitados via flow matching supervisionado, enquanto herda o realismo local ao alinhar cada segmento de janela deslizante do aluno a um professor congelado de vídeos curtos, resultando num gerador de vídeos longos rápido e de poucos passos. As avaliações mostram que nosso método efetivamente reduz a lacuna fidelidade-horizonte ao melhorar conjuntamente a nitidez local, o movimento e a consistência de longo alcance. Site do projeto: https://primecai.github.io/mmm/.
A decodificação especulativa acelera a inferência em modelos de linguagem grandes (LLM) autoregressivos usando um modelo rascunho leve para propor tokens candidatos que são então verificados em paralelo pelo modelo alvo. O ganho de velocidade é significativamente determinado pela taxa de aceitação, no entanto, o treinamento padrão minimiza a divergência de Kullback-Leibler (KL) como um objetivo substituto. Embora a divergência KL e a taxa de aceitação compartilhem o mesmo ótimo global, modelos rascunho pequenos, com capacidade limitada, normalmente convergem para soluções subótimas onde minimizar a KL não garante maximizar a taxa de aceitação. Para resolver este problema, propomos as perdas LK, objetivos de treinamento especiais que visam diretamente a taxa de aceitação. Experimentos abrangentes envolvendo quatro arquiteturas de rascunho e seis modelos alvo, variando de 8B a 685B de parâmetros, demonstram melhorias consistentes nas métricas de aceitação em todas as configurações em comparação com o treinamento padrão baseado em KL. Avaliamos nossa abordagem nos domínios geral, de programação e matemático e relatamos ganhos de até 8-10% no comprimento médio de aceitação. As perdas LK são fáceis de implementar, não introduzem sobrecarga computacional e podem ser integradas diretamente em qualquer estrutura de treinamento de especuladores existente, tornando-as uma alternativa atraente aos objetivos de treinamento de rascunho atuais.
A investigação científica depende de citações precisas para atribuição e integridade, contudo, os modelos de linguagem de grande escala (LLMs) introduzem um novo risco: referências fabricadas que parecem plausíveis, mas não correspondem a publicações reais. Tais citações alucinadas já foram observadas em submissões e artigos aceites em importantes conferências de aprendizagem automática, expondo vulnerabilidades na revisão por pares. Entretanto, listas de referências em rápido crescimento tornam a verificação manual impraticável, e as ferramentas automatizadas existentes permanecem frágeis face a formatos de citação ruidosos e heterogéneos, carecendo de avaliação padronizada. Apresentamos o primeiro benchmark abrangente e estrutura de deteção para citações alucinadas na escrita científica. O nosso *pipeline* de verificação multiagente decompõe a verificação de citações em extração de afirmações, recuperação de evidências, correspondência de passagens, raciocínio e julgamento calibrado para avaliar se uma fonte citada suporta verdadeiramente a sua afirmação. Construímos um conjunto de dados em larga escala, validado por humanos em várias áreas, e definimos métricas unificadas para a fidelidade da citação e o alinhamento da evidência. Experiências com LLMs de última geração revelam erros substanciais de citação e demonstram que a nossa estrutura supera significativamente métodos anteriores tanto em precisão como em interpretabilidade. Este trabalho fornece a primeira infraestrutura escalável para auditoria de citações na era dos LLMs e ferramentas práticas para melhorar a confiabilidade das referências científicas.
A generalização composicional, a capacidade de reconhecer partes familiares em contextos novos, é uma propriedade definidora de sistemas inteligentes. Embora os modelos modernos sejam treinados em conjuntos de dados massivos, eles ainda cobrem apenas uma pequena fração do espaço combinatório de entradas possíveis, levantando a questão de que estrutura as representações devem ter para suportar a generalização para combinações não vistas. Formalizamos três desideratos para a generalização composicional sob treinamento padrão (divisibilidade, transferibilidade, estabilidade) e mostramos que estes impõem restrições geométricas necessárias: as representações devem se decompor linearmente em componentes por conceito, e estes componentes devem ser ortogonais entre conceitos. Isto fornece uma base teórica para a Hipótese da Representação Linear: a estrutura linear amplamente observada nas representações neurais é uma consequência necessária da generalização composicional. Além disso, derivamos limites de dimensão que ligam o número de conceitos composicionáveis à geometria do *embedding*. Empiricamente, avaliamos estas previsões em modelos modernos de visão (CLIP, SigLIP, DINO) e descobrimos que as representações exibem fatoração linear parcial com fatores por conceito de baixa classificação e quase ortogonais, e que o grau desta estrutura correlaciona-se com a generalização composicional em combinações não vistas. À medida que os modelos continuam a escalar, estas condições preveem a geometria representacional para a qual eles podem convergir. O código está disponível em https://github.com/oshapio/necessary-compositionality.
A memorabilidade de imagens, ou seja, a probabilidade de uma imagem ser lembrada, tem sido tradicionalmente estudada na visão computacional como uma tarefa de previsão passiva, com modelos regredindo uma pontuação escalar, ou com métodos generativos que alteram a entrada visual para aumentar a probabilidade da imagem ser lembrada. No entanto, nenhum desses paradigmas apoia os utilizadores no momento da captura, quando a questão crucial é como melhorar a memorabilidade de uma fotografia. Introduzimos a tarefa de *Feedback de Memorabilidade* (MemFeed), na qual um modelo automatizado deve fornecer orientação acionável e interpretável por humanos aos utilizadores com o objetivo de melhorar a recordação futura da imagem. Apresentamos também o MemCoach, a primeira abordagem concebida para fornecer sugestões concretas em linguagem natural para a melhoria da memorabilidade (por exemplo, "enfatize a expressão facial", "traga o assunto para a frente"). O nosso método, baseado em *Modelos de Linguagem de Grande Escala Multimodais* (MLLMs), não requer treino e emprega uma estratégia de orientação do tipo professor-aluno, alinhando as ativações internas do modelo para padrões mais memoráveis aprendidos a partir de um modelo professor que progride ao longo de amostras ordenadas da menos para a mais memorável. Para permitir uma avaliação sistemática desta nova tarefa, introduzimos ainda o MemBench, um novo benchmark que apresenta sessões fotográficas com sequências alinhadas e pontuações de memorabilidade anotadas. As nossas experiências, considerando múltiplos MLLMs, demonstram a eficácia do MemCoach, mostrando um desempenho consistentemente melhorado em relação a vários modelos *zero-shot*. Os resultados indicam que a memorabilidade pode não só ser prevista, mas também ensinada e instruída, deslocando o foco da mera previsão para um *feedback* acionável para criadores humanos.
A aprendizagem contrastiva tornou-se um pilar fundamental da aprendizagem de representações moderna, permitindo o treinamento com dados massivos não rotulados tanto para modelos específicos de tarefas quanto para modelos gerais (de base). Uma função de perda prototípica no treinamento contrastivo é o InfoNCE e suas variantes. Neste trabalho, demonstramos que o objetivo do InfoNCE induz uma estrutura Gaussiana nas representações que emergem do treinamento contrastivo. Estabelecemos este resultado em dois regimes complementares. Primeiro, mostramos que, sob certos pressupostos de alinhamento e concentração, as projeções da representação de alta dimensão se aproximam assintoticamente de uma distribuição Gaussiana multivariada. Em seguida, sob pressupostos menos rigorosos, mostramos que adicionar um pequeno termo de regularização, assintoticamente decrescente, que promove baixa norma e alta entropia das características, conduz a resultados assintóticos semelhantes. Apoiamos nossa análise com experiências em conjuntos de dados sintéticos e no CIFAR-10, abrangendo várias arquiteturas e tamanhos de codificadores, demonstrando um comportamento Gaussiano consistente. Esta perspetiva fornece uma explicação fundamentada para a Gaussianidade frequentemente observada em representações contrastivas. O modelo Gaussiano resultante permite um tratamento analítico fundamentado das representações aprendidas e espera-se que suporte uma ampla gama de aplicações na aprendizagem contrastiva.
A Compreensão de Expressões Referenciais (REC, na sigla em inglês) conecta a linguagem à percepção visual a nível regional. Os benchmarks padrão (RefCOCO, RefCOCO+, RefCOCOg) progrediram rapidamente com os LLMs multimodais, mas continuam sendo testes fracos de raciocínio visual e grounding: (i) muitas expressões são muito curtas, deixando pouca demanda de raciocínio; (ii) as imagens frequentemente contêm poucos elementos distractores, tornando o alvo fácil de encontrar; e (iii) descritores redundantes permitem soluções por atalhos que contornam a genuína compreensão textual e o raciocínio visual. Apresentamos o Ref-Adv, um benchmark moderno de REC que suprime atalhos ao emparelhar expressões linguisticamente não triviais apenas com a informação necessária para identificar o alvo de forma única. O conjunto de dados contém expressões referenciais em imagens reais, curadas com distractores difíceis e anotadas com facetas de raciocínio, incluindo a negação. Realizamos ablações abrangentes (perturbações na ordem das palavras e suficiência da deleção de descritores) para mostrar que resolver o Ref-Adv exige raciocínio além de pistas simples, e avaliamos uma ampla gama de LLMs multimodais contemporâneos no Ref-Adv. Apesar de resultados sólidos no RefCOCO, RefCOCO+ e RefCOCOg, os modelos têm uma queda acentuada no Ref-Adv, revelando dependência de atalhos e lacunas no raciocínio visual e grounding. Fornecemos uma análise detalhada de falhas e visamos que o Ref-Adv oriente trabalhos futuros sobre raciocínio visual e grounding em MLLMs.
Este artigo aborda o desafio crítico e pouco explorado da compreensão de vídeos longos com baixos recursos computacionais. Propomos o LongVideo-R1, um agente ativo de modelo de linguagem multimodal (MLLM) equipado com capacidades de raciocínio, projetado para uma navegação eficiente no contexto do vídeo, evitando a redundância da busca exaustiva. No cerne do LongVideo-R1 está um módulo de raciocínio que aproveita pistas visuais de alto nível para inferir o clipe de vídeo mais informativo para processamento subsequente. Durante a inferência, o agente inicia a travessia a partir de resumos visuais de alto nível e refina iterativamente seu foco, interrompendo imediatamente o processo de exploração ao adquirir conhecimento suficiente para responder à consulta. Para facilitar o treinamento, primeiro extraímos legendas hierárquicas de vídeo do CGBench, um corpus de vídeo com anotações de fundamentação, e orientamos o GPT-5 para gerar 33 mil trajectórias de alta qualidade de cadeia de pensamento com ferramentas. O agente LongVideo-R1 é ajustado com base no modelo Qwen-3-8B por meio de um paradigma de dois estágios: ajuste fino supervisionado (SFT) seguido de aprendizado por reforço (RL), onde o RL emprega uma função de recompensa especificamente projetada para maximizar a navegação seletiva e eficiente de clipes. Experimentos em múltiplos benchmarks de vídeos longos validam a eficácia do nome, que apresenta um equilíbrio superior entre a precisão de QA e a eficiência. Todos os dados curados e o código-fonte são fornecidos no material suplementar e serão disponibilizados publicamente. Código e dados estão disponíveis em: https://github.com/qiujihao19/LongVideo-R1
Os Modelos de Geração de Imagens Mascaradas (MIGMs) alcançaram grande sucesso, mas sua eficiência é prejudicada pelos múltiplos passos de atenção bidirecional. Na verdade, existe uma redundância notável em sua computação: ao amostrar tokens discretos, a riqueza semântica contida nas características contínuas é perdida. Alguns trabalhos existentes tentam armazenar em cache as características para aproximar características futuras. No entanto, eles exibem um erro de aproximação considerável sob taxas de aceleração agressivas. Atribuímos isso à sua expressividade limitada e à falha em considerar informações de amostragem. Para preencher essa lacuna, propomos aprender um modelo leve que incorpora tanto características anteriores quanto tokens amostrados, e regride o campo de velocidade média da evolução das características. O modelo possui complexidade moderada, suficiente para capturar a dinâmica sutil, mantendo-se leve em comparação com o modelo base original. Aplicamos nosso método, MIGM-Shortcut, a duas arquiteturas e tarefas MIGM representativas. Em particular, no estado da arte Lumina-DiMOO, ele alcança mais de 4x de aceleração na geração de texto para imagem, mantendo a qualidade, empurrando significativamente a fronteira de Pareto da geração de imagens mascaradas. O código e os pesos do modelo estão disponíveis em https://github.com/Kaiwen-Zhu/MIGM-Shortcut.
Os modelos de difusão alcançam a qualidade de geração de vídeo mais avançada, mas sua inferência permanece cara devido ao grande número de etapas sequenciais de remoção de ruído. Isso motivou uma linha crescente de pesquisa sobre aceleração da inferência por difusão. Entre os métodos de aceleração sem treinamento, o cache reduz a computação reutilizando saídas do modelo previamente calculadas entre as etapas de tempo. Os métodos de cache existentes dependem de critérios heurísticos para escolher os momentos de cache/reutilização e exigem ajustes extensivos. Nós abordamos esta limitação com uma estrutura de cache fundamentada na sensibilidade. Especificamente, formalizamos o erro de cache através de uma análise da sensibilidade da saída do modelo a perturbações nas entradas de remoção de ruído, ou seja, o latente ruidoso e a etapa de tempo, e mostramos que essa sensibilidade é um preditor chave do erro de cache. Com base nesta análise, propomos o Sensitivity-Aware Caching (SenCache), uma política de cache dinâmica que seleciona adaptivamente os momentos de cache por amostra. Nossa estrutura fornece uma base teórica para o cache adaptativo, explica por que heurísticas empíricas anteriores podem ser parcialmente eficazes e as estende para uma abordagem dinâmica e específica por amostra. Experimentos no Wan 2.1, CogVideoX e LTX-Video mostram que o SenCache alcança melhor qualidade visual do que os métodos de cache existentes sob orçamentos computacionais similares.
Os Transformers consolidaram-se como as arquiteturas de base padrão para a maioria dos avanços recentes na modelagem de sequências, principalmente devido à sua crescente capacidade de memória, que escala com o comprimento do contexto. Embora plausível para tarefas de recuperação de informação, isto causa uma complexidade quadrática, o que motivou estudos recentes a explorar alternativas recorrentes viáveis com complexidade subquadrática. Apesar de mostrarem resultados preliminares promissores em diversos domínios, tais arquiteturas recorrentes têm um desempenho inferior ao dos Transformers em tarefas intensivas em recuperação (recall), facto frequentemente atribuído à sua memória de tamanho fixo. Neste artigo, introduzimos o Cache de Memória (MC), uma técnica simples mas eficaz que melhora os modelos recorrentes através da criação de pontos de verificação (checkpoints) dos seus estados de memória (também conhecidos como estados ocultos). O Cache de Memória permite que a capacidade efetiva de memória das RNNs cresça com o comprimento da sequência, oferecendo um compromisso flexível que interpola entre a memória fixa (i.e., complexidade O(L)) das RNNs e a memória crescente (i.e., complexidade O(L²)) dos Transformers. Propomos quatro variantes de MC, incluindo mecanismos de agregação com portão (gated) e mecanismos esparsos seletivos, e discutimos as suas implicações tanto em módulos de memória lineares como profundos. Os nossos resultados experimentais em modelação de linguagem e tarefas de compreensão de contexto longo mostram que o MC melhora o desempenho dos modelos recorrentes, suportando a sua eficácia. Os resultados em tarefas de recuperação em contexto (in-context recall) indicam que, embora os Transformers atinjam a melhor precisão, as nossas variantes de MC apresentam um desempenho competitivo, aproximam-se do desempenho dos Transformers e superam os modelos recorrentes mais avançados do estado da arte.
Os Grandes Modelos de Linguagem (LLMs) estão convergindo para um único Hivemind Artificial, onde uma Natureza compartilhada (prioris de pré-treinamento) resulta em um colapso profundo da diversidade distribucional, limitando as perspectivas distintas necessárias para a exploração criativa e a descoberta científica. Para resolver isso, propomos equipar os modelos com uma Nurture no momento da inferência (trajetórias epistêmicas individualizadas) usando o paradigma da Evolução Epistêmica, progredindo através das fases de explorar, internalizar e expressar. Instanciamos isso via PRISM (Raciocínio Pluralístico por meio de Modelagem de Estrutura em Contexto), um sistema agnóstico de modelo que aumenta o LLM com Grafos Epistêmicos Dinâmicos Sob Demanda. Em três benchmarks de criatividade, o PRISM alcança novidade de última geração e expande significativamente a diversidade distribucional. Além disso, avaliamos a utilidade no mundo real por meio de um benchmark desafiador de diagnóstico de doenças raras. Os resultados demonstram que o PRISM descobre com sucesso diagnósticos corretos de cauda longa que os LLMs padrão perdem, confirmando que sua divergência decorre de uma exploração significativa e não de ruído incoerente. No geral, este trabalho estabelece um novo paradigma para a IA Pluralística, indo além do consenso monolítico em direção a um ecossistema diversificado de indivíduos cognitivos únicos, capazes de uma descoberta coletiva e multiperspectiva.
A recuperação generativa emergiu como um paradigma poderoso para a recomendação baseada em LLM. No entanto, os sistemas de recomendação industriais frequentemente beneficiam da restrição do espaço de saída para um subconjunto limitado de itens com base na lógica de negócio (por exemplo, impondo frescura de conteúdo ou categoria de produto), o que a decodagem autoregressiva padrão não suporta nativamente. Além disso, os métodos de decodagem restrita existentes que utilizam árvores de prefixos (Tries) incorrem em severas penalidades de latência em aceleradores de hardware (TPUs/GPUs). Neste trabalho, introduzimos o STATIC (Sparse Transition Matrix-Accelerated Trie Index for Constrained Decoding), uma técnica de decodagem restrita eficiente e escalável, projetada especificamente para recuperação generativa baseada em LLM de alta vazão em TPUs/GPUs. Ao achatar a árvore de prefixos numa matriz estática no formato Compressed Sparse Row (CSR), transformamos travessias irregulares da árvore em operações totalmente vetorizadas com matrizes esparsas, desbloqueando ganhos massivos de eficiência em aceleradores de hardware. Implantamos o STATIC numa plataforma industrial de recomendação de vídeos em larga escala que atende a bilhões de utilizadores. O STATIC produz um impacto significativo nas métricas do produto com sobrecarga de latência mínima (0,033 ms por passo e 0,25% do tempo de inferência), alcançando uma aceleração de 948x em relação a uma implementação de trie em CPU e uma aceleração de 47-1033x em relação a uma linha de base com busca binária acelerada por hardware. Adicionalmente, a sobrecarga de tempo de execução do STATIC permanece extremamente baixa numa ampla gama de configurações práticas. Até onde sabemos, o STATIC permite a primeira implantação em escala de produção de recuperação generativa estritamente restrita. Além disso, a avaliação em benchmarks académicos demonstra que o STATIC pode melhorar consideravelmente o desempenho em cenários de *cold-start* para recuperação generativa. O nosso código está disponível em https://github.com/youtube/static-constraint-decoding.
Os modelos visão-linguagem (VLMs) alcançaram capacidades notáveis de compreensão e raciocínio multimodal, mas permanecem computacionalmente dispendiosos devido à tokenização visual densa. As abordagens de eficiência existentes ou fundem tokens visuais redundantes ou os descartam progressivamente no backbone linguístico, frequentemente trocando precisão por velocidade. Neste trabalho, propomos o DUET-VLM, uma estrutura de compressão dual versátil do tipo "plug-and-play" que consiste em (a) compressão apenas visual, com consciência de redundância, da saída do codificador visual em tokens que preservam informação, seguida por (b) descarte camada a camada, guiado por texto saliente, de tokens visuais dentro do backbone linguístico para podar progressivamente tokens menos informativos. Esta gestão coordenada de tokens permite uma compressão agressiva enquanto retém semântica crítica. No LLaVA-1.5-7B, nossa abordagem mantém mais de 99% da precisão da linha de base com 67% menos tokens, e ainda retém >97% mesmo com uma redução de 89%. Com esta compressão em dupla etapa durante o treinamento, atinge 99,7% de precisão a 67% e 97,6% a 89%, superando métodos anteriores do estado da arte para redução de tokens visuais em múltiplos benchmarks. Quando integrado no Video-LLaVA-7B, chega a superar a linha de base — alcançando >100% de precisão com uma substancial redução de 53,1% nos tokens e mantendo 97,6% de precisão sob uma configuração extrema de 93,4%. Estes resultados destacam o treinamento de fim a fim com o DUET-VLM, permitindo uma adaptação robusta a entradas visuais (imagem/vídeo) reduzidas sem sacrificar a precisão, produzindo representações compactas mas semanticamente ricas dentro do mesmo orçamento computacional. Nosso código está disponível em https://github.com/AMD-AGI/DUET-VLM.
Significativos progressos têm sido alcançados no campo dos Modelos de Edição de Imagem Baseados em Instruções (IIEMs, do inglês *Instruction-based Image Editing Models*). No entanto, embora esses modelos demonstrem uma aderência plausível às instruções e uma forte capacidade de raciocínio nos *benchmarks* atuais, a sua capacidade de editar objetos pequenos permanece pouco explorada, apesar da sua importância para uma edição local precisa e para o refino de detalhes em imagens reais e geradas. Neste artigo, apresentamos o *DeepLookEditBench* (DLEBench), o primeiro *benchmark* dedicado a avaliar as capacidades dos IIEMs na edição de objetos em pequena escala. Especificamente, construímos um banco de testes desafiador composto por 1889 amostras abrangendo sete tipos de instrução. Nestas amostras, os objetos-alvo ocupam apenas 1% a 10% da área da imagem, cobrindo cenários complexos, como oclusão parcial e edição multi-objeto. Para garantir uma avaliação robusta neste *benchmark*, propomos um protocolo de avaliação com critérios de pontuação refinados para minimizar a subjetividade e a ambiguidade em dois critérios: Seguimento da Instrução e Consistência Visual. Este protocolo introduz também uma estrutura de avaliação de modo duplo (Modo Orientado por Ferramenta e Modo Orientado por *Oracle*) que aborda o desalinhamento entre o julgamento por LMM (*Large Multimodal Model*) e os julgamentos humanos no DLEBench. Os resultados empíricos em 10 IIEMs revelam lacunas significativas de desempenho na edição de objetos em pequena escala, destacando a necessidade de *benchmarks* especializados para avançar esta capacidade.
A engenharia de contexto emergiu como um paradigma fundamental para desbloquear o potencial dos Modelos de Linguagem de Grande Escala (LLMs) em tarefas de Engenharia de Software (ES), permitindo ganhos de desempenho durante o teste sem a necessidade de ajuste fino do modelo. Apesar do seu sucesso, a pesquisa existente carece de uma taxonomia sistemática de tipos de contexto específicos para ES e de um benchmark dedicado para quantificar os efeitos heterogéneos de diferentes contextos nos fluxos de trabalho centrais de ES. Para colmatar esta lacuna, propomos o CL4SE (Context Learning for Software Engineering), um benchmark abrangente que apresenta uma taxonomia detalhada de quatro tipos de contexto orientados para ES (exemplos interpretáveis, contexto específico do projeto, contexto de tomada de decisão processual e contexto positivo e negativo), cada um mapeado para uma tarefa representativa (geração de código, sumarização de código, revisão de código e avaliação de correção de patches). Construímos conjuntos de dados de alta qualidade compreendendo mais de 13.000 amostras de mais de 30 projetos de código aberto e avaliamos cinco LLMs principais através de nove métricas. Experiências extensivas demonstram que a aprendizagem por contexto produz uma melhoria média de desempenho de 24,7% em todas as tarefas. Especificamente, o contexto processual aumenta o desempenho da revisão de código em até 33% (Qwen3-Max), o contexto misto positivo-negativo melhora a avaliação de patches em 30% (DeepSeek-V3), o contexto específico do projeto aumenta o BLEU da sumarização de código em 14,78% (GPT-Oss-120B), e os exemplos interpretáveis melhoram o PASS@1 da geração de código em 5,72% (DeepSeek-V3). O CL4SE estabelece o primeiro quadro de avaliação padronizado para a aprendizagem por contexto em ES, fornece informações empíricas acionáveis para o desenho de contexto específico por tarefa e disponibiliza um conjunto de dados em larga escala para facilitar a pesquisa reproduzível neste domínio.
O pós-treinamento por aprendizagem por reforço (RL) tem recentemente impulsionado ganhos significativos em modelos de linguagem grandes (LLMs) com raciocínio de cadeia longa de pensamento (chain-of-thought), mas o alto custo de inferência desses modelos motiva a sua destilação em estudantes menores. A maioria dos métodos existentes de destilação de conhecimento (KD) são projetados para ajuste fino supervisionado (SFT), dependendo de traços fixos do professor ou de regularização baseada na divergência de Kullback-Leibler (KL) entre professor e estudante. Quando combinadas com RL, essas abordagens frequentemente sofrem com desajuste de distribuição e interferência de objetivo: a supervisão do professor pode não estar alinhada com a distribuição evolutiva de *rollout* do estudante, e o regularizador de KL pode competir com a maximização de recompensa e exigir um balanceamento cuidadoso da função de perda. Para resolver essas questões, propomos a destilação consciente do RL (RLAD), que realiza imitação seletiva durante o RL — guiando o estudante em direção ao professor apenas quando isso melhora a atualização de política atual. Nosso componente central, a Destilação por Razão da Região de Confiança (TRRD), substitui o regularizador de KL professor-estudante por um objetivo de razão de verossimilhança no estilo PPO/GRPO ancorado a uma mistura professor-política-antiga, produzindo uma destilação consciente da vantagem e limitada pela região de confiança nos *rollouts* do estudante, e balanceando naturalmente a exploração, a exploração (*exploitation*) e a imitação. Em diversos benchmarks de raciocínio lógico e matemática, o RLAD supera consistentemente a destilação offline, o GRPO padrão e a destilação de conhecimento professor-estudante *on-policy* baseada em KL.
Embora os modelos de linguagem de grande porte (LLMs) contemporâneos sejam cada vez mais capazes de forma isolada, ainda existem muitos problemas complexos que estão além das habilidades de um único LLM. Para tais tarefas, ainda há incerteza sobre a melhor forma de considerar vários LLMs como partes e combiná-los em um todo maior. Este artigo de posição argumenta que potenciais modelos para projetar tais agentes de linguagem modulares podem ser encontrados na literatura existente sobre modelos cognitivos e algoritmos de inteligência artificial (IA). Para tornar este ponto claro, formalizamos a ideia de um *template* de agente que especifica funções para LLMs individuais e como suas funcionalidades devem ser compostas. Em seguida, examinamos uma variedade de agentes de linguagem existentes na literatura e destacamos seus *templates* subjacentes, derivados diretamente de modelos cognitivos ou algoritmos de IA. Ao destacar esses projetos, visamos chamar a atenção para *templates* de agentes inspirados na ciência cognitiva e na IA como uma ferramenta poderosa para desenvolver agentes de linguagem eficazes e interpretáveis.