Artigos de pesquisa em IA selecionados diariamente com traduções
Os grandes modelos de linguagem (LLMs) normalmente recebem diversos tipos de feedback em linguagem natural (NL) através da interação com o ambiente. No entanto, os algoritmos atuais de aprendizagem por reforço (RL) dependem exclusivamente de recompensas escalares, deixando as ricas informações contidas no feedback em NL subutilizadas e resultando em uma exploração ineficiente. Neste trabalho, propomos o GOLF, uma estrutura de RL que explora explicitamente o feedback linguístico em nível de grupo para orientar uma exploração direcionada por meio de refinamentos acionáveis. O GOLF agrega duas fontes complementares de feedback: (i) críticas externas que identificam erros ou propõem correções direcionadas, e (ii) tentativas intra-grupo que fornecem ideias parciais alternativas e diversos padrões de falha. Esses feedbacks em nível de grupo são agregados para produzir refinamentos de alta qualidade, que são injetados de forma adaptativa no treinamento como andaimes *off-policy* para fornecer orientação direcionada em regiões de recompensa esparsa. Enquanto isso, o GOLF otimiza conjuntamente a geração e o refinamento dentro de um ciclo unificado de RL, criando um ciclo virtuoso que melhora continuamente ambas as capacidades. Experimentos em benchmarks verificáveis e não verificáveis mostram que o GOLF alcança desempenho superior e eficiência de exploração, obtendo melhorias de 2,2 vezes na eficiência amostral em comparação com métodos de RL treinados apenas com recompensas escalares. O código está disponível em https://github.com/LuckyyySTA/GOLF.
Cada interação do agente gera um sinal de próximo estado, nomeadamente a resposta do usuário, a saída de ferramenta, a alteração de estado terminal ou da GUI que segue cada ação, contudo nenhum sistema RL agêntico existente o recupera como uma fonte de aprendizagem online e em tempo real. Apresentamos o OpenClaw-RL, uma estrutura baseada numa observação simples: os sinais de próximo estado são universais, e a política pode aprender com todos eles simultaneamente. Conversas pessoais, execuções de terminal, interações com GUI, tarefas de Engenharia de Software (SWE) e rastreios de chamadas de ferramentas não são problemas de treino separados. São todas interações que podem ser usadas para treinar a mesma política no mesmo ciclo. Os sinais de próximo estado codificam duas formas de informação: sinais avaliativos, que indicam quão bem a ação foi executada e são extraídos como recompensas escalares através de um juiz PRM (Reward Model); e sinais diretivos, que indicam como a ação deveria ter sido diferente e são recuperados através da Destilação On-Policy Guiada por Retrospetiva (Hindsight-Guided On-Policy Distillation - OPD). Extraímos pistas textuais do próximo estado, construímos um contexto de professor aprimorado e fornecemos supervisão direcional a nível de token que é mais rica do que qualquer recompensa escalar. Devido ao design assíncrono, o modelo serve pedidos em tempo real, o PRM julga interações em curso e o treinador atualiza a política ao mesmo tempo, com sobrecarga de coordenação zero entre eles. Aplicado a agentes pessoais, o OpenClaw-RL permite que um agente melhore simplesmente por ser usado, recuperando sinais conversacionais de novas consultas do usuário, correções e feedback explícito. Aplicado a agentes gerais, a mesma infraestrutura suporta RL escalável em ambientes de terminal, GUI, SWE e chamadas de ferramentas, onde demonstramos adicionalmente a utilidade das recompensas de processo. Código: https://github.com/Gen-Verse/OpenClaw-RL
O k-means tem sido historicamente posicionado principalmente como um primitivo de processamento offline, tipicamente utilizado para organização de conjuntos de dados ou pré-processamento de *embeddings*, em vez de um componente de primeira classe em sistemas online. Neste trabalho, revisitamos este algoritmo clássico sob a ótica do projeto moderno de sistemas de IA e capacitamos o k-means como um primitivo online. Salientamos que as implementações existentes de k-means para GPU permanecem fundamentalmente limitadas por restrições de baixo nível do sistema, e não pela complexidade algorítmica teórica. Especificamente, a etapa de atribuição sofre de um severo gargalo de E/S devido à massiva materialização explícita da matriz de distâncias N vezes K na Memória de Alta Largura de Banda (HBM). Simultaneamente, a etapa de atualização de centróides é fortemente penalizada pela contenção de escritas atômicas a nível de *hardware*, causada por agregações de *tokens* irregulares, do tipo *scatter*. Para superar esta lacuna de desempenho, propomos o *flash-kmeans*, uma implementação de k-means consciente da E/S e livre de contenção para cargas de trabalho modernas em GPU. O *flash-kmeans* introduz duas inovações centrais a nível de *kernel*: (1) *FlashAssign*, que funde o cálculo da distância com um *argmin* online para contornar completamente a materialização intermediária na memória; (2) atualização por inversão e ordenação (*sort-inverse update*), que constrói explicitamente um mapeamento inverso para transformar operações de *scatter* atômicas de alta contenção em reduções localizadas a nível de segmento, de alta largura de banda. Adicionalmente, integramos co-projetos de algoritmo e sistema, incluindo sobreposição de *stream* em blocos (*chunked-stream overlap*) e heurísticas de compilação conscientes da *cache*, para garantir a implantabilidade prática. Avaliações extensivas em GPUs NVIDIA H200 demonstram que o *flash-kmeans* até 17,9 vezes de aceleração de ponta a ponta em relação às melhores *baselines*, superando também bibliotecas padrão da indústria como cuML e FAISS em 33 vezes e mais de 200 vezes, respetivamente.
Os incorporadores de texto baseados em LLM normalmente codificam o conteúdo semântico de sua entrada. No entanto, tarefas de incorporação exigem o mapeamento de entradas diversas para saídas semelhantes. Tipicamente, essa relação entrada-saída é abordada treinando modelos de incorporação com dados pareados usando aprendizado contrastivo. Neste trabalho, propomos uma nova abordagem auto-supervisionada, LLM2Vec-Gen, que adota um paradigma diferente: em vez de codificar a entrada, aprendemos a representar a resposta potencial do modelo. Especificamente, adicionamos tokens especiais treináveis ao vocabulário do LLM, os anexamos à entrada e os otimizamos para representar a resposta do LLM em uma sequência de comprimento fixo. O treinamento é orientado pela própria conclusão do LLM para a consulta, juntamente com um professor de incorporação não supervisionado que fornece alvos de destilação. Esta formulação ajuda a preencher a lacuna entrada-saída e transfere capacidades do LLM, como alinhamento de segurança e raciocínio, para tarefas de incorporação. Crucialmente, a espinha dorsal do LLM permanece congelada e o treinamento requer apenas consultas não rotuladas. O LLM2Vec-Gen atinge desempenho auto-supervisionado state-of-the-art no Massive Text Embedding Benchmark (MTEB), melhorando em 9,3% em relação ao melhor professor de incorporação não supervisionado. Também observamos uma redução de até 43,2% na recuperação de conteúdo prejudicial e uma melhoria de 29,3% nas capacidades de raciocínio para tarefas de incorporação. Finalmente, as incorporações aprendidas são interpretáveis e podem ser decodificadas em texto para revelar seu conteúdo semântico.
Embora os grandes modelos de linguagem (LLMs) demonstrem fortes capacidades de raciocínio, o seu desempenho em tarefas complexas é frequentemente limitado pelas restrições do seu conhecimento interno. Uma abordagem convincente para superar este desafio é aumentar estes modelos com ferramentas externas — como interpretadores de Python para cálculos matemáticos ou motores de busca para recuperar informação factual. No entanto, permitir que os modelos utilizem estas ferramentas de forma eficaz continua a ser um desafio significativo. Os métodos existentes baseiam-se normalmente em *pipelines* de arranque a frio que começam com o ajuste fino supervisionado (SFT), seguido de aprendizagem por reforço (RL). Estas abordagens requerem frequentemente quantidades substanciais de dados rotulados para o SFT, que são dispendiosos de anotar ou sintetizar. Neste trabalho, propomos a Aprendizagem por Reforço em Contexto (ICRL), um framework baseado apenas em RL que elimina a necessidade de SFT, aproveitando a elicitação por poucos exemplos (*few-shot prompting*) durante a fase de implementação (*rollout*) do RL. Especificamente, a ICRL introduz exemplos em contexto nos *prompts* de *rollout* para ensinar o modelo a invocar ferramentas externas. Além disso, à medida que o treino progride, o número de exemplos em contexto é gradualmente reduzido, atingindo eventualmente um cenário de zero exemplos (*zero-shot*), onde o modelo aprende a chamar ferramentas de forma independente. Realizamos experiências extensas numa variedade de benchmarks de raciocínio e uso de ferramentas. Os resultados mostram que a ICRL atinge um desempenho de última geração, demonstrando a sua eficácia como uma alternativa escalável e eficiente em dados aos *pipelines* tradicionais baseados em SFT.
À medida que os modelos corporificados se tornam mais poderosos, os humanos colaborarão com múltiplos agentes de IA corporificados em seus locais de trabalho ou residências no futuro. Para garantir uma comunicação mais eficiente entre os utilizadores humanos e o sistema multiagente, é crucial interpretar as informações recebidas dos agentes em paralelo e referir-se ao contexto apropriado para cada consulta. Os desafios existentes incluem comprimir e comunicar eficazmente grandes volumes de dados sensoriais individuais sob a forma de vídeo e agregar corretamente múltiplos vídeos egocêntricos para construir uma memória a nível de sistema. Neste trabalho, definimos primeiro formalmente um novo problema de compreensão de múltiplos vídeos egocêntricos de longo horizonte recolhidos simultaneamente a partir de agentes corporificados. Para facilitar a investigação nesta direção, introduzimos o MultiAgent-EgoQA (MA-EgoQA), um benchmark concebido para avaliar sistemicamente os modelos existentes no nosso cenário. O MA-EgoQA fornece 1,7 mil questões exclusivas para múltiplos fluxos egocêntricos, abrangendo cinco categorias: interação social, coordenação de tarefas, teoria da mente, raciocínio temporal e interação ambiental. Propomos ainda um modelo de base simples para o MA-EgoQA denominado EgoMAS, que aproveita a memória partilhada entre agentes corporificados e a recuperação dinâmica por agente. Através de uma avaliação abrangente de diversas linhas de base e do EgoMAS no MA-EgoQA, constatamos que as abordagens atuais não conseguem lidar eficazmente com múltiplos fluxos egocêntricos, destacando a necessidade de avanços futuros na compreensão a nível de sistema entre os agentes. O código e o benchmark estão disponíveis em https://ma-egoqa.github.io.
Os adaptadores de baixo posto (LoRAs) são uma técnica de ajuste fino com eficiência de parâmetros que injeta matrizes de baixo posto treináveis em modelos pré-treinados para adaptá-los a novas tarefas. Os modelos de Mistura-de-LoRAs expandem redes neurais de forma eficiente ao rotear cada entrada de camada para um pequeno subconjunto de LoRAs especializados da camada. Os roteadores de Mistura-de-LoRAs existentes atribuem um peso de roteamento aprendido a cada LoRA para permitir o treinamento end-to-end do roteador. Apesar de seu potencial empírico, observamos que os pesos de roteamento são tipicamente extremamente desbalanceados entre os LoRAs na prática, onde frequentemente apenas um ou dois LoRAs dominam os pesos de roteamento. Isso essencialmente limita o número de LoRAs efetivos e, portanto, prejudica severamente o poder expressivo dos modelos existentes de Mistura-de-LoRAs. Neste trabalho, atribuímos essa fraqueza à natureza dos pesos de roteamento aprendíveis e repensamos o design fundamental do roteador. Para abordar essa questão crítica, propomos um novo design de roteador que chamamos de Roteamento por Reforço para Mistura-de-LoRAs (ReMix). Nossa ideia central é usar pesos de roteamento não aprendíveis para garantir que todos os LoRAs ativos sejam igualmente efetivos, sem que nenhum LoRA domine os pesos de roteamento. No entanto, nossos roteadores não podem ser treinados diretamente via gradiente descendente devido aos nossos pesos de roteamento não aprendíveis. Por isso, propomos ainda um estimador de gradiente não enviesado para o roteador empregando a técnica de reforço leave-one-out (RLOO), onde consideramos a perda de supervisão como recompensa e o roteador como a política no aprendizado por reforço. Nosso estimador de gradiente também permite escalar o poder computacional de treinamento para impulsionar o desempenho preditivo do nosso ReMix. Experimentos extensivos demonstram que nosso ReMix proposto supera significativamente os métodos state-of-the-art de ajuste fino com eficiência de parâmetros sob um número comparável de parâmetros ativados.
Os LLMs que operam em contextos dinâmicos do mundo real frequentemente encontram conhecimentos que evoluem continuamente ou surgem de forma incremental. Para permanecerem precisos e eficazes, os modelos devem adaptar-se dinamicamente a novas informações que chegam em tempo real. Apresentamos a Adaptação Online a Fluxos Contínuos de Conhecimento (OAKS) para avaliar essa capacidade, estabelecendo um benchmark para adaptação online sobre conhecimentos em fluxo e atualização contínua. Especificamente, o benchmark é estruturado como uma sequência de fragmentos contextuais de granularidade fina, nos quais os fatos mudam dinamicamente ao longo de intervalos de tempo. O OAKS compreende dois conjuntos de dados: OAKS-BABI e OAKS-Novel, nos quais fatos individuais evoluem múltiplas vezes entre os fragmentos contextuais. Esses conjuntos incluem anotações densas para medir se os modelos rastreiam as alterações com precisão. Ao avaliar 14 modelos com diferentes abordagens de inferência, observamos limitações significativas nas metodologias atuais. Tanto os modelos de última geração quanto os sistemas de memória agentiva falham em adaptar-se de forma robusta no OAKS, demonstrando atrasos no rastreamento de estado e suscetibilidade a distrações dentro de ambientes de fluxo contínuo.
Os métodos existentes de personalização de vídeo preservam a semelhança visual, mas tratam o vídeo e o áudio separadamente. Sem acesso à cena visual, os modelos de áudio não conseguem sincronizar os sons com as ações na tela; e como os modelos clássicos de clonagem de voz são condicionados apenas por uma gravação de referência, um prompt de texto não pode redirecionar o estilo de fala ou o ambiente acústico. Propomos o ID-LoRA (Identity-Driven In-Context LoRA), que gera conjuntamente a aparência e a voz de um sujeito em um único modelo, permitindo que um prompt de texto, uma imagem de referência e um clipe de áudio curto governem ambas as modalidades em conjunto. O ID-LoRA adapta a espinha dorsal de difusão conjunta áudio-vídeo LTX-2 por meio de um LoRA In-Context com eficiência de parâmetros e, até onde sabemos, é o primeiro método a personalizar a aparência visual e a voz em uma única passagem gerativa. Dois desafios surgem. Os tokens de referência e de geração compartilham o mesmo espaço de codificação posicional, dificultando sua distinção; resolvemos isso com posições temporais negativas, posicionando os tokens de referência em uma região RoPE disjunta, preservando sua estrutura temporal interna. As características do locutor também tendem a ser diluídas durante a desruídos; introduzimos o guiamento de identidade, uma variante de guiamento livre de classificador que amplifica características específicas do locutor ao contrastar previsões com e sem o sinal de referência. Em estudos de preferência humana, o ID-LoRA foi preferido em relação ao Kling 2.6 Pro por 73% dos anotadores quanto à similaridade de voz e por 65% quanto ao estilo de fala. Em configurações de ambiente cruzado, a similaridade do locutor melhora 24% em relação ao Kling, com a diferença aumentando à medida que as condições divergem. Um estudo de usuário preliminar sugere ainda que a geração conjunta fornece um viés indutivo útil para a síntese de sons fisicamente fundamentados. O ID-LoRA alcança esses resultados com apenas ~3K pares de treinamento em uma única GPU. Código, modelos e dados serão liberados.
Os Transformadores de Difusão (DiTs) tornaram-se uma arquitetura fundamental para geração de vídeo, mas seu custo quadrático de atenção permanece um grande gargalo. A atenção esparsa reduz esse custo ao calcular apenas um subconjunto de blocos de atenção. No entanto, métodos anteriores frequentemente descartam os blocos restantes – o que causa perda de informação – ou dependem de preditores treinados para aproximá-los, introduzindo sobrecarga de treinamento e possíveis desvios na distribuição de saída. Neste artigo, demonstramos que as contribuições ausentes podem ser recuperadas sem treinamento: após o agrupamento semântico, as chaves e valores dentro de cada bloco exibem forte similaridade e podem ser bem resumidos por um pequeno conjunto de centróides de cluster. Com base nessa observação, introduzimos o SVG-EAR, um ramo de compensação linear sem parâmetros que usa o centróide para aproximar blocos ignorados e recuperar suas contribuições. Embora a compensação por centróide seja precisa para a maioria dos blocos, ela pode falhar em um pequeno subconjunto. A esparsificação padrão normalmente seleciona blocos por escores de atenção, que indicam onde o modelo concentra sua massa de atenção, mas não onde o erro de aproximação seria maior. Portanto, o SVG-EAR realiza um roteamento consciente do erro: uma sonda leve estima o erro de compensação para cada bloco, e nós calculamos exatamente os blocos com maior relação erro-custo enquanto compensamos os blocos ignorados. Fornecemos garantias teóricas que relacionam o erro de reconstrução de atenção à qualidade do agrupamento e empiricamente mostramos que o SVG-EAR melhora o compromisso qualidade-eficiência e aumenta a taxa de transferência com a mesma fidelidade de geração em tarefas de difusão de vídeo. No geral, o SVG-EAR estabelece uma fronteira de Pareto clara sobre abordagens anteriores, alcançando acelerações de até 1,77× e 1,93× enquanto mantém PSNRs de até 29,759 e 31,043 em Wan2.2 e HunyuanVideo, respectivamente.
Quando os MLLMs falham no raciocínio visual em Ciência, Tecnologia, Engenharia e Matemática (STEM), surge uma questão fundamental: isso se deve a deficiências perceptivas ou limitações de raciocínio? Através de uma análise sistemática de escalonamento que dimensiona independentemente os componentes de percepção e raciocínio, descobrimos um insight crítico: escalonar a percepção supera consistentemente o escalonamento do raciocínio. Isso revela a percepção como o verdadeiro limitador do atual raciocínio visual em STEM. Motivados por essa descoberta, nosso trabalho foca no aprimoramento sistemático das capacidades perceptivas dos MLLMs, estabelecendo o código como um meio perceptual poderoso – o código executável fornece semântica precisa que se alinha naturalmente com a natureza estruturada dos visuais STEM. Especificamente, construímos o ICC-1M, um conjunto de dados em larga escala composto por 1 milhão de triplas Imagem-Legenda-Código que materializa este paradigma de código-como-percepção através de duas abordagens complementares: (1) A Geração de Legendas com Base em Código trata o código executável como verdade fundamental para legendas de imagens, eliminando as alucinações inerentes aos métodos existentes de destilação de conhecimento; (2) A Tradução de Imagens STEM para Código solicita que os modelos gerem código de reconstrução, mitigando a ambiguidade da linguagem natural para o aprimoramento perceptual. Para validar este paradigma, introduzimos ainda o STEM2Code-Eval, um novo benchmark que avalia diretamente a percepção visual em domínios STEM. Diferente dos trabalhos existentes que dependem da precisão na resolução de problemas como proxy – que mede apenas a compreensão relevante para o problema –, nosso benchmark exige compreensão visual abrangente através da geração de código executável para reconstrução de imagens, proporcionando uma avaliação determinística e verificável. O código está disponível em https://github.com/TongkunGuan/Qwen-CodePercept.
Agentes baseados em grandes modelos de linguagem (LLM) treinados com aprendizado por reforço (RL) demonstraram forte potencial em tarefas interativas complexas. No entanto, os paradigmas padrão de RL favorecem a resolução estática de problemas em detrimento da adaptação contínua: os agentes frequentemente convergem para estratégias subótimas devido à exploração insuficiente, enquanto o conhecimento aprendido permanece implícito nos parâmetros em vez de ser explicitamente recuperável, limitando a aprendizagem experiencial eficaz. Para enfrentar essas limitações, apresentamos o RetroAgent, um framework de RL online que capacita os agentes a dominar ambientes interativos complexos não apenas resolvendo, mas evoluindo. Concretamente, o RetroAgent apresenta um mecanismo de autorreflexão retrospectiva (*hindsight self-reflection*) que produz *feedback* intrínseco dual: (1) *feedback* numérico intrínseco que rastreia a conclusão incremental de subtarefas em relação a tentativas anteriores, recompensando explorações promissoras, e (2) *feedback* linguístico intrínseco que destila lições reutilizáveis em um *buffer* de memória, recuperado através da nossa estratégia proposta de Limite Superior de Confiança com Consciência de Similaridade e Utilidade (SimUtil-UCB), que equilibra relevância, utilidade e exploração para alavancar experiências passadas de forma eficaz. Experimentos extensos em duas famílias de modelos e quatro tarefas agentivas desafiadoras demonstram que o RetroAgent supera significativamente os métodos existentes, alcançando resultados de última geração – por exemplo, superando agentes treinados com Otimização de Política Relativa de Grupo (GRPO) em +18,3% no ALFWorld, +15,4% no WebShop, +27,1% no Sokoban e +8,9% no MineSweeper – enquanto exibe forte adaptação em tempo de teste e generalização para cenários fora da distribuição (*out-of-distribution*).
A realce de prompt orienta um modelo de linguagem de grande escala a priorizar trechos de texto especificados pelo utilizador durante a geração. Um desafio fundamental é extrair direções de orientação que capturem a diferença entre contextos relevantes e irrelevantes, em vez de padrões estruturais comuns a ambos. Propomos o PRISM-Δ (Método de Orientação com Informação de Relevância baseado em Projeção), que decompõe a diferença entre matrizes de covariância cruzada positivas e negativas para maximizar a energia discriminativa, eliminando ao mesmo tempo as direções partilhadas. Cada cabeça de atenção recebe um peso de importância contínuo softplus, permitindo que cabeças fracas, mas úteis, contribuam com força reduzida. O quadro estende-se naturalmente às representações de Valor, capturando o sinal do canal de conteúdo que os métodos baseados apenas em Chave deixam por utilizar. Em quatro benchmarks e cinco modelos, o PRISM-Δ iguala ou supera o melhor método existente em 19 de 20 configurações, com ganhos relativos de até +10,6%, enquanto reduz para metade o custo de fluência da orientação. O PRISM-Δ também escala para recuperação de contexto longo, superando o melhor método existente com um ganho relativo de até +4,8%. O PRISM-Δ é compatível com FlashAttention e adiciona uma sobrecarga de memória negligenciável.
A última camada dos modelos de linguagem neural (LMs) projeta as características de saída de dimensão D para logits em dimensão V, o tamanho do vocabulário, onde geralmente D << V. Sabe-se que esta discrepância aumenta os riscos de expressividade limitada nos LMs neurais, criando um chamado gargalo da softmax. Demonstramos que o gargalo da softmax não é apenas um gargalo de expressividade, mas também um gargalo de otimização. A retropropagação de gradientes V-dimensionais através de uma camada linear de posto D induz uma compressão inevitável, que altera o *feedback* de treinamento fornecido à vasta maioria dos parâmetros. Apresentamos uma análise teórica deste fenômeno e medimos empiricamente que 95-99% da norma do gradiente é suprimida pela camada de saída, resultando em direções de atualização vastamente subótimas. Realizamos experiências controladas de pré-treinamento que mostram que o gargalo do gradiente torna padrões triviais inaprendíveis e afeta drasticamente a dinâmica de treinamento dos LLMs. Argumentamos que esta falha inerente contribui para ineficiências de treinamento em escala, independentemente da arquitetura do modelo, e levanta a necessidade de novos projetos para a camada final (head) dos LMs.
No Aprendizado por Reforço com Recompensas Verificáveis (RLVR), a construção de uma linha de base de vantagem robusta é crucial para os gradientes de política, orientando efetivamente o modelo de política a reforçar comportamentos desejados. Pesquisas recentes introduziram Modelos de Valor Generalistas (como o V_0), que alcançam estimativas de valor pré-treinadas codificando explicitamente as capacidades do modelo em contexto, eliminando a necessidade de atualizar o modelo de valor sincronamente com o modelo de política. Neste artigo, propomos o V_{0,5}, que funde adaptativamente a linha de base prevista por tal modelo de valor (atuando como um prior) com a média empírica derivada de rollouts esparsos. Isso constrói uma linha de base robusta que equilibra eficiência computacional com variância extremamente baixa. Especificamente, introduzimos um teste estatístico em tempo real e uma alocação dinâmica de orçamento. Isso equilibra a alta variância causada pela amostragem esparsa com o viés sistemático (ou alucinações) inerente ao prior do modelo de valor. Ao construir um teste de hipótese para avaliar a confiabilidade do prior em tempo real, o sistema aloca dinamicamente um orçamento adicional de rollouts sob demanda. Este mecanismo minimiza o Erro Quadrático Médio (EQM) do estimador de linha de base, garantindo gradientes de política estáveis, mesmo sob extrema esparsidade com um tamanho de grupo de 4. Extensivas avaliações em seis benchmarks de raciocínio matemático demonstram que o V_{0,5} supera significativamente o GRPO e o DAPO, alcançando convergência mais rápida e uma melhoria de desempenho de aproximadamente 10%.
Os Transformers de Difusão estabeleceram um novo estado da arte na síntese de imagens, mas o alto custo computacional da amostragem iterativa prejudica severamente sua implantação prática. Embora os métodos de aceleração existentes frequentemente se concentrem no domínio temporal, eles negligenciam a substancial redundância espacial inerente ao processo generativo, onde estruturas globais emergem muito antes que os detalhes refinados sejam formados. O tratamento computacional uniforme de todas as regiões espaciais representa uma ineficiência crítica. Neste artigo, introduzimos o Just-in-Time (JiT), uma nova estrutura livre de treinamento que aborda este desafio através da aceleração no domínio espacial. O JiT formula uma equação diferencial ordinária (EDO) generativa com aproximação espacial que conduz a evolução completa do estado latente com base em computações a partir de um subconjunto esparso e dinamicamente selecionado de tokens âncora. Para garantir transições perfeitas à medida que novos tokens são incorporados para expandir as dimensões do estado latente, propomos um micro-fluxo determinístico, uma EDO de tempo finito simples e eficaz que mantém tanto a coerência estrutural quanto a correção estatística. Experimentos extensivos no modelo de última geração FLUX.1-dev demonstram que o JiT alcança uma aceleração de até 7x com desempenho quase sem perdas, superando significativamente os métodos de aceleração existentes e estabelecendo um novo e superior equilíbrio entre a velocidade de inferência e a fidelidade da geração.
Os grandes modelos de linguagem (LLMs) são cada vez mais utilizados em todo o fluxo de trabalho científico, inclusive para redigir relatórios de revisão por pares. No entanto, muitas análises geradas por IA são superficiais e insuficientemente acionáveis, deixando os autores sem orientação concreta e implementável, o que motiva a lacuna que este trabalho aborda. Propomos o RbtAct, que tem como objetivo a geração de *feedback* de revisão acionável e coloca a réplica (*rebuttal*) existente da revisão por pares no centro da aprendizagem. As réplicas mostram quais comentários dos revisores levaram a revisões concretas ou planos específicos e quais foram apenas defendidos. Com base nessa perceção, aproveitamos a réplica como supervisão implícita para otimizar diretamente um gerador de *feedback* quanto à sua acionabilidade. Para apoiar este objetivo, propomos uma nova tarefa denominada geração de *feedback* de revisão ao nível do segmento condicionada à perspetiva, na qual o modelo é obrigado a produzir um único comentário focado com base no artigo completo e numa perspetiva especificada, como experiências e redação. Também construímos um grande conjunto de dados denominado RMR-75K que mapeia segmentos de revisão para os segmentos de réplica que os abordam, com etiquetas de perspetiva e categorias de impacto que ordenam a adoção pelo autor. Em seguida, treinámos o modelo Llama-3.1-8B-Instruct com afinação supervisionada em segmentos de revisão, seguida de otimização de preferência usando pares derivados de réplicas. Experiências com especialistas humanos e LLM-como-juiz mostram ganhos consistentes em acionabilidade e especificidade em relação a *baselines* fortes, mantendo ao mesmo tempo o enraizamento e a relevância.
Os assistentes de IA personalizados devem recordar e raciocinar sobre memórias de longo prazo do usuário, que naturalmente abrangem múltiplas modalidades e fontes, como imagens, vídeos e e-mails. No entanto, os benchmarks existentes de Memória de Longo Prazo concentram-se principalmente no histórico de diálogo, falhando em capturar referências personalizadas realistas fundamentadas na experiência vivida. Apresentamos o ATM-Bench, o primeiro benchmark para QA de Memória Referencial Personalizada multimodal e multifonte. O ATM-Bench contém aproximadamente quatro anos de dados de memória pessoal com preservação de privacidade e pares de perguntas-respostas anotados manualmente com evidências de memória de referência, incluindo consultas que exigem a resolução de referências pessoais, raciocínio com múltiplas evidências de múltiplas fontes e o tratamento de evidências conflitantes. Propomos o Schema-Guided Memory (SGM) para representar estruturalmente itens de memória originados de diferentes fontes. Nos experimentos, implementamos 5 sistemas de memória state-of-the-art juntamente com uma linha de base RAG padrão e avaliamos variantes com diferentes técnicas de ingestão, recuperação e geração de respostas de memória. Constatamos baixo desempenho (menos de 20% de precisão) no conjunto ATM-Bench-Hard e que o SGM melhora o desempenho em relação à Memória Descritiva comumente adotada em trabalhos anteriores. Código disponível em: https://github.com/JingbiaoMei/ATM-Bench
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) avançou significativamente a capacidade de raciocínio dos Modelos de Linguagem de Grande Porte (LLMs). No entanto, o RLVR depende exclusivamente de respostas finais como recompensas de resultado, negligenciando a correção das etapas de raciocínio intermediárias. O treinamento com base nestas execuções (rollouts) de processo incorreto, mas resultado correto, pode levar a alucinações e cópia de respostas, prejudicando gravemente a generalização e a robustez do modelo. Para resolver isso, incorporamos um mecanismo de Aprendizado Contrastivo na Otimização de Políticas (CLIPO) para generalizar o processo RLVR. Ao otimizar uma função de perda contrastiva sobre execuções bem-sucedidas, o CLIPO orienta o LLM a capturar a estrutura invariante compartilhada entre os caminhos de raciocínio corretos. Isso fornece uma regularização mais robusta entre trajetórias do que a supervisão de caminho único original no RLVR, mitigando efetivamente inconsistências no raciocínio a nível de etapa e suprimindo artefatos alucinatórios. Em experimentos, o CLIPO melhorou consistentemente várias linhas de base do RLVR em diversos benchmarks de raciocínio, demonstrando melhorias uniformes na generalização e robustez para a otimização de políticas de LLMs. Nosso código e receitas de treinamento estão disponíveis em https://github.com/Qwen-Applications/CLIPO.
Os agentes de Large Language Model (LLM) frequentemente enfrentam desafios significativos de atribuição de crédito em tarefas de longo horizonte e múltiplas etapas devido a recompensas esparsas. Métodos existentes livres de valor, como o Group Relative Policy Optimization (GRPO), encontram dois gargalos fundamentais: estimativa imprecisa de valores-Q a nível de etapa e linhas de base de valor desalinhadas para estados intermediários. Para superar essas limitações, introduzimos o HCAPO, o primeiro framework a integrar a atribuição de crédito hindsight em agentes LLM. O HCAPO aproveita o próprio LLM como um crítico post-hoc para refinar os valores-Q a nível de etapa através do raciocínio hindsight. Além disso, o mecanismo de vantagem multi-escala do HCAPO suplementa eficazmente as linhas de base de valor imprecisas em estados de decisão críticos. Avaliações em três benchmarks desafiadores, incluindo WebShop e ALFWorld, demonstram que o HCAPO supera consistentemente os métodos state-of-the-art de RL. Notavelmente, o HCAPO alcança uma melhoria de 7,7% na taxa de sucesso no WebShop e 13,8% no ALFWorld em relação ao GRPO usando o modelo Qwen2.5-7B-Instruct. Estes resultados indicam que o HCAPO melhora significativamente a eficiência da exploração, promove uma tomada de decisão concisa e garante escalabilidade em tarefas complexas de longo horizonte.
Os modelos de linguagem grandes multimodais (MM-LLMs) têm demonstrado forte desempenho na compreensão de imagens médicas e no raciocínio clínico. Sistemas agentes médicos recentes estendem-nos com uso de ferramentas e colaboração multiagente, permitindo tomadas de decisão complexas. No entanto, estes sistemas dependem quase inteiramente de modelos de fronteira (por exemplo, GPT), cuja implementação baseada em API acarreta alto custo, alta latência e riscos de privacidade que conflituam com os requisitos clínicos de implantação local. Apresentamos Meissa, um MM-LLM médico leve com 4B de parâmetros que traz capacidade agentiva para ambiente offline. Em vez de imitar respostas estáticas, o Meissa aprende tanto quando deve iniciar interação externa (seleção de estratégia) como como executar interação multi-etapas (execução de estratégia) através da destilação de trajetórias estruturadas de modelos de fronteira. Especificamente, propomos: (1) Modelação unificada de trajetórias: as trajetórias (vestígios de raciocínio e ação) são representadas dentro de um único formalismo estado-ação-observação, permitindo que um modelo generalize em ambientes médicos heterogéneos. (2) Supervisão estratificada de três níveis: os próprios erros do modelo desencadeiam uma escalada progressiva do raciocínio direto para a interação aumentada por ferramentas e multiagente, aprendendo explicitamente uma seleção de estratégia consciente da dificuldade. (3) Supervisão prospetiva-retrospetiva: o emparelhamento de vestígios exploratórios prospectivos com vestígios de execução racionalizados a posteriori permite uma aprendizagem estável de políticas de interação eficazes. Treinado em 40K trajetórias curadas, o Meissa iguala ou excede agentes de fronteira proprietários em 10 de 16 cenários de avaliação em 13 benchmarks médicos abrangendo radiologia, patologia e raciocínio clínico. Utilizando mais de 25x menos parâmetros do que modelos de fronteira típicos como o Gemini-3, o Meissa opera totalmente offline com uma latência fim-a-fim 22x menor em comparação com a implementação baseada em API. Dados, modelos e ambientes são disponibilizados em https://github.com/Schuture/Meissa.
Propomos um sistema de IA totalmente automatizado que produz vídeos cômicos curtos semelhantes a programas de esquetes humorísticos como Saturday Night Live. Partindo de referências de personagens, o sistema emprega uma população de agentes vagamente baseada em funções reais de estúdio de produção, estruturada para otimizar a qualidade e a diversidade de ideias e resultados por meio de competição iterativa, avaliação e aprimoramento. Uma contribuição fundamental é a introdução de críticos baseados em Modelos de Linguagem de Grande Escala (LLM) alinhados com as preferências reais do público, por meio da análise de um corpus de vídeos de comédia no YouTube para avaliar automaticamente o humor. Nossos experimentos demonstram que nossa estrutura produz resultados que se aproximam da qualidade de esquetes produzidos profissionalmente, ao mesmo tempo que apresenta desempenho de ponta na geração de vídeos.
Os modelos multimodais unificados atuais geralmente dependem de tokenizadores visuais discretos para preencher a lacuna de modalidade. No entanto, a discretização descarta inevitavelmente informações semânticas refinadas, levando a um desempenho abaixo do ideal em tarefas de compreensão visual. Por outro lado, modelar diretamente representações semânticas contínuas (por exemplo, CLIP, SigLIP) impõe desafios significativos na modelagem generativa de alta dimensionalidade, resultando em convergência lenta e instabilidade no treinamento. Para resolver esse dilema, introduzimos o UniCom, uma estrutura unificada que harmoniza a compreensão e a geração multimodal por meio de representação contínua comprimida. Demonstramos empiricamente que reduzir a dimensão do canal é significativamente mais eficaz do que a redução de amostragem espacial para reconstrução e geração. Consequentemente, projetamos um compressor semântico baseado em atenção para destilar características densas em uma representação unificada compacta. Além disso, validamos que a arquitetura de transfusão supera projetos baseados em consultas em convergência e consistência. Experimentos demonstram que o UniCom alcança desempenho de geração state-of-the-art entre modelos unificados. Notavelmente, ao preservar ricos prévios semânticos, oferece uma controlabilidade excepcional na edição de imagens e mantém a consistência da imagem mesmo sem depender de VAE.
Os autoencoders esparsos podem localizar onde os conceitos residem em modelos de linguagem, mas não como eles interagem durante o raciocínio de múltiplos passos. Propomos os Grafos de Conceitos Causais (CCG): um grafo acíclico direcionado sobre características latentes esparsas e interpretáveis, onde as arestas capturam dependências causais aprendidas entre conceitos. Combinamos autoencoders esparsos condicionados por tarefas para descoberta de conceitos com aprendizado de estrutura diferenciável no estilo DAGMA para recuperação do grafo e introduzimos o Escore de Fidelidade Causal (CFS) para avaliar se intervenções guiadas pelo grafo induzem maiores efeitos a jusante do que intervenções aleatórias. No ARC-Challenge, StrategyQA e LogiQA com GPT-2 Medium, em cinco seeds (n=15 execuções pareadas), o CCG alcança CFS=5.654±0.625, superando o rastreamento no estilo ROME (3.382±0.233), o ranqueamento apenas com SAE (2.479±0.196) e uma linha de base aleatória (1.032±0.034), com p<0.0001 após correção de Bonferroni. Os grafos aprendidos são esparsos (densidade de arestas de 5-6%), específicos do domínio e estáveis entre seeds.
A geração de música que se alinha temporalmente com eventos de vídeo é um desafio para os modelos existentes de texto-para-música, que carecem de controle temporal refinado. Apresentamos o V2M-Zero, uma abordagem de geração vídeo-para-música sem pares (zero-pair) que produz música temporalmente alinhada para vídeo. Nosso método é motivado por uma observação fundamental: a sincronização temporal requer a correspondência de *quando* e *quanto* a mudança ocorre, não *o que* muda. Embora os eventos musicais e visuais sejam semanticamente diferentes, eles exibem uma estrutura temporal compartilhada que pode ser capturada independentemente dentro de cada modalidade. Capturamos essa estrutura por meio de *curvas de evento* computadas a partir da similaridade intramodal usando codificadores de música e vídeo pré-treinados. Ao medir a mudança temporal dentro de cada modalidade de forma independente, essas curvas fornecem representações comparáveis entre as modalidades. Isso permite uma estratégia de treinamento simples: ajustar um modelo de texto-para-música em curvas de evento de música e, em seguida, substituí-las por curvas de evento de vídeo durante a inferência, sem a necessidade de treinamento multimodal cruzado ou dados emparelhados. Nos conjuntos OES-Pub, MovieGenBench-Music e AIST++, o V2M-Zero alcança ganhos substanciais em relação às linhas de base que usam dados emparelhados: qualidade de áudio 5-21% superior, alinhamento semântico 13-15% melhor, sincronização temporal 21-52% aprimorada e alinhamento de batida 28% superior em vídeos de dança. Encontramos resultados semelhantes por meio de um grande teste subjetivo de escuta com crowd-sourcing. No geral, nossos resultados validam que o alinhamento temporal por meio de características intramodais, em vez de supervisão multimodal cruzada com pares, é eficaz para a geração de vídeo-para-música. Os resultados estão disponíveis em https://genjib.github.io/v2m_zero/.
A estimação precisa e densa de profundidade é crucial para a percepção robótica, mas os sensores comerciais frequentemente produzem medições esparsas ou incompletas devido a limitações de hardware. Os métodos existentes de preenchimento de profundidade com fusão RGBD aprendem prévias condicionadas conjuntamente à distribuição RGB de treino e a padrões específicos de profundidade, limitando a generalização de domínio e a robustez a vários padrões de profundidade. Esforços recentes aproveitam modelos de estimação monoculares de profundidade (MDE) para introduzir prévias geométricas gerais de domínio, mas as estratégias de integração em duas etapas atuais, que dependem de um alinhamento explícito relativo-para-métrico, acarretam computação adicional e introduzem distorções estruturadas. Para isso, apresentamos o Any2Full, uma estrutura unificada (one-stage), geral de domínio e agnóstica a padrões, que reformula o preenchimento como uma adaptação por "scale-prompting" de um modelo MDE pré-treinado. Para lidar com os níveis variáveis de esparsidade de profundidade e distribuições espaciais irregulares, projetamos um Codificador de Prompt Consciente da Escala (Scale-Aware Prompt Encoder). Ele destila indícios de escala a partir de entradas esparsas em prompts de escala unificados, orientando o modelo MDE para previsões globalmente consistentes em escala, enquanto preserva suas prévias geométricas. Experimentos extensivos demonstram que o Any2Full alcança robustez e eficiência superiores. Ele supera o OMNI-DC em 32,2% na métrica AbsREL média e oferece uma aceleração de 1,4x em relação ao PriorDA com o mesmo backbone MDE, estabelecendo um novo paradigma para o preenchimento universal de profundidade. Códigos e checkpoints estão disponíveis em https://github.com/zhiyuandaily/Any2Full.
Avanços recentes em aprendizagem por reforço multiagente, particularmente os Oráculos de Resposta no Espaço de Políticas (PSRO), têm permitido o cálculo de equilíbrios aproximados da teoria dos jogos em domínios cada vez mais complexos. No entanto, estes métodos dependem de oráculos de aprendizagem por reforço profunda que produzem políticas de rede neural de 'caixa preta', tornando-as difíceis de interpretar, confiar ou depurar. Apresentamos os Oráculos de Resposta no Espaço de Código (CSRO), uma nova estrutura que aborda este desafio substituindo os oráculos de RL por Modelos de Linguagem de Grande Escala (LLMs). O CSRO reformula o cálculo da melhor resposta como uma tarefa de geração de código, solicitando que um LLM gere políticas diretamente como código legível por humanos. Esta abordagem não só produz políticas intrinsecamente interpretáveis, como também aproveita o conhecimento pré-treinado do LLM para descobrir estratégias complexas e semelhantes às humanas. Exploramos múltiplas formas de construir e melhorar um oráculo baseado em LLM: prompt de zero-shot, refinamento iterativo e AlphaEvolve, um sistema evolutivo distribuído baseado em LLM. Demonstramos que o CSRO atinge um desempenho competitivo com as linhas de base enquanto produz um conjunto diversificado de políticas explicáveis. O nosso trabalho apresenta uma nova perspetiva sobre a aprendizagem multiagente, deslocando o foco da otimização de parâmetros de política opacos para a síntese de comportamentos algorítmicos interpretáveis.
Modelos generativos de vídeo (VGMs) pré-treinados em dados massivos da internet podem produzir vídeos sequenciais temporalmente coerentes que capturam dinâmicas ricas de objetos, oferecendo uma base promissora para a manipulação robótica *zero-shot*. No entanto, os VGMs frequentemente produzem sequências fisicamente implausíveis, e a conversão do seu movimento no espaço de pixels em ações robóticas através de redirecionamento geométrico introduz ainda erros cumulativos provenientes de estimativa de profundidade e rastreamento de pontos-chave imperfeitos. Para enfrentar esses desafios, apresentamos o , uma estrutura *data-free* que alinha as saídas dos VGMs com restrições composicionais geradas por modelos de visão e linguagem (VLMs) no momento da inferência. A ideia central é que os VLMs oferecem uma capacidade complementar aos VGMs: o raciocínio espacial estruturado que pode identificar as restrições físicas críticas para o sucesso e a segurança da execução da manipulação. Dada uma instrução em linguagem natural, o utiliza um VLM para extrair automaticamente um conjunto de restrições composicionais que capturam requisitos específicos da tarefa, as quais são então aplicadas em dois estágios: (1) seleção de sequência guiada por restrições, que classifica e filtra um lote de sequências do VGM para reter o candidato mais fisicamente plausível, e (2) otimização de trajetória baseada em restrições, que usa a sequência selecionada como inicialização e refina a trajetória do robô sob o mesmo conjunto de restrições para corrigir erros de redirecionamento. Avaliamos o em seis tarefas de manipulação com robôs reais que exigem execução precisa e sensível a restrições, melhorando a taxa de sucesso geral em 43,3 pontos percentuais em relação à linha de base mais forte, sem qualquer dado de treinamento específico da tarefa.
Os Modelos de Linguagem Visual (VLMs) estabelecem uma ponte entre a percepção visual e o raciocínio linguístico. Na Condução Autónoma (AD), esta sinergia permitiu o desenvolvimento de modelos Visão-Linguagem-Ação (VLA), que traduzem a compreensão multimodal de alto nível em comportamentos de condução, tipicamente representados como trajetórias futuras. No entanto, os modelos VLA existentes geram principalmente trajetórias genéricas livres de colisões. Para além da evitabilidade de colisões, a adaptação a diversos estilos de condução (ex.: desportivo, confortável) é essencial para uma condução personalizada. Adicionalmente, muitos métodos tratam a geração de trajetórias como uma previsão ingénua de tokens, o que pode produzir ações cinematicamente inviáveis. Para superar estas limitações, apresentamos o StyleVLA, um framework VLA informado pela física para gerar comportamentos de condução diversificados e fisicamente plausíveis. Introduzimos uma função de perda híbrida que combina uma restrição de consistência cinemática com um cabeçalho de regressão contínua para melhorar a viabilidade das trajetórias. Para treinar o StyleVLA, construído com base no Qwen3-VL-4B, construímos um conjunto de dados de instruções em larga escala com mais de 1,2 mil cenários, 76 mil amostras de Vista de Pássaro (BEV) e 42 mil amostras de Vista em Primeira Pessoa (FPV), contendo trajetórias de referência para cinco estilos de condução e instruções em linguagem natural. Experiências demonstram que o nosso StyleVLA com 4B parâmetros supera significativamente modelos proprietários (ex.: Gemini-3-Pro) e modelos VLA state-of-the-art. Utilizando uma pontuação composta de condução que mede a taxa de sucesso, a viabilidade física e a adesão ao estilo, o StyleVLA atinge 0,55 em BEV e 0,51 em FPV, contra 0,32 e 0,35 do Gemini-3-Pro. Estes resultados mostram que um modelo especializado, informado pela física e leve, pode superar modelos de código fechado em tarefas específicas de domínio.