Artigos de pesquisa em IA selecionados diariamente com traduções
Transformadores em loop escalam a computação latente ao aplicar repetidamente blocos compartilhados, mas o encadeamento sequencial aumenta a latência e a memória do cache-KV com o número de loops. Os Transformadores em Loop Paralelo (PLT) reduzem esse custo por meio de deslocamentos de posição entre loops (CLP) e atenção de janela deslizante com portão e KV compartilhado, tornando a contagem de loops uma escolha prática de projeto. Portanto, estudamos a seleção da contagem de loops em PLT através de uma visão de ganho-custo: um loop extra pode refinar representações, mas o CLP também introduz uma incompatibilidade posicional em cada fronteira de loop. Operacionalizamos este estudo treinando LoopCoder-v2, uma família de codificadores PLT de 7B com diferentes contagens de loops, desde o início em 18T tokens, seguido por ajuste de instruções e avaliação pareados. Empiricamente, a variante com dois loops apresenta ganhos amplos sobre a linha de base sem loops em benchmarks de geração de código, raciocínio de código, engenharia de software agentiva e uso de ferramentas, melhorando o SWE-bench Verified de 43,0 para 64,4 pontos e o Multi-SWE de 14,0 para 31,0 pontos. Em contraste, variantes com três ou mais loops regridem, revelando um efeito fortemente não monotônico da contagem de loops. Nossas análises diagnósticas mostram que o loop 2 fornece o principal refinamento produtivo, enquanto loops posteriores produzem atualizações decrescentes e oscilatórias, além de menor diversidade representacional. Como a incompatibilidade induzida pelo CLP permanece aproximadamente fixa enquanto os ganhos de refinamento diminuem, o custo do deslocamento torna-se cada vez mais dominante. Esse trade-off ganho-custo explica a saturação do PLT em dois loops e fornece diagnósticos para a seleção da contagem de loops.
Modelos de Visão-Linguagem-Ação (VLA) beneficiam-se de dados corporificados em larga escala e diversos, porém a coleta de trajetórias robóticas é custosa e intensiva em mão de obra. Avanços recentes mostram que vídeos humanos egocêntricos em larga escala fornecem supervisão complementar do mundo real no pré-treinamento. No entanto, o treinamento conjunto em dados humanos e robóticos continua desafiador devido a divergências nos espaços de ação, estruturas de corporificação, dinâmicas temporais e qualidade de supervisão. Apresentamos o ACE-EGO-0, uma estrutura unificada de pré-treinamento VLA que aproveita conjuntamente fontes de dados heterogêneas. Para extrair supervisão de pré-treinamento em larga escala de vídeos humanos egocêntricos, construímos um pipeline escalável de vídeo para ação egocêntrica que converte vídeos humanos brutos em trajetórias de pseudo-ação no formato robótico. Para tornar esses rótulos comparáveis com demonstrações robóticas, o ACE-EGO-0 utiliza uma representação unificada de ação baseada em ações no espaço da câmera, condicionamento morfológico e agrupamento de ações alinhado temporalmente. Para aproveitar robustamente a supervisão de pseudo-ação ruidosa de vídeos humanos egocêntricos, formulamos um objetivo de treinamento ciente de confiabilidade com uma perda auxiliar humana que concentra a supervisão em sinais confiáveis. Instanciamos o ACE-EGO-0 em 4,53 mil horas de dados robóticos e de simulação, juntamente com 1,48 mil horas de dados humanos egocêntricos rotulados com pseudo-ação. Experimentos mostram que a incorporação de supervisão humana em larga escala sob ponderação ciente de confiabilidade melhora consistentemente tanto o pré-treinamento conjunto unificado quanto o ajuste fino supervisionado. O ACE-EGO-0 alcança desempenho estado da arte no RoboCasa GR1 TableTop e RoboTwin 2.0, demonstrando forte transferência para manipulação bimanual no mundo real.
A destilação de conhecimento transfere a competência de um professor para um aluno pequeno, mas é frágil no regime de aluno pequeno: forçar o aluno a imitar logits de um professor muito maior concentra-o nos modos mais agudos do professor, prejudicando a generalização em famílias de benchmarks além do corpus de treinamento. A aprendizagem por reforço (RL) evita a imitação de logits ao treinar com base nos próprios rollouts do aluno. No entanto, em perguntas onde todo rollout falha—gerando vantagem zero e sendo descartado silenciosamente—injetar a resposta de um professor mais forte no gradiente de política quebra a suposição on-policy e induz deriva. Apresentamos a Otimização de Política de Zona Proximal (ZPPO), inspirada na zona de desenvolvimento proximal de Vygotsky, que mantém o professor dentro do prompt em vez do gradiente de política. Em perguntas difíceis, o ZPPO constrói dois prompts reformulados: uma Pergunta com Candidato Binário Incluído (BCQ) emparelha uma resposta correta do professor com uma resposta incorreta do aluno como candidatos anonimizados que o aluno deve discriminar, e uma Pergunta com Candidato Negativo Incluído (NCQ) agrega os rollouts errados do aluno em um único prompt para revelar seus modos de falha compartilhados. Um buffer de reprodução de prompts recircula cada pergunta difícil até que ela se forme—a precisão média dos rollouts do aluno nela atinja metade—ou seja removida por FIFO sob capacidade finita, amplificando BCQ e NCQ dentro da zona de desenvolvimento proximal atual do aluno. Na família Qwen3.5 em quatro escalas de aluno (0,8B-9B) com um professor de 27B, pós-treinados como modelos visão-linguagem e avaliados em um conjunto de 31 benchmarks (16 VLM, 10 LLM, 5 Vídeo), o ZPPO supera a destilação off/on-policy e o GRPO, com os maiores ganhos na menor escala.
A geração de jogos é uma aplicação emergente de agentes de codificação, que exige que os modelos transformem especificações em linguagem natural em sistemas interativos jogáveis. Diferentemente das tarefas tradicionais de codificação, a geração de jogos ocorre dentro de um motor de jogo, onde scripts, cenas, ativos, renderização e interações em tempo de execução devem, em conjunto, produzir uma jogabilidade coerente. Formalizamos a geração de jogos de ponta a ponta como o problema de produzir um artefato de jogo completo que realize uma especificação por meio da interação observável entre jogador e jogo em um ambiente-alvo. Argumentamos que a avaliação deste cenário requer três desideratos: Fundamentação no Motor, Completude do Artefato e Verificação Interativa. Propomos uma estrutura de avaliação fundamentada na interação que avalia executáveis de jogos por meio de demonstrações reproduzidas e julgamento multimodal orientado por rubricas. Instanciamos essa estrutura como GameCraft-Bench, um benchmark composto por 140 tarefas Godot em 15 famílias de jogos. Avaliações de agentes de codificação de ponta mostram que a geração de jogos de ponta a ponta permanece altamente desafiadora: o agente mais forte atinge apenas 41,46%, e a maioria dos agentes pontua abaixo de 40%. Análises adicionais revelam que, embora os agentes frequentemente implementem mecânicas reconhecíveis, eles têm dificuldade em entregar jogos completos com conteúdo suficiente, feedback visual funcional e apresentação coerente. Consulte https://tongxuluo.github.io/gamecraft-bench-website para demonstrações, código e dados.
A aprendizagem eficaz e personalizada assistida por IA exige sistemas que não apenas gerem materiais educacionais precisos e específicos para cada aluno, mas também adaptem dinamicamente sua instrução a diferentes aprendizes. No entanto, os agentes educacionais existentes têm se concentrado principalmente na automação de conteúdos de palestras e simulações, que muitas vezes não conseguem modelar métodos de ensino multimodais e incorporados, adaptados ao aprendiz individual. Para isso, propomos o LectūraAgents — uma estrutura multiagente que possibilita aprendizado personalizado por meio de ensino incorporado adaptativo de ponta a ponta. Em seu núcleo, o LectūraAgents reflete uma relação professor-aluno, na qual um ProfessorAgente lidera uma equipe colaborativa de agentes subordinados especializados em pesquisa, planejamento, revisão e entrega incorporada de conteúdos de aula que se adaptam às necessidades do aprendiz. A estrutura oferece três contribuições principais: (1) uma arquitetura multiagente hierárquica para aprendizado personalizado de ponta a ponta; (2) um mecanismo de ensino incorporado adaptativo, no qual o ProfessorAgente executa ações de ensino visíveis e pedagogicamente motivadas (por exemplo, escrever à mão, destacar, sublinhar, etc.) sobre conteúdos em um ambiente de ensino; e (3) um algoritmo de Alinhamento Ação-Fala no Ensino (TASA — Teaching Action-Speech Alignment) que emprega heurísticas baseadas em saliência e segmentação semântica temporal para gerar sequências coerentes de ações de ensino alinhadas aos perfis dos aprendizes. Avaliamos o LectūraAgents em diversos cursos de nível médio, graduação e pós-graduação, utilizando análise baseada em rubricas específicas de amostras, com materiais de aula gerados e ações de ensino avaliados e validados por educadores especialistas. Os resultados experimentais mostram ganhos consistentes na qualidade do conteúdo das aulas, na qualidade do ensino incorporado, na avaliação e na personalização em relação às abordagens existentes, posicionando o LectūraAgents como uma estrutura pedagogicamente fundamentada para aprendizado personalizado em larga escala.
Sistemas de alerta precoce clínicos baseados em registros eletrônicos de saúde, nos quais as observações clínicas são registradas como séries temporais médicas com amostragem irregular (ISMTS), devem fornecer tanto escores de risco calibrados para triagem de pacientes quanto justificativas interpretáveis que os médicos possam verificar. Modelos de Linguagem de Grande Escala (LLMs) têm sido explorados para essa tarefa, mas eles colapsam o risco clínico graduado em predições binárias excessivamente confiantes. Essa polarização de risco prejudica tanto a calibração quanto a comparabilidade entre pacientes. Para abordar isso, propomos o TRIAGE, uma estrutura que treina um LLM para gerar raciocínio dialético sobre desfechos clínicos concorrentes, elicitando justificativas específicas para cada desfecho. Essa formulação dialética mitiga a polarização de risco, permitindo que um único LLM produza escores de risco contínuos fundamentados em raciocínio clínico explícito. Avaliado em três benchmarks de ISMTS, o TRIAGE alcança uma melhoria média de 3,3% no AUPRC e reduz o erro de calibração em 81% em comparação com as linhas de base competitivas. Uma avaliação usando LLM como juiz mostra ainda que nossas justificativas superam as explicações post-hoc da linha de base em 20% na qualidade do raciocínio clínico. O código-fonte está disponível em https://github.com/HyeongWon-Jang/TRIAGE .
A auto-destilação on-policy (OPSD) tem se mostrado eficaz no pós-treinamento de grandes modelos de linguagem (LLMs), porém sua aplicação a LLMs de difusão (dLLMs) permanece inexplorada. Os métodos OPSD existentes são inerentemente centrados em autoregressão. Eles injetam informações privilegiadas por meio de condicionamento de prefixo da esquerda para a direita com supervisão de divergência no nível de token, um design que conflita fundamentalmente com a geração de ordem arbitrária dos dLLMs. Apresentamos o d-OPSD, o primeiro framework OPSD adaptado para dLLMs. Nossa abordagem oferece duas contribuições centrais. Primeiro, reformulamos a construção do auto-professor utilizando respostas geradas pelo próprio modelo como condicionamento de sufixo, permitindo que o modelo aluno aprenda a partir de "auto-experiência futura" em vez de prefixos privilegiados. Segundo, deslocamos a supervisão do nível de token para o nível de etapa, alinhando o treinamento ao processo iterativo de remoção de ruído dos dLLMs. Experimentos em quatro benchmarks de raciocínio mostram que o d-OPSD supera consistentemente as linhas de base RLVR e SFT com eficiência amostral superior, exigindo apenas cerca de 10% das etapas de otimização do RLVR, abrindo um caminho promissor para o pós-treinamento de dLLMs. O código está disponível em https://github.com/xingzhejun/d-OPSD.
A memória tornou-se um substrato padrão para agentes auto-evolutivos, mas reter experiência não é o mesmo que aprender a evoluir por meio dela. Agentes de memória existentes podem armazenar trajetórias, recuperar reflexões ou acumular habilidades, mas frequentemente carecem da competência holística para selecionar experiência útil, agir sobre ela, escrever conhecimento reutilizável e manter um repositório em crescimento. Apresentamos o OPD-Evolver, uma estrutura de coevolução lenta-rápida que cultiva tal evolutor de agente por meio de autodestilação na política. No loop rápido, o OPD-Evolver interage com uma hierarquia de memória de quatro níveis para ler, usar, escrever e manter experiência para evolução rápida durante o teste. No loop lento, a atribuição de memória calibrada por resultado e a retrospectiva privilegiada destilam essas quatro habilidades na política implantável. Em benchmarks de múltiplos domínios, o OPD-Evolver supera sistemas de memória como o ReasoningBank em até 11,5% e métodos baseados em treinamento como o Skill0 em ~5,8%. Análises adicionais mostram que o OPD-Evolver internaliza experiência de alto valor e gerenciamento de memória, permitindo que o OPD-Evolver-9B desafie contrapartes gigantes como Qwen3.5-397B-A17B e Step-3.5-Flash, apontando além de agentes aumentados por memória em direção a evolutores de agentes genuinamente qualificados.
Modelos de difusão no espaço de pixels são treinados em imagens ruidosas de banda larga, mas o sinal útil disponível ao removedor de ruído é fortemente dependente da frequência. Sob difusão de fluxo retificado e espectros de lei de potência de imagens naturais, o contorno de dados-para-ruído por banda k^{*}(t) = (1-t)^{-2/α} separa uma região de baixa frequência portadora de sinal de uma região de alta frequência dominada por ruído a cada instante t. Mostramos que essa estrutura implícita de grosseiro para fino não é meramente descritiva: ela induz um problema de alocação de capacidade. Um removedor de ruído padrão no espaço de pixels deve descobrir internamente a fronteira móvel da largura de banda e pode gastar computação em regiões de frequência-tempo onde a predição ótima colapsa em linhas de base determinísticas, em vez de modelar a distribuição dos dados. Para tornar essa fronteira explícita, introduzimos o Forçamento Espectral, um operador passa-baixa 2D-DCT condicional ao tempo, livre de parâmetros, aplicado à entrada ruidosa antes do incorporador de patches. Seu corte se expande monotonicamente com o tempo de difusão e torna-se a identidade no ponto final dos dados. Por meio de experimentos sintéticos controlados, identificamos o regime em que o operador é benéfico: tokenização de patches grosseira e dados cujo conteúdo de alta frequência é predominantemente ruído, em vez de sinal essencial. No ImageNet-256 com JiT-700M/32, o Forçamento Espectral melhora consistentemente tanto o FID quanto o Inception Score em diferentes épocas de treinamento, demonstrando ganhos robustos ao longo do treinamento; em tokenização mais fina, o forçamento espectral ainda é competitivo. Inserimos ainda o operador inalterado no SenseNova-U1, um modelo unificado de texto para imagem, onde ele melhora o DPG-Bench e o GenEval, mostrando que o prior espectral do lado da entrada é transferível para além da geração condicionada à classe. Esses resultados sugerem um caminho para a difusão no espaço de pixels eficiente em capacidade, ao mostrar o sinal e ocultar o ruído.
Os métodos existentes de edição de imagens podem ser geralmente categorizados em abordagens baseadas em instruções textuais e baseadas em prompts visuais. As instruções textuais são semanticamente expressivas, mas limitadas pela granularidade grossa do controle espacial dos resultados da edição. Em contraste, prompts visuais, como arrastar e apontar, podem fornecer orientação espacial precisa, mas são limitados pela ambiguidade inerente na intenção semântica. Para unificar os pontos fortes dos prompts textuais e visuais, apresentamos a Edição de Imagens Co-Instruída por Texto e Visão, que modela conjuntamente instruções textuais como intenção semântica e instruções visuais esparsas como orientação espacial, visando alcançar uma manipulação de imagem precisa e fiel à intenção. Para este fim, primeiro construímos um conjunto de dados pareado de instruções textuais-visuais com mais de 23 mil amostras derivadas de vídeos dinâmicos, possibilitando supervisão alinhada para instrução cross-modal. Em seguida, propomos o TV-Edit, uma estrutura de edição unificada por instruções textuais-visuais para contextualizar instruções visuais baseadas em arrastar ou apontar com a semântica de texto-imagem e elevá-las a representações de controle sensíveis ao contexto semântico para backbones de edição pré-treinados. Ao integrar intenção semântica e restrições espaciais, o TV-Edit leva a um controle espacial mais preciso, menos ambiguidade de instrução e maior consistência estrutural do que alternativas baseadas apenas em texto ou arrastar. Finalmente, estabelecemos o TV-Edit-Bench, um benchmark deliberadamente projetado para avaliar fidelidade semântica, alinhamento espacial e consistência visual com referências de ground-truth e variações textuais-visuais controladas para avaliação confiável. Nossos experimentos em múltiplos backbones de edição demonstram que o TV-Edit produz consistentemente edições mais precisas e fiéis à intenção, superando significativamente as linhas de base estado da arte baseadas em instrução e arrastar.
Modelos de linguagem modernos adotam cada vez mais arquiteturas híbridas que combinam atenção completa com módulos de atenção eficientes, como atenção de janela deslizante (SWA) e mixers de sequência recorrentes. No entanto, como esses módulos eficientes moldam as capacidades do modelo ainda é pouco compreendido. Para abordar essa lacuna, realizamos uma análise sistemática em arquiteturas híbridas sob três perspectivas: comportamento de escalonamento, análise de mecanismo e design de arquitetura. Primeiro, sob uma perspectiva de escalonamento, descobrimos que o design de atenção eficiente afeta principalmente a rapidez com que a capacidade de contexto longo emerge, enquanto diferentes híbridos eventualmente convergem para desempenho comparável em contexto longo sob treinamento suficiente. Segundo, mecanicamente, mostramos que a recuperação de longo alcance é principalmente realizada pela atenção completa, enquanto a atenção eficiente molda sua trajetória de otimização. Isso explica um fenômeno contra-intuitivo que chamamos de Preguiça de Janela Grande: janelas SWA maiores podem atrasar a formação de cabeças de recuperação nas camadas de atenção completa. Terceiro, guiados por esse mecanismo, mostramos que aplicar NoPE apenas às camadas de atenção completa de um híbrido SWA de janela pequena melhora substancialmente o desempenho em contexto longo, com impacto desprezível no desempenho em contexto curto.
Modelos de visão-linguagem (MVLs) são tipicamente treinados como respondedores passivos, enquanto sua capacidade de formular ativamente perguntas diversas, não triviais, centradas no visual e fundamentadas permanece pouco explorada. O desempenho dos questionadores visuais existentes é limitado pela disponibilidade de dados de treinamento de alta qualidade ou pelo custo de sua curadoria. Demonstramos que um MVL pode melhorar continuamente a si mesmo como questionador visual sem qualquer supervisão externa. Propomos uma estrutura autoevolutiva que utiliza o próprio MVL tanto como proponente quanto como filtro para produzir perguntas mais difíceis, mais informativas e centradas no visual, enquanto mantém a diversidade exploratória para evitar colapso no treinamento. Essas perguntas são então usadas para treinar o MVL tanto no modo questionador quanto no modo respondedor. Para avaliar o questionador, introduzimos um protocolo agentivo que avalia as perguntas nas dimensões de percepção, raciocínio e diversidade. Experimentos em diversos MVLs de base mostram que nosso método melhora substancialmente a qualidade e expande significativamente a fronteira de dificuldade da geração autônoma de perguntas. Sob o mesmo orçamento, nossa autossupervisão é mais eficaz do que o treinamento em dados estáticos de origem. Além disso, o questionador autoevolutivo permanece um respondedor competitivo ou até mesmo superior.
A transição da geração de vídeos para a modelagem interativa de mundos impõe novas demandas aos dados: além de vídeos legendados, modelos de mundo exigem trajetórias de vídeo-ação-linguagem temporalmente alinhadas e fundamentadas nas ações, movimentos de câmera, estados e eventos que impulsionam as mudanças futuras da cena. No entanto, esses dados são difíceis de obter em escala. Conjuntos de dados de vídeos da web oferecem ampla cobertura visual, mas carecem de ações executáveis e estados confiáveis; conjuntos de dados robóticos fornecem supervisão de ações e estados, porém são custosos e limitados em diversidade de cenas; e os simuladores existentes frequentemente não possuem trajetórias de interação em grande escala conduzidas por humanos. Neste artigo, apresentamos o EgoCS-400K, um conjunto de dados egocêntrico de Counter-Strike em larga escala, fundamentado em replay, para modelos de mundo, construído a partir de demos profissionais de partidas de CS e CS2 que preservam trajetórias de jogabilidade humana e permitem análise, replay, renderização e alinhamento temporal. Extraímos estados dos jogadores, direções de visão, movimentos, entradas de teclado/botão, mudanças de ângulo de visão, uso de armas, eventos do jogo e contexto ao nível de rodada, e renderizamos vídeos limpos em primeira pessoa a partir das mesmas trajetórias. O EgoCS-400K contém mais de 400.000 vídeos em primeira pessoa e 10.000 horas de jogabilidade de mais de 1.000 partidas e 40.000 rodadas, cobrindo 13 mapas e 10 pontos de vista de jogadores por rodada. Ele suporta uma variedade de tarefas de modelagem visual interativa, incluindo previsão futura condicionada a ação, roll-out de cena ciente de estados e eventos, legendagem fundamentada em replay e compreensão de ações egocêntricas do agente. Ao conectar observações visuais com ações humanas, movimento de câmera, estados do jogo e eventos em escala, o EgoCS-400K serve como uma ponte prática entre vídeos passivos da web, simulação controlável de jogos e dados incorporados do mundo real de alto custo.
Os modelos mundiais atuais enfrentam uma tensão fundamental: a simulação fiel de horizonte longo exige computação profunda, mas modelos mais profundos são caros de implementar e propensos a erros compostos. Resolvemos isso introduzindo os Modelos de Mundo em Loop (LoopWM), que são as primeiras arquiteturas em loop para modelagem de mundo. Nosso método refina iterativamente estados latentes do ambiente por meio de um bloco transformador de parâmetros compartilhados. Isso resulta em uma eficiência paramétrica de até 100x em relação às abordagens convencionais, com computação adaptativa que dimensiona automaticamente a profundidade para corresponder à complexidade de cada etapa de previsão. Ortogonal ao escalonamento do tamanho do modelo e dos dados de treinamento, o LoopWM estabelece a profundidade latente iterativa como um novo eixo de escalonamento para simulação mundial, o que pode impulsionar significativamente a comunidade.
Modelagem Multimodal Unificada visa integrar compreensão visual e geração em um único sistema. No entanto, abordagens existentes geralmente dependem de dois tokenizadores visuais díspares, o que divide o espaço de representação e dificulta uma modelagem verdadeiramente unificada. Propomos UniAR, um framework autorregressivo unificado no qual um único tokenizador visual discreto serve como a principal ponte entre compreensão e geração, possibilitando um contexto compartilhado em que o modelo pode interpretar diretamente seus próprios tokens visuais gerados sem necessidade de recodificação adicional. O UniAR adapta um codificador visual pré-treinado com fusão de características em múltiplos níveis e um esquema de quantização bitwise sem consulta, preservando tanto semânticas de alto nível quanto detalhes de baixo nível, enquanto escala o vocabulário visual efetivo a um custo mínimo. Com base nisso, o modelo autorregressivo unificado adota predição bitwise paralela para prever conjuntamente códigos visuais agrupados espacialmente em múltiplos níveis, reduzindo substancialmente o comprimento da sequência visual e acelerando a geração. Por fim, um decodificador visual baseado em difusão opera sobre tokens visuais discretos para decodificar imagens de alta fidelidade. Por meio de pré-treinamento em larga escala, seguido de ajuste fino supervisionado e aprendizado por reforço, o UniAR alcança desempenho de estado da arte em geração de imagens e edição de imagens, mantendo-se competitivo em benchmarks de compreensão multimodal. O site do projeto está disponível em https://sharelab-sii.github.io/uniar-web.
A busca agentiva sobre grandes corpora depende de interfaces mediadas por recuperadores (ex.: BM25 ou ColBERT) para descoberta escalável de candidatos. Embora eficazes na classificação de documentos relevantes, essas interfaces expõem evidências apenas como resultados ranqueados ou visualizações limitadas de documentos, restringindo a capacidade dos agentes de reorganizar material e verificar restrições entre documentos. A Interação Direta com o Corpus (DCI) aborda essa limitação ao expor operações de corpus executáveis em shell para busca, filtragem, comparação e verificação flexíveis. No entanto, comandos terminais sobre o corpus completo tornam-se lentos e instáveis à medida que o corpus cresce, degradando desempenho e eficiência. Apresentamos o DR-DCI, um framework DCI orientado por recuperador que trata a recuperação como uma ação acionável pelo agente para expandir um espaço de trabalho local. Em vez de operar diretamente sobre o corpus completo, o agente puxa dinamicamente documentos relevantes para um espaço de trabalho em evolução e realiza operações DCI dentro dele. Esse design combina a capacidade de recuperação em nível de recuperador com a precisão do estilo DCI: a recuperação mantém a exploração escalável, enquanto a DCI preserva as operações locais necessárias para uma resolução eficaz de evidências. Experimentos mostram que o DR-DCI é eficaz e eficiente em diferentes escalas. No Browsecomp-Plus, o DR-DCI atinge 71,2% de acurácia, melhorando em até 8,3 pontos percentuais em relação ao DCI bruto e variantes ablacionadas, enquanto reduz o uso de ferramentas, o tempo de execução e o custo estimado. Com redefinição de contexto preservando o espaço de trabalho, a acurácia melhora ainda mais para 73,3%. Em experimentos de escalonamento de corpus, o DR-DCI permanece eficaz de 100K a 10M de documentos, enquanto o DCI bruto se torna instável e o BM25 apresenta desempenho substancialmente pior. O DR-DCI também escala para um cenário Wiki-18 QA com 20M de arquivos-por-documento, alcançando uma pontuação média de 63,0 em seis benchmarks e superando linhas de base baseadas em recuperação e agentes de busca treinados. A análise de ablação mostra ainda que pré-visualizações ranqueadas e DCI entre documentos são fundamentais para o desempenho.
Modelos de linguagem de grande porte apresentam desempenho cada vez melhor em benchmarks padronizados de raciocínio lógico, mas não está claro se essa capacidade permanece robusta além do inglês. Apresentamos o ChLogic, um benchmark alinhado inglês–chinês que testa se os modelos preservam o desempenho em raciocínio lógico quando a mesma estrutura lógica latente é expressa em inglês e em diversas realizações superficiais do chinês. Construído a partir de modelos lógicos formais, o benchmark contém três conjuntos de dados: (i) o conjunto alinhado Geral, derivado de 60 Proposições Gerais em nove famílias de modelos; (ii) o conjunto alinhado Difícil, derivado de 40 Problemas Difíceis; e (iii) o conjunto exclusivamente em chinês, abrangendo 15 tipos de fenômenos específicos da língua. Cada item alinhado emparelha uma expressão de referência em inglês com cinco realizações em chinês. Experimentos com modelos Qwen3, Ministral e GLM revelam uma lacuna persistente de desempenho entre inglês e chinês. A retrotradução do chinês padrão para o inglês frequentemente melhora o desempenho no conjunto alinhado Geral, mas produz efeitos mistos no conjunto alinhado Difícil, onde Qwen3-32B e GLM-5.1 apresentam pior desempenho após a tradução. Esses resultados indicam que a realização superficial do chinês, os artefatos de tradução e o comportamento específico do modelo afetam conjuntamente o raciocínio lógico multilíngue. No geral, o ChLogic fornece um teste de estresse útil para a robustez do raciocínio multilíngue.
Aprendizado por reforço com recompensas verificáveis (RLVR) melhora o raciocínio de modelos de linguagem, mas a otimização do tipo GRPO ainda é propensa ao colapso. Analisamos esta instabilidade por meio da dinâmica de gradientes em nível de token, derivando uma taxonomia que prevê como as atualizações afetam as probabilidades do próximo token e a entropia. A taxonomia mostra que a estabilidade depende conjuntamente do sinal da vantagem e da distribuição de tokens sob a política atual. Motivados por essa descoberta, propomos a Otimização de Política por Vantagem do Vencedor (WAPO), um objetivo simples de gradiente de política recortado online que atualiza apenas completudes com vantagem positiva. Em benchmarks de raciocínio matemático e QA multi-salto, o WAPO melhora a estabilidade do treinamento e iguala ou supera as linhas de base em múltiplas famílias de modelos. O código completo pode ser encontrado em https://github.com/layer6ai-labs/wapo.
O escalonamento do tamanho do modelo, especificamente profundidade e largura, tem impulsionado avanços significativos em modelos de linguagem baseados em transformers. No entanto, a maioria das arquiteturas mantém uma largura constante em todas as camadas, alocando um orçamento fixo de parâmetros e computação de forma uniforme, embora camadas diferentes possam desempenhar papéis computacionais distintos. Neste trabalho, investigamos empiricamente a alocação não uniforme de capacidade ao longo da profundidade da rede, propondo uma arquitetura em formato de ampulheta (> <former). Esse design mantém camadas mais largas no início e no final, enquanto estreita as camadas intermediárias, utilizando um mecanismo de redimensionamento residual sem parâmetros. Em modelos de linguagem apenas com decodificador, variando de 200M a 2B parâmetros (densos) e 3B parâmetros (MoE), nosso > <former supera consistentemente as linhas de base uniformes com número de parâmetros correspondente na perda de modelagem de linguagem. Ao reduzir a largura média das camadas, essa arquitetura também exige menos FLOPs totais (redução de 22% sob curvas de escalonamento ajustadas à perda correspondente) e menor memória cache KV e custo de E/S (redução de 15%). Na análise, mostramos que essa estrutura de gargalo resulta em representações qualitativamente diferentes nos fluxos residuais. No geral, nossos resultados demonstram que a alocação não uniforme de largura pode levar a um escalonamento mais eficiente em termos de recursos para modelos de linguagem.
Os modelos de mundo interativos visam simular a dinâmica do ambiente sob ações do usuário em tempo real. No entanto, seu vocabulário de ações é amplamente restrito à navegação: a maioria das ações corresponde a movimento (por exemplo, andar, girar, olhar ao redor), enquanto a interação com objetos na cena (por exemplo, pegar pratos, abrir portas ou desencadear respostas físicas) está ausente, limitada a domínios de jogos ou relegada a cenários de prompt para vídeo completo. Os mundos resultantes são visualmente exploráveis, mas não verdadeiramente acionáveis. Neste trabalho, apresentamos o ActWorld, um modelo de mundo interativo que estende geradores anteriores centrados em navegação para suportar interação com objetos durante a execução do modelo (mid-rollout) dentro de uma estrutura autoregressiva baseada em blocos (chunk-autoregressive). Argumentamos que a lacuna entre navegação e interação decorre de dois gargalos. Primeiro, um gargalo de dados: a falta de dados de interação humano-objeto com rótulos precisos e densos. Segundo, um gargalo de memória: a compressão do histórico com viés de recência em modelos de mundo existentes descarta os quadros de transição de eventos que determinam causalmente estados subsequentes de objetos, levando a uma patologia de esquecimento de ações. No lado dos dados, construímos um conjunto de dados com 100 mil vídeos de interação, cada um anotado com legendas por bloco (por chunk) via raciocínio em cadeia de pensamento (chain-of-thought reasoning). No lado do modelo, introduzimos um design de memória hierárquica consciente de ações que direciona a compressão do histórico com base na importância da interação, complementado por um banco de memória persistente que mantém tokens de atualização de eventos e tokens de identidade de objetos ao longo de execuções longas. Experimentos mostram que o ActWorld suporta tanto navegação flexível quanto interação rica com objetos em um único modelo, melhorando substancialmente a fidelidade da interação em comparação com linhas de base apenas de navegação, sem sacrificar o controle de ponto de vista. A página do projeto está disponível em https://interactwm.github.io/ActWorld.
Treinar agentes de uso de computador (CUAs) — modelos que interagem com ambientes de desktop gráficos por meio de capturas de tela e ações de teclado/mouse — requer dados de trajetória em larga escala e diversos, coletados em ambientes completos de desktop. O maior recurso público, AgentNet (22,5 mil trajetórias humanas), leva a transferência negativa quando usado para ajuste fino supervisionado (SFT): continuar o treinamento do UI-TARS 7B no AgentNet faz com que a taxa de sucesso do OSWorld caia de 26,3% para 8-10%. Apresentamos o ProCUA-SFT, um conjunto de dados de 3,1 milhões de amostras de SFT em nível de passo destiladas a partir de 93 mil trajetórias sintéticas em 2.484 combinações de aplicativos. O conjunto de dados é produzido por um pipeline totalmente automatizado que (i) sintetiza tarefas fundamentadas em desktops ativos semeados com conteúdo do mundo real — 912 planilhas do SpreadsheetBench, aproximadamente 10 mil apresentações com licença permissiva do Zenodo10K e configurações de múltiplos aplicativos do OSWorld — e (ii) verifica a viabilidade de cada tarefa por meio de verificação binária de pré-condições antes da execução. Um único VLM (Kimi-K2.5) atua como gerador de objetivos, juiz de pré-condições e executor de trajetória, eliminando lacunas de capacidade entre planejador e atuador. Cada trajetória é expandida em amostras de prefixo de passo que reproduzem exatamente o layout de contexto visto no momento da inferência. O ajuste fino do UI-TARS 7B no ProCUA-SFT por uma época resulta em 45,0% no OSWorld — uma melhoria de 18,7 pontos percentuais em relação ao modelo base e mais de 35% acima das contrapartes treinadas com AgentNet. Um subconjunto do ProCUA foi incorporado aos dados de treinamento do modelo Nemotron 3 Nano Omni, contribuindo para suas capacidades de uso de computador.
Agentes de pesquisa profunda são cada vez mais avaliados quanto à sua capacidade de buscar evidências, raciocinar sobre fontes recuperadas e produzir respostas fundamentadas. No entanto, os benchmarks de navegação existentes em grande parte assumem que a consulta do usuário e as evidências de apoio estão escritas no mesmo idioma, deixando em aberto se sistemas de busca agentivos podem operar quando evidências relevantes aparecem em outro idioma. Apresentamos o XBCP (Cross-lingual BrowseComp-Plus), um benchmark controlado que preserva o espaço de perguntas e respostas em inglês do BrowseComp-Plus, mas varia os idiomas dos documentos de apoio. O XBCP instancia dois cenários complementares: no cenário cross-linguístico, cada consulta é emparelhada com evidências em um único idioma designado. No cenário multilíngue, o corpus completo de evidências é distribuído igual e aleatoriamente por 12 idiomas, abrangendo regimes de alto e baixo recurso. Avaliamos quatro agentes de pesquisa profunda utilizando recuperadores multilíngues esparsos e densos, medindo a precisão das respostas, a revocação de evidências, o comportamento de busca, a calibração, a fidelidade das citações e a recuperação oráculo. Os resultados revelam uma degradação substancial quando as evidências são traduzidas. Mesmo recuperadores densos e robustos perdem revocação de evidências, e os agentes se tornam menos calibrados e citam evidências de forma menos confiável. Notavelmente, a precisão permanece menor mesmo quando todas as evidências douradas são fornecidas diretamente. Essas descobertas sugerem que a pesquisa profunda cross-linguística expõe tanto falhas de recuperação quanto uma dificuldade independente, do lado do agente, em integrar evidências com idiomas incompatíveis.
Modelos de linguagem grandes multimodais (MLLMs) demonstraram capacidades impressionantes em diversas tarefas visuais, mas frequentemente enfrentam dificuldades com ancoragem factual quando confrontados com cenários complexos de mundo aberto. Embora agentes de busca multimodal profunda tentem resolver essa questão utilizando ferramentas externas, o paradigma de busca nativamente visual ainda permanece subexplorado. Métodos existentes dependem principalmente de imagens simples com semântica explícita e trajetórias de evidências baseadas apenas em texto, limitando a capacidade do agente de realizar raciocínio e busca multi-salto e cross-modal. Para superar essas limitações, propomos o Visual-Seeker, um agente de busca multimodal profunda nativamente visual por meio de raciocínio visual ativo. Em vez de tratar a visão como uma entrada estática, nosso agente atenta-se ativamente a detalhes visuais sutis, coletando dinamicamente evidências visuais ao longo do processo de busca. Para desbloquear seu potencial nativamente visual, projetamos um pipeline de dados para raciocínio visual ativo e sintetizamos 5.000 trajetórias multimodais de alta qualidade para treinamento do modelo. Experimentos extensivos demonstram desempenho de ponta em cinco benchmarks desafiadores de busca multimodal, superando até mesmo diversos modelos proprietários, validando assim o raciocínio e a busca nativamente visual robustos em ambientes reais da web. O código e os dados podem ser acessados em: https://github.com/ZhengboZhang/Visual-Seeker.
Fazer com que grandes modelos de linguagem (LLMs) esqueçam profundamente conhecimentos e valores específicos sem sacrificar capacidades gerais continua sendo um desafio central no aprendizado por desaprendizagem. No entanto, os métodos atuais são facilmente revertidos por fine-tuning ou few-shot prompting, sugerindo que seu esquecimento é apenas raso. Identificamos a causa raiz. Métodos existentes têm como alvo representações compartilhadas tanto com o conjunto de retenção quanto com o subespaço recuperado por um atacante de fine-tuning, tornando a desaprendizagem disruptiva para capacidades gerais e fácil de reverter. Propomos o RepSelect (Representação Seletiva), que isola representações específicas do conjunto de esquecimento ao colapsar os principais componentes principais dos gradientes de peso antes de cada atualização, deixando as capacidades gerais intactas e limitando o que o fine-tuning pode recuperar. Avaliamos em duas categorias de esquecimento — conhecimento bio-hazardoso e tendências abusivas — e quatro famílias de modelos abrangendo arquiteturas densas e de Mistura de Especialistas (Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite). Comparado a cinco linhas de base populares (GradDiff, NPO, SimNPO, RMU, UNDIAL), o RepSelect alcança uma redução 4 a 50 vezes maior na precisão das respostas pós-reaprendizagem do que a linha de base mais forte, sendo quase perfeitamente robusto a ataques de few-shot prompting. Assim, mirar em representações seletivas é um passo importante rumo a um esquecimento profundo e robusto em LLMs.
Modelos de Linguagem de Grande Escala (LLMs) conseguem compreender e raciocinar sobre operadores quânticos? Apesar de suas capacidades notáveis em matemática e raciocínio simbólico, os LLMs permanecem intrinsecamente cegos a representações quânticas, como matrizes unitárias. Neste trabalho, damos um passo em direção a preencher essa lacuna ao introduzir uma abordagem que mapeia operadores unitários no espaço latente de um LLM, permitindo modelagem unificada sobre entradas quânticas e linguísticas. Instanciamos essa ideia na síntese de circuitos Clifford+T sobre um conjunto de portas de rotação de Pauli, onde nosso modelo alcança resultados competitivos com métodos de ponta e escala consistentemente com os dados de treinamento, sem sinais de saturação. Nossa abordagem ainda possibilita síntese condicionada por linguagem, permitindo que restrições de portas não observadas durante o treinamento sejam especificadas diretamente em linguagem natural. Este trabalho sugere um caminho em direção a modelos fundacionais conscientes de quântica que possam interpretar e raciocinar nativamente sobre operações quânticas, o que poderia ter implicações mais amplas alcançando a compilação quântica e a descoberta de algoritmos.
Codificadores visuais para recuperação são tipicamente treinados com supervisão de rótulos de classe: cada par de treinamento é reduzido a um escalar que uniformemente afasta ou aproxima as incorporações (embeddings), como se cada atributo visual diferisse ou coincidisse. Um modelo de linguagem multimodal de grande porte (MLLM), ao receber o mesmo par, pode articular esses atributos e usá-los para prever se as imagens compartilham uma classe. Propomos o SAGA, uma estrutura que transforma essa percepção fundamentada na linguagem e consciente de atributos em um sinal de treinamento para o próprio codificador. Especificamente, usamos Otimização de Política Relativa por Grupo (GRPO) para recompensar o MLLM por previsões corretas nos tokens do codificador visual. Como previsões corretas exigem que esses tokens exponham os atributos específicos que diferem ou coincidem entre o par, o gradiente impulsiona o codificador a codificá-los, substituindo o escalar uniforme no nível do par por supervisão resolvida por atributo. Uma perda auxiliar de destilação de atenção ancora a incorporação do codificador aos tokens aos quais o MLLM atendeu, e uma perda padrão de aprendizado de métricas molda a geometria da incorporação para recuperação por vizinho mais próximo. O MLLM é mantido congelado durante todo o processo e descartado na inferência, igualando o custo de implantação de uma baseline de aprendizado de métricas. O SAGA melhora o Recall@1 em 3 a 6 pontos em relação às baselines de última geração nos conjuntos CUB-200-2011, Cars-196, FGVC-Aircraft e iNaturalist Aves na recuperação de imagens zero-shot.
A geração guiada por referência (ex.: composição de objetos, personalização) progrediu rapidamente, no entanto, os pipelines atuais compartilham uma limitação fundamental: a imagem de referência de alta resolução (HRRI) centrada no objeto fornecida pelos usuários é reamostrada para uma baixa resolução (LR) fixa antes de ser alimentada no modelo, de modo que os detalhes finos são descartados antes mesmo da saída ser produzida. Além disso, a etapa de geração então introduz seus próprios artefatos (ex.: distorção de identidade) sobre essa perda. Os métodos existentes de refinamento de conteúdo gerado guiado por referência (RefGCR) podem corrigir alguns desses artefatos, mas ainda operam no domínio de LR; métodos de super-resolução guiada por referência (RefSR) recuperam a resolução, mas assumem degradações de imagens naturais e ignoram a distribuição de artefatos dos pipelines generativos. Para abordar ambas as lacunas em uma única formulação, introduzimos uma nova tarefa: refinamento de super-resolução de conteúdo gerado guiado por referência (RefGC-SR²), onde a HRRI original é reutilizada no estágio de pós-processamento para recuperar detalhes perdidos, refinar artefatos generativos e aumentar a resolução da saída simultaneamente. Construímos o primeiro pipeline de geração de dados triplos do mundo real para essa tarefa RefGC-SR², treinando um gerador condicionado por díptico para sintetizar âncoras de baixa qualidade emparelhadas que modelos pré-treinados públicos não podem fornecer. Apresentamos ainda um modelo de transformador de difusão sensível à frequência para RefGC-SR² que injeta seletivamente detalhes finos da HRRI enquanto remove artefatos generativos. Experimentos extensivos demonstram que nosso modelo RefGC-SR² refina com sucesso (i) a identidade do objeto fielmente em relação à referência, e (ii) recupera detalhes de alta resolução, de modo que o resultado final tem qualidade significativamente maior e é praticamente mais utilizável em comparação com as linhas de base existentes de RefGCR e RefSR.
Gerar movimento humanoide realista a partir de imagens de cena e texto envolve tanto semânticas posturais de baixa frequência quanto dinâmicas físicas de alta frequência. No entanto, muitos métodos existentes tokenizam o movimento com um único codebook compartilhado, forçando sinais de movimento heterogêneos no mesmo espaço de quantização. Nossa análise no domínio da frequência dos dados de movimento humano revela uma clara incompatibilidade entre a quantização com um único codebook e as estatísticas do movimento: cinco coeficientes DCT capturam 93% da energia das posições das articulações, mas apenas 37% da energia das velocidades das articulações, o que pode enviesar a quantização para as estatísticas posturais e sub-representar componentes de alta frequência da velocidade. Um segundo desafio reside em adaptar um modelo autorregressivo padrão para modelar eficazmente sinais físicos de alta frequência em sequências de movimento. Portanto, propomos o DSFT, um tokenizador de frequência de fluxo duplo que separa o movimento em fluxos Base e físico e os comprime independentemente com truncamento DCT e BPE. Além disso, apresentamos o MotionVLA, um modelo baseado em Qwen3.5 que organiza os tokens Base e físicos em uma sequência unificada, na qual os tokens Phys são previstos após os tokens Base. Experimentos no HumanML3D e no MBench mostram que, apesar de usar um backbone leve de 2B, o MotionVLA reduz a lacuna de diversidade em relação aos dados reais em mais de 50% no HumanML3D e melhora a consistência condição-movimento em 3,8% no MBench, apoiando o desacoplamento de fluxo duplo sensível à frequência como uma formulação eficaz para a geração autorregressiva de movimento. Código: https://github.com/AIGeeksGroup/MotionVLA. Site: https://aigeeksgroup.github.io/MotionVLA.
Arquiteturas de inferência desagregadas separam fisicamente as fases de preenchimento (prefill) e decodificação (decode) em conjuntos distintos de GPUs, criando "agentes" concorrentes que compartilham um orçamento fixo de hardware. Apresentamos, até onde sabemos, a primeira análise formal da teoria dos jogos dessa arquitetura, utilizando o NVIDIA Dynamo como estudo de caso concreto. Modelamos o serviço desagregado como três jogos acoplados: um jogo de recursos de dois jogadores entre os conjuntos de preenchimento e decodificação, um jogo de cache egoísta sobre o cache KV hierárquico e um jogo de congestionamento com externalidades positivas para o roteamento de requisições. Validamos empiricamente os dois últimos; o jogo de recursos P/D é tratado analiticamente (Seção 9.2). Caracterizamos como a saturação de GPU induz transições de regime que alteram a estrutura de recompensas do jogo: abaixo da saturação, o comportamento egoísta apresenta Preço da Anarquia (PoA) limitado; na saturação, a latência superlinear e as externalidades de cache elevam nosso estimador empírico PoA-hat (definido na Seção 6.4) para cima. Com base nessa análise, projetamos um controlador adaptativo que detecta transições de saturação em tempo real e ajusta os parâmetros de roteamento de acordo, deslocando-se da exploração de afinidade de cache para a evitação de congestionamento com balanceamento de carga. Instanciamos nossa estrutura em um cluster NVIDIA B200 de 3 nós executando o Dynamo com dois modelos, Nemotron-4-340B (TP=8, workers de nó completo com transferências KV entre InfiniBand) e Llama-3.1-70B (TP=4), e encontramos a mesma estrutura PoA-hat de três regimes com o mesmo primeiro ponto de grade após o joelho (C=128) em ambos os modelos. O roteamento adaptativo desloca cada modelo para um ponto de operação melhor. Nosso resultado mais forte ocorre na topologia 1P/5D do modelo 70B, onde o PoA-hat cai 3,1x (de 66,4 para 21,5) na fase saturada, com um custo de throughput de 13%. No modelo 70B 1P/2D, o PoA-hat cai 2,2x e o TTFT P99 cai 7,6x (ver Seção 8.5).
Sistemas multiagente baseados em LLM compartilham estado por meio de repositórios de memória, índices vetoriais e registros de ferramentas. Modelamos tal compartilhamento como operações de longa duração do tipo leitura-geração-escrita sob semântica de geração determinística — o regime que motores de execução durável impõem por meio de replay determinístico — e formalizamos quatro anomalias de concorrência em TLA+: geração obsoleta, ferramenta fantasma, cascata causal e reordenação de efeito de ferramenta, análogos estruturais de anomalias clássicas de isolamento, cada uma com um contraexemplo do TLC. O reticulado de exclusão sobre essas anomalias é trivial; a contribuição reside na realizabilidade verificada mecanicamente e na separação estrita de uma cadeia maximal dentro dele, L_0 ⊊ ... ⊊ L_4, até onde sabemos a primeira hierarquia de consistência verificada por máquina para tais runtimes. Um desenvolvimento de 274 obrigações de Verus (zero assume, zero admite; base de confiança: dois axiomas estruturais e uma correspondência de mutex) prova que os detectores são corretos e completos em relação às especificações e que cada runtime possui seu conjunto de prevenção. Três runtimes Rust implantados realizam L0-L1 (bloqueio pessimista, isolamento de instantâneo serializável, SI-padrão), cada um verificado contra geração obsoleta e refinado para sua máquina de estados; L2-L4 são verificados em modo de execução com gêmeos de prevenção sem dependência (A3, A6, A2: 0/1000 versus 1000/1000), e L2 é executado ao vivo em três famílias de modelos (A3 prevenido em todas as 120 sessões retratadas). Reproduzimos uma atualização perdida silenciosa no deer-flow da ByteDance, formalizando sua correção como um refinamento verificado de L_0 para L_1, e exibimos reordenação de efeito de ferramenta no ToolNode do LangGraph sobre saída não modificada, removida por um sequenciador de ordem de commit L3. O detector verificado, os refinamentos e os artefatos de realizabilidade constituem a contribuição; os fenômenos e o reticulado são clássicos.