Artigos de pesquisa em IA selecionados diariamente com traduções
O áudio é uma modalidade inerentemente interativa, mas os atuais Modelos de Linguagem de Áudio de Grande Escala (LALMs) são offline, e os modelos de áudio em streaming lidam cada um com uma única tarefa, como ASR em streaming ou conversação por voz. Chegou o momento de unificá-los em um LALM online: um modelo que, por meio de um loop contínuo do tipo perceber-decidir-responder, escuta sons, ambientes e instruções em tempo real e reage instantaneamente. Formalizamos esse regime como Modelo de Interação de Áudio e o concretizamos com o Audio-Interaction, um modelo de streaming unificado que mantém a execução de tarefas offline enquanto adiciona o seguimento de instruções gerais de áudio online, desde diálogo até conversação por voz completa, decidindo quando responder com base na semântica do fluxo. Para viabilizar isso, propomos o SoundFlow, uma estrutura que instancia o loop perceber-decidir-responder de ponta a ponta, desde os dados até o treinamento e a implantação, por meio de construção de dados nativa de streaming, treinamento consciente de compreensão e inferência assíncrona de baixa latência para interação estável em tempo real. Além disso, construímos o StreamAudio-2M, um corpus de streaming com 2,6 milhões de itens abrangendo 7 habilidades fundamentais e 28 subtarefas, e o Proactive-Sound-Bench para avaliar a intervenção proativa de áudio. Em 8 referências, o Audio-Interaction mantém desempenho competitivo em tarefas principais de áudio, ao mesmo tempo que desbloqueia capacidades inacessíveis para LALMs offline, incluindo ASR em tempo real, seguimento de instruções de áudio em streaming e ajuda proativa.
Apresentamos o Cosmos 3, uma família de modelos mundiais omnimodais projetados para processar e gerar conjuntamente sequências de linguagem, imagem, vídeo, áudio e ação dentro de uma arquitetura unificada de mistura de transformadores. Ao suportar configurações de entrada-saída altamente flexíveis, o Cosmos 3 unifica perfeitamente modalidades críticas para a IA Física — efetivamente subsumindo modelos de visão-linguagem, geradores de vídeo, simuladores de mundo e modelos mundo-ação em um único arcabouço. Nossa avaliação demonstra que o Cosmos 3 estabelece um novo estado da arte em um conjunto diversificado de tarefas de compreensão e geração, evidenciando modelos mundiais omnimodais como backbones escaláveis e de uso geral para agentes incorporados. Nossos modelos Cosmos 3 pós-treinados foram classificados como os melhores modelos de Código Aberto para Texto-para-Imagem e Imagem-para-Vídeo pela Artificial Analysis, e o melhor modelo de política pela RoboArena no momento em que este relatório técnico foi escrito. Para acelerar a pesquisa aberta e a implantação na IA Física, disponibilizamos nosso código, checkpoints de modelos, conjuntos de dados sintéticos curados e benchmark de avaliação sob a Licença OpenMDW-1.1 da Linux Foundation (https://openmdw.ai/license/1-1/) em https://github.com/nvidia/cosmos e https://huggingface.co/collections/nvidia/cosmos3. O site do projeto está disponível em https://research.nvidia.com/labs/cosmos-lab/cosmos3.
Agentes de pesquisa profunda resolvem tarefas por meio de trajetórias longas de busca, uso de ferramentas, inspeção de evidências e síntese de respostas. A avaliação baseada em respostas finais mostra se um agente obtém sucesso, mas não quais partes da trajetória tornam a resposta não confiável. Estudamos a localização de erros em nível de segmento para agentes de pesquisa profunda. Coletamos 2.790 trajetórias reais de dois frameworks de agentes, três modelos de base e três benchmarks, convertemos logs brutos em segmentos semânticos e anotamos segmentos de erro prejudiciais por meio de revisão especializada assistida por LLM. A partir dessas anotações, construímos o TELBench, um benchmark com 1.000 instâncias para identificar segmentos de erro entre exploração normal, buscas malsucedidas, hipóteses tentativas e ruído inofensivo. Propomos ainda o DRIFT, um framework de auditoria centrada em afirmações que rastreia as afirmações do agente, verifica seu suporte nas evidências da trajetória e marca segmentos onde afirmações não suportadas ou conflitantes afetam o caminho da resposta. Experimentos em famílias de modelos e frameworks de auditoria mostram que o DRIFT melhora a localização de erros em nível de segmento e a precisão do primeiro erro em até 30 pontos percentuais. Nosso trabalho fornece uma visão em nível de processo da confiabilidade em agentes de pesquisa profunda.
O aprendizado por reforço baseado em rubricas (RL) utiliza um LLM como Juiz (LaaJ) para pontuar as saídas do modelo de acordo com rubricas como recompensas. No entanto, os modelos de política podem explorar vieses latentes no juiz, levando ao hacking de recompensa e a resultados de treinamento ineficazes ou inseguros. Em ambientes reais de RL baseado em rubricas, tais comportamentos de hacking são frequentemente sutis e entrelaçados com múltiplos vieses do juiz, tornando-os difíceis de analisar, detectar e mitigar. Neste artigo, apresentamos o CHERRL, um ambiente de hacking controlável para RL baseado em rubricas. Ao injetar vieses conhecidos no LaaJ, o CHERRL permite a reprodução estável do hacking de recompensa, a observação explícita da divergência de recompensa e a identificação precisa do início do hacking. Isso fornece um ambiente experimental limpo para estudar os mecanismos e mitigações do hacking de recompensa em RL baseado em rubricas. Para demonstrar sua utilidade, analisamos diferentes vieses do juiz sob as perspectivas de descobribilidade e explorabilidade, e exploramos um sistema baseado em agente para detectar automaticamente o início do hacking de recompensa a partir dos logs de treinamento. O código e o ambiente estão disponíveis publicamente em https://github.com/THUAIS-Lab/CHERRL.
A destilação em poucas etapas tornou-se uma estratégia eficaz para acelerar modelos generativos visuais avançados, embora trabalhos anteriores tenham se concentrado majoritariamente nos objetivos de destilação. Neste estudo, revisitamos a destilação em poucas etapas a partir de uma perspectiva complementar, focando na receita de treinamento que molda criticamente o desempenho do estudante. Utilizando o Qwen-Image-2.0 como caso representativo, investigamos sistematicamente três fatores na destilação unificada de geração de texto para imagem e edição de imagem guiada por instrução: composição dos dados, orientação do professor e mistura de tarefas. Nossa análise empírica revela diversos comportamentos não óbvios, que motivam o desenvolvimento do Qwen-Image-Flash. De modo geral, nossos resultados sugerem que uma destilação eficaz em poucas etapas requer não apenas objetivos cuidadosamente projetados, mas também uma organização criteriosa do pipeline de treinamento mais amplo.
Agentes multimodais em robótica, realidade aumentada e direção autônoma precisam raciocinar sobre lugares e layouts a partir de fluxos egocêntricos contínuos, frequentemente utilizando evidências fora do campo de visão atual. Os benchmarks existentes ou avaliam offline sobre vídeos completos ou focam em eventos, em vez de estrutura espacial. Apresentamos o OVO-S-Bench, um benchmark totalmente anotado por humanos para inteligência espacial em streaming, composto por 1.680 perguntas sobre 348 vídeos fonte. A anotação envolveu 12 anotadores treinados, cada um atuando também como revisor cego, em aproximadamente 804 horas-pessoa de garantia de qualidade em múltiplas rodadas. Cada pergunta possui um timestamp de consulta e um intervalo de evidência, e na avaliação, o modelo vê apenas o prefixo anterior à consulta. As perguntas abrangem quatro níveis de abstração crescente: percepção egocêntrica instantânea, rastreamento de contexto espaço-temporal, simulação e raciocínio espacial, e mapeamento alocêntrico. Entre 38 MLLMs proprietários e de código aberto, o Gemini-3.1-Pro fica 27 pontos atrás de especialistas humanos, 59,2 vs. 86,6, sendo o mapeamento alocêntrico o gargalo dominante. Notavelmente, MLLMs ajustados para streaming e espacialidade apresentam desempenho inferior ao de suas próprias bases. Além disso, descobrimos que o raciocínio em cadeia de pensamento amplifica erros espaciais quando não fundamentado no fluxo. Ao expor essas limitações, o OVO-S-Bench estabelece um campo de testes exigente para a próxima geração de MLLMs espaciais em streaming.
Grandes Modelos de Raciocínio (LRMs) alcançaram progressos notáveis graças ao Aprendizado por Reforço com Recompensas Verificáveis (RLVR) em Cadeias de Pensamento (CoTs). No entanto, como CoTs longas naturalmente contêm tentativa e erro, e as abordagens convencionais de RLVR selecionam trajetórias de CoT corretas para memorização, as explorações redundantes em CoTs longas são inevitavelmente reforçadas, resultando nos problemas de excesso de pensamento dos LRMs. Tentativas anteriores de resolver esse problema atribuíam principalmente maior vantagem a trajetórias mais curtas, mas seus sinais de aprendizado ainda são baseados no resultado e não conseguem reduzir a memorização de explorações redundantes em CoTs longas. Portanto, propomos ThoughtFold, uma estrutura que utiliza aprendizado de preferência de granularidade fina para mitigar explorações redundantes em busca de raciocínio eficiente. ThoughtFold emprega uma estratégia introspectiva para identificar redundância dentro de cada trajetória correta, gerando um espectro de sub-trajetórias candidatas. Utilizando esse espectro, introduzimos um objetivo de otimização de preferência mascarada que penaliza explicitamente explorações redundantes e incentiva o modelo a conectar diretamente segmentos de raciocínio essenciais, efetivamente dobrando suas cadeias de raciocínio em um caminho mais conciso. Experimentos extensivos mostram que ThoughtFold melhora significativamente a eficiência. Ele reduz o uso de tokens do DeepSeek-R1-Distill-Qwen-7B em aproximadamente 56%, mantendo precisão de ponta.
À medida que os modelos multimodais avançam em direção à compreensão de vídeos longos, a memória emerge como uma capacidade crítica. Apesar de esforços substanciais no desenvolvimento de conjuntos de dados e benchmarks de vídeo, os trabalhos existentes focam principalmente em percepção e raciocínio, sem avaliar sistematicamente a memória: o que os modelos retêm, quão fielmente a informação é preservada e quão robusta a memória permanece sob interferência. Para preencher essa lacuna, introduzimos o M^3Eval, o primeiro framework de avaliação abrangente e benchmark para sondar diferentes dimensões da memória em modelos multimodais. Fundamentado na psicologia cognitiva, nosso design apresenta tarefas cuidadosamente construídas que isolam aspectos-chave da memória. Utilizando o M^3Eval, realizamos experimentos extensivos em modelos multimodais representativos, revelando fraquezas consistentes e comportamentos distintos. Descobrimos que os modelos têm dificuldade em manter representações separadas ao processar fluxos de vídeo paralelos, exibem padrões de interferência substancialmente diferentes dos observados na memória humana, fundamentam fontes de memória de forma mais confiável no domínio espacial do que no temporal e demonstram memória simbólica limitada. Coletivamente, nosso benchmark fornece um recurso valioso para pesquisas futuras, enquanto nossos achados destacam a memória como uma capacidade fundamental, porém subexplorada, e oferecem insights para projetar mecanismos de memória mais eficazes em modelos multimodais. Nosso código e conjunto de dados estão disponíveis em https://pku-value-lab.github.io/m3eval-homepage.
Os sistemas de raciocínio multiagente adotam um paradigma de "gerar-depois-transferir" que força a latência ponta a ponta a escalar linearmente com a profundidade do pipeline. Apresentamos o StreamMA, um sistema de raciocínio multiagente que transmite cada passo de raciocínio para agentes downstream assim que é gerado, criando um pipeline entre agentes adjacentes e, assim, reduzindo a latência. Surpreendentemente, esse pipeline também melhora a eficácia: como a qualidade do raciocínio em múltiplos passos não é uniforme e os passos iniciais são mais confiáveis que os posteriores, trabalhar com esses passos iniciais confiáveis, em vez da cadeia completa, impede que passos finais propensos a erros enganem os agentes downstream. Formalizamos ambas as vantagens com a primeira análise conjunta de forma fechada dos protocolos stream, serial e único, derivando a ordem de eficácia, o limite superior de aceleração e a razão de custo. Em oito benchmarks de raciocínio abrangendo matemática, ciências e código, dois LLMs de fronteira (Claude Opus 4.6 e GPT-5.4) e três topologias (Cadeia, Árvore, Grafo), o StreamMA supera ambas as linhas de base (média +7,3 pp, máximo +22,4 pp no HMMT 2026; Claude Opus 4.6-high). Além dessas contribuições, descobrimos uma "lei de escalonamento em nível de passo": aumentar os passos por agente melhora consistentemente tanto a eficácia quanto a eficiência, uma nova dimensão de escalonamento ortogonal e combinável com o escalonamento por contagem de agentes.
Apresentamos o Echo Infinity, uma estrutura autoregressiva (AR) para geração de vídeo infinito em tempo real que emprega uma memória evolutiva aprendível para filtrar, abstrair e comprimir dinamicamente qualquer histórico de comprimento a custo constante. Métodos existentes principalmente curam a memória com agendamentos de cache KV predefinidos, compressão heurística de razão fixa ou adaptação de RoPE em tempo de inferência. Esses designs inevitavelmente perdem informações históricas e amplificam erros compostos devido à sua janela de cache limitada e ignorância do ruído de geração autoregressiva. Inspirado pela consolidação da memória humana, o Echo-Infinity substitui a curadoria de memória artesanal por Consultas de Memória aprendíveis, que são atualizadas por atenção e um mecanismo de portão quando quadros passados são removidos da janela local. As consultas são otimizadas de ponta a ponta com os transformadores de difusão de vídeo (DiTs), formando uma memória evolutiva que suporta razões de compressão arbitrárias com computação constante independente do comprimento do vídeo. Elas também atuam como um prior de geração generalizável, melhorando a qualidade mesmo quando apenas o estado inicial otimizado é usado. Apresentamos ainda a Receita de RoPE Relativa Unificada, que ancora os quadros de sumidouro para começarem do id 0 e permite que o id do quadro mais recente cresça no máximo até o id máximo de RoPE temporal pré-treinado dos DiTs durante todo o treinamento e inferência, libertando o modelo da restrição finita de RoPE e fechando a lacuna de extrapolação de RoPE entre treino e teste. Na geração de vídeos longos e curtos, o Echo-Infinity alcança desempenho de ponta e, até onde sabemos, demonstra pela primeira vez rollouts em tempo real promissores de 24 horas (>1,3 M de quadros), sugerindo um caminho prático para a geração de vídeo infinito.
Os agentes de LLM estão evoluindo rapidamente de assistentes de codificação para sistemas autônomos de engenharia de software. No entanto, as metodologias de avaliação existentes permanecem amplamente centradas em benchmarks estáticos, isolados e de curto horizonte, que não capturam a complexidade dinâmica dos fluxos de trabalho de produção no mundo real. Como resultado, o desempenho nos benchmarks pode refletir mal a capacidade prática em ambientes de execução realistas que envolvem longas cadeias de execução, interações com ferramentas, gerenciamento de dependências e ciclos iterativos de feedback. Assim, apresentamos o RAMP, uma infraestrutura fundamentada na produção para avaliar agentes de engenharia de software de longo horizonte. Construído sobre a plataforma integrada YatCC, o RAMP fornece uma arquitetura unificada de avaliação em tempo de execução por meio de interfaces padronizadas de orquestração e execução. O RAMP introduz cargas de trabalho realistas de construção de compiladores, com dependências seriais e interações complexas de cadeias de ferramentas, juntamente com um mecanismo de recuperação em estágios para analisar o comportamento de execução sob falha parcial do fluxo de trabalho. A estrutura incorpora ainda métricas multidimensionais orientadas à utilidade que avaliam conjuntamente a qualidade do resultado e a eficiência do processo. Realizamos avaliações em tempo de execução em 15 modelos mainstream e observamos uma degradação substancial de capacidade, que permanece amplamente invisível para benchmarks isolados convencionais. As taxas de conclusão de tarefas colapsam progressivamente ao longo dos fluxos de trabalho seriais, caindo de 100% no estágio inicial para apenas 20% no estágio final, enquanto nenhum dos modelos avaliados conclui com sucesso todo o pipeline. A análise em tempo de execução revela propagação sistemática de falhas e ineficiências significativas de recursos, com custos computacionais diferindo em até três ordens de magnitude entre modelos comparáveis. Essas descobertas sugerem que o RAMP avança a avaliação de modelos agentes em direção a uma avaliação contínua, observável em tempo de execução e fundamentada na produção.
A autodestilação on-policy, na qual um modelo de linguagem condiciona-se a um contexto privilegiado para supervisionar suas próprias gerações, é uma fonte promissora de supervisão densa para aprendizado por reforço com recompensa esparsa. Na prática, isso pode ser instanciado como uma perda auxiliar de divergência reversa de Kullback-Leibler entre estudante e professor em vocabulário completo. Propomos, assim, o SDPG, uma estrutura de gradiente de política autodestilada que combina vantagens do verificador relativas ao grupo com desvio padrão normalizado, autodestilação on-policy exata em vocabulário completo, além de regularização KL da política de referência. Empiricamente, o SDPG melhora a estabilidade e o desempenho em relação ao RLVR e às linhas de base de autodestilação. O código está disponível em https://github.com/lauyikfung/SDPG.
A memória é uma capacidade indispensável para agentes LLM de horizonte longo, permitindo-lhes preservar e utilizar informações acumuladas ao longo de interações estendidas. As abordagens existentes de agentes com memória são tipicamente treinadas de ponta a ponta com aprendizado por reforço em tarefas downstream. No entanto, coletar problemas anotados de alta qualidade para cenários intensivos em memória é caro, e os dados de treinamento resultantes frequentemente carecem de diversidade suficiente para cobrir comportamentos gerais de memória. Neste trabalho, propomos o MemTrain, uma estrutura de treinamento auto-supervisionado para melhorar genericamente a capacidade de memória de contexto de agentes LLM, visando um pós-treinamento downstream mais eficaz. O MemTrain introduz duas tarefas proxy acopladas sobre corpora da Wikipedia não rotulados: (1) um objetivo de reconstrução mascarada de ponta a ponta, que exige que o modelo recupere entidades mascaradas após múltiplas rodadas de atualizações de memória, incentivando assim a manutenção da memória sob a perspectiva do resultado final; e (2) um objetivo de recordação de memória intermediária, que exige que o modelo reconstrua informações históricas mascaradas usando estados intermediários de memória, incentivando a compressão fiel e a completude da memória ao longo do processo de interação. Os dois objetivos são otimizados conjuntamente usando GRPO. Experimentos extensivos em benchmarks de QA de texto longo e QA baseado em busca demonstram que o MemTrain melhora consistentemente o desempenho downstream de raciocínio intensivo em memória em diferentes modelos, alcançando ganhos de até 17,67 pontos em relação ao pós-treinamento direto específico para a tarefa.
A correspondência de linha de base ampla (WBM) exige a integração de entendimento geométrico, mudanças de ponto de vista, percepção de granularidade fina e raciocínio de oclusão, tornando-se um teste desafiador para o raciocínio espacial em modelos de linguagem grandes multimodais (MLLMs) implantados em ambientes físicos. No entanto, os MLLMs atuais carecem de avaliação sistemática e estruturas de treinamento para essas capacidades. Apresentamos o ReasonMatch-Bench, um benchmark estratificado por deslocamento de ponto de vista e granularidade de correspondência em cenários internos, externos e centrados em objetos, e mostramos que os MLLMs atuais ainda enfrentam dificuldades com a correspondência de granularidade fina em linha de base ampla: em um subconjunto difícil de 90 amostras, anotadores humanos alcançam F1 de 84,0, enquanto a melhor linha de base existente atinge 37,2. Para preencher essa lacuna, construímos um pipeline escalável de geração de dados que extrai automaticamente pares de vistas de linha de base ampla a partir de grandes corpora de vídeo-3D, incluindo vídeos RGB-D e reconstruções SfM, gerando supervisão diversificada e verificável. Propomos ainda o Aprendizado por Reforço de Correspondência Dinâmica (DCRL), que combina a Progressão de Ponto de Vista em Nível de Imagem e o Currículo de Correspondência em Nível de Ponto para melhorar o treinamento de WBM por meio de recompensas verificáveis, sem supervisão explícita de CoT. Experimentos extensos mostram que o DCRL melhora substancialmente o ReasonMatch-Bench e se transfere para benchmarks espaciais relacionados, mantendo o desempenho geral de compreensão visual com ganhos modestos em vários benchmarks.
O abundante conhecimento processual disponível na Web possui grande potencial para ajudar agentes a resolver tarefas de longo horizonte. No entanto, esse conhecimento frequentemente é multimodal, heterogêneo, ruidoso e pressupõe implicitamente executores humanos, dificultando seu uso direto como as habilidades necessárias para os agentes. Para preencher a lacuna entre guias orientados a humanos e habilidades executáveis por agentes, formalizamos esse problema como aprendizado de guia para habilidade: converter guias da Web em habilidades executáveis e aprimorá-los continuamente a partir de trajetórias observáveis pelo agente. Para avaliar a capacidade dos agentes existentes nessa tarefa, apresentamos o MMG2Skill-Bench, o primeiro benchmark projetado para esse problema. Propomos ainda o MMG2Skill, um framework de ciclo fechado que compila guias em habilidades editáveis, condiciona um agente de modelo de visão-linguagem (VLM) fixo a essas habilidades durante a execução e revisa as habilidades a partir de feedback de causa raiz em nível de trajetória, sem usar pontuações de benchmark. Em controle de GUI, jogabilidade aberta e jogo de cartas estratégico com seis backbones de VLM, o MMG2Skill supera consistentemente os agentes baseline vanilla em todas as configurações de modelo-domínio, alcançando ganhos médios macro de +12,8 a +25,3 pontos percentuais entre os backbones. Estudos de ablação mostram que instruir diretamente os agentes com guias brutos pode degradar o desempenho, enquanto tanto a construção estruturada de habilidades quanto a revisão orientada por trajetórias são necessárias para as melhorias observadas. Em tarefas com sucesso inferível, a parada antecipada baseada em analisador previne ainda regressões de desempenho em estágio tardio e economiza de 25% a 53% das tentativas quando o sinal de sucesso está devidamente calibrado.
Mapas de nível de faixa são infraestruturas críticas para direção autônoma e navegação em nível de faixa, mas construir e manter redes de faixas padronizadas para centenas de cidades ainda é altamente intensivo em mão de obra. Métodos recentes de mapeamento vetorizado de ponta a ponta conseguem prever a geometria e a topologia das faixas diretamente a partir de dados de sensores, mas normalmente tratam as especificações de mapeamento e as regulamentações de trânsito como supervisão implícita e dependente do conjunto de dados. Além disso, em cenas complexas (por exemplo, marcações desgastadas ou ausentes e oclusões), as configurações corretas das faixas são frequentemente subdeterminadas apenas pelas evidências visuais, tornando as violações de especificação uma das principais fontes de pós-edição humana. Propomos o MapAgent, uma arquitetura agêntica de nível industrial que amplia uma espinha dorsal de vetorização para a produção de mapas de faixa em conformidade com as especificações. Em vez de apenas adicionar um loop de agente à previsão do mapa, o MapAgent combina a percepção da espinha dorsal com verificação explícita de especificações, raciocínio sensível a restrições e edição determinística de mapas sob um loop delimitado e orientado por verificação, composto por Juiz-Planejador-Trabalhador. Um Juiz de visão-linguagem diagnostica erros inspecionando conjuntamente as evidências visuais e os vetores do rascunho, enquanto um Planejador que invoca ferramentas gera correções mínimas editadas, com revalidação posterior à edição. Para permanecer escalável na produção em escala urbana, o MapAgent é acionado seletivamente apenas em tiles com baixa confiança da espinha dorsal, adicionando uma sobrecarga modesta enquanto mantém a taxa de transferência. Experimentos em conjuntos de dados reais mostram ganhos consistentes em relação a benchmarks de produção robustos, especialmente em cenários complexos e de cauda longa. Além disso, o MapAgent foi integrado ao Baidu Maps, apoiando a geração de mapas de nível de faixa para mais de 360 cidades em todo o país e elevando a automação geral da produção para mais de 95%, demonstrando a praticidade e a eficácia do MapAgent para geração de mapas de nível de faixa em grande escala.
A destilação on-policy (OPD) em grandes modelos de linguagem está se deslocando da supervisão KL de rastro completo para paradigmas de treinamento mais seletivos. Métodos recentes de OPD focam cada vez mais em selecionar quais trajetórias aprender, quais tokens são mais informativos e quais sinais de supervisão são mais confiáveis. Motivados por essa tendência, repensamos a granularidade de otimização da OPD e propomos \fireicon\ FiRe-OPD (Filter, then Reweight), que ajusta conjuntamente os sinais de supervisão nos níveis de trajetória e token. Em detalhes, o FiRe-OPD primeiro filtra as trajetórias para remover amostras de rollout de baixa qualidade e, em seguida, aplica reponderação suave dentro das trajetórias retidas para enfatizar tokens informativos. Comparado à seleção dura de tokens, o FiRe-OPD utiliza um mecanismo de ponderação suave para mitigar efetivamente a perda de informação e melhorar a estabilidade da otimização, alcançando assim uma otimização OPD de granularidade mais fina. Validamos a eficácia do FiRe-OPD em configurações forte-para-fraco, professor único e múltiplos professores, e demonstramos sua superioridade em relação a métodos recentes de OPD em nível de token (e.g., +6.25 no AIME 2024 em forte-para-fraco, +18.81 no Miner em múltiplos professores). Nosso código está disponível em https://github.com/YuYingLi0/FiRe-OPD.
Apresentamos o AAD-1, uma estrutura de Destilação Adversarial Assimétrica para geração de vídeo autorregressiva de uma etapa, a partir de imagem. Métodos de última geração adotam destilação adversarial, mas sofrem com colapso de movimento e instabilidade de treinamento, resultando em vídeos estáticos. O AAD-1 enfrenta esses desafios por meio de dois projetos-chave na arquitetura e na estratégia de treinamento. Nosso principal insight arquitetônico é quebrar a simetria entre gerador e discriminador. Enquanto o gerador permanece causal para preservar a capacidade de amostragem autorregressiva, o discriminador atende bidirecionalmente a todo o contexto espaçotemporal e produz uma única pontuação holística de realismo para toda a sequência de vídeo. Esse design assimétrico permite que o discriminador detecte eficazmente falhas temporais globais e desvios de longo alcance que causam colapso de movimento na geração autorregressiva. Para estabilizar o treinamento, introduzimos uma estratégia em fases que primeiro usa correspondência de distribuição para inicializar um gerador estável de uma etapa, fornecendo uma fase de aquecimento que aproxima a distribuição do aluno da do professor antes de iniciar a destilação adversarial. Experimentos extensivos no VBench demonstram que o AAD-1 alcança desempenho de última geração na geração de vídeo autorregressiva de uma etapa.
Métodos de Splatting de Gaussiano 3D feed-forward reconstroem uma cena a partir de imagens com pose ou sem pose em uma única passagem direta, porém as abordagens atuais preveem um Gaussiano por pixel de entrada, vinculando o orçamento de representação à resolução da câmera em vez da complexidade da cena. Uma parede lisa e um objeto com textura rica produzem, assim, igualmente muitos Gaussianos, apesar de necessidades geométricas muito diferentes. Propomos o ZipSplat, um modelo feed-forward baseado em tokens que desacopla o posicionamento dos Gaussianos da grade de pixels. Um backbone multi-visão extrai tokens visuais densos, e o agrupamento k-means os comprime em um conjunto compacto de tokens da cena. Atenção cruzada e auto-atenção refinam esses tokens, e um MLP leve decodifica cada um em um grupo de Gaussianos com posições 3D sem restrições. Como o agrupamento é aplicado na inferência, um único modelo treinado percorre a curva qualidade-eficiência sem retreinamento. O ZipSplat opera sem poses ou intrínsecos reais, mas estabelece um novo estado da arte no DL3DV e RealEstate10K com aproximadamente 6 vezes menos Gaussianos do que métodos alinhados por pixel, superando a melhor linha de base livre de pose em 2,1dB e 1,2dB de PSNR, respectivamente. Ele ainda generaliza zero-shot para Mip-NeRF360 e ScanNet++, superando todas as linhas de base comparáveis. Nossa página do projeto está em {https://veichta.com/zipsplat}.
Dados de pré-treinamento de alta qualidade são um ingrediente central em modelos de linguagem modernos, mas os recursos em língua alemã permanecem muito menos desenvolvidos do que seus equivalentes em inglês: são frequentemente menores, menos cuidadosamente curados, mal documentados e raramente validados por meio de experimentos de treinamento controlados. Apresentamos o KletterMix, um corpus alemão de alta qualidade para pré-treinamento e recozimento de modelos de linguagem, projetado como um artefato de conjunto de dados reutilizável para a comunidade de processamento de linguagem natural e modelagem. O KletterMix é construído traduzindo um corpus de pré-treinamento em inglês de última geração para o alemão, preservando os limites dos documentos, os metadados, a estrutura da fonte e a diversidade temática. Essa construção produz um corpus alemão com a escala e a diversidade de um conjunto de dados de pré-treinamento moderno, ao mesmo tempo que permite a comparação direta com sua fonte em inglês. Documentamos o conjunto de dados por meio de um amplo conjunto de análises em nível de corpus, incluindo qualidade da tradução, distribuições de comprimento de documentos, cobertura de tópicos, composição da fonte e metadados geográficos. Usando o COMETKiwi, mostramos que os documentos traduzidos alcançam alta qualidade em diversos domínios, sugerindo que uma tradução cuidadosa pode preservar grande parte da riqueza semântica e estilística do corpus original. Além da construção do conjunto de dados, avaliamos o KletterMix como dado de treinamento. Por meio de ablações controladas de pré-treinamento e recozimento contra corpora alemães estabelecidos, mostramos que modelos treinados no KletterMix alcançam melhorias mensuráveis em avaliações downstream em língua alemã. Esses resultados demonstram que dados traduzidos cuidadosamente curados podem fortalecer substancialmente o ecossistema de dados de pré-treinamento alemão.
O progresso científico e de engenharia é fundamentalmente um processo iterativo de longo horizonte: propor alterações, realizar experimentos, medir resultados e refinar continuamente artefatos. No entanto, os benchmarks existentes para modelos de fronteira avaliam predominantemente respostas de turno único ou trajetórias de agente de curto horizonte, não capturando os desafios da melhoria iterativa sustentada ao longo de horizontes temporais estendidos. Para preencher essa lacuna, apresentamos o AutoLab, um novo benchmark para otimização de malha fechada de horizonte ultra longo. O AutoLab consiste em 36 tarefas realistas, selecionadas por especialistas, abrangendo quatro domínios diversos: otimização de sistemas, quebra-cabeças e desafios, desenvolvimento de modelos e otimização de kernels CUDA. Cada tarefa começa com uma linha de base correta, mas deliberadamente subótima, e desafia os agentes a melhorá-la dentro de um orçamento estrito de tempo real. A avaliação de 17 modelos de ponta revela que o principal preditor de sucesso não é a qualidade da tentativa inicial de um agente, mas sua persistência em avaliar repetidamente, editar e incorporar feedback empírico. Enquanto o claude-opus-4.6 exibe fortes capacidades de otimização de longo horizonte, a maioria dos modelos de fronteira, incluindo vários proprietários, termina prematuramente ou esgota seus orçamentos com progresso mínimo. Esses resultados ressaltam a importância da consciência temporal e da iteração persistente em agentes autônomos. Disponibilizamos como código aberto o benchmark completo, o arcabouço de avaliação e os artefatos das tarefas, para acelerar a pesquisa em direção a agentes verdadeiramente capazes de atuar em horizontes longos.
Os benchmarks existentes para artefatos web gerados por MLLM avaliam a interação por meio de evidências locais e ignoram os estados e transições induzidos por requisitos que determinam se uma página funciona. Apresentamos o WebRISE, que compila requisitos de tarefas em Grafos de Contrato de Interação (ICGs) de estados observáveis, transições de intenção do usuário e asserções DOM/visuais para execução de navegador independente de implementação. O WebRISE abrange 442 tarefas em cinco modalidades de entrada (Texto, Markdown, Esboço, Imagem, Vídeo), com 5.495 transições e 5.271 verificações de requisitos que separam funções declaradas pelo usuário de restrições implícitas no nível do produto. Em 14 MLLMs, mesmo o modelo mais forte alcança apenas 65,6% de validade de transição e 66,3% de cobertura de requisitos, e a qualidade visual não é um substituto para o comportamento (Qwen3.6-35B-A3B em Markdown: V=80,8 mas T=15,5). O vídeo fornece o sinal de interação mais forte (+10,6 pp de cobertura implícita em relação ao Texto), enquanto as restrições implícitas persistem; a injeção de defeitos mostra que a pontuação baseada em ICG detecta erros de estado a uma taxa 2 a 16 vezes maior que a avaliação no estilo checkpoint.
A verificação estruturada de auditoria financeira é desafiadora para agentes baseados em modelos de linguagem porque a correção depende de evidências estruturadas, e não apenas de texto. Um modelo deve vincular fatos relatados a conceitos de taxonomia, percorrer relações de cálculo ou dimensionais e recalcular valores esperados antes de aplicar uma regra de auditoria. Propomos o AuditFlow, uma estrutura multiagente fundamentada em grafos que separa a busca adaptativa da verificação determinística. O AuditFlow constrói um ambiente simbólico a partir de um grafo estático da taxonomia US-GAAP e um grafo dinâmico de arquivos XBRL, expondo-os por meio de ferramentas tipadas para recuperação de fatos, navegação por taxonomia, verificação numérica e avaliação de regras. Dois auditores juniores inspecionam cada caso sob perspectivas regulatória e probatória, enquanto um auditor sênior resolve divergências e pode solicitar investigações adicionais. Os relatórios finais são fundidos por meio de agregação de evidências para produzir um veredito de auditoria, valor esperado, trilha de evidências e pontuação de confiabilidade. Em uma amostra FinMR derivada do FinAuditing, o AuditFlow atinge 82,09% de precisão conjunta de auditoria com GPT-5.5, superando a linha de base mais forte em 14,93 pontos. A remoção das verificações determinísticas reduz a precisão para 17,91%, demonstrando que o ambiente simbólico realiza a etapa de verificação que o modelo não consegue substituir de forma confiável.
Escalar a loco-manipulação humanóide requer demonstrações compatíveis com robôs em diversos objetos, movimentos de corpo inteiro e geometrias de cena, mas a teleoperação e a captura de movimento são difíceis de escalar porque cada coleta depende de configurações físicas, atores instrumentados e operação robótica. Apresentamos o GRAIL, um pipeline de geração digital que permanece completamente virtual até a implantação: ele compõe ativos 3D, cenas prontas para simuladores e priores de modelos fundamentais de vídeo (VFMs) para sintetizar interações sem reconstruir ambientes físicos ou teleoperar o robô. Em vez de reconstruir vídeos não restritos do mundo real, o GRAIL parte de configurações 3D totalmente especificadas nas quais a geometria do objeto, os parâmetros da câmera, a escala métrica, a profundidade do ambiente e um personagem com proporções robóticas são conhecidos antes da geração de vídeo e reutilizados durante a reconstrução. Essa configuração privilegiada condiciona melhor a recuperação 4D, permitindo rastreamento de objetos baseado em modelo, estimativa de movimento humano e otimização ciente da interação para reconstruir trajetórias métricas 4D de interação humano-objeto (IHO) com ambiguidade de profundidade e incompatibilidade morfológica reduzidas. Redirecionamos os movimentos recuperados para um robô humanóide e treinamos rastreadores complementares de tarefa geral: um adaptador latente ciente de objetos para manipulação e um rastreador ciente de cena para travessia de terreno. O GRAIL produz mais de 20.000 sequências abrangendo pegar, manipulação de objetos, sentar e travessia de terreno. Usando apenas dados gerados pelo GRAIL, treinamos políticas visuais egocêntricas por meio de um pipeline sim-para-real e as implantamos em um humanóide Unitree G1, alcançando 84% de sucesso no mundo real para pegar objetos diversos e 90% de sucesso para subir escadas.
Agentes de uso de computador expandem modelos de linguagem da geração de texto para a interação contínua com arquivos, terminais, navegadores e ferramentas externas. Essa mudança cria riscos de segurança difíceis de detectar a partir de instruções isoladas ou respostas finais, pois o dano muitas vezes emerge apenas através de trajetórias de execução de múltiplas etapas, cujas ações individuais parecem localmente inofensivas. Apresentamos o BraveGuard, uma estrutura de defesa auto-evolutiva para treinar modelos de guarda a partir de sinais de ameaças de mundo aberto e trajetórias realistas de agentes. O BraveGuard extrai fontes recentes de pesquisa para identificar riscos emergentes e padrões de ataque, instancia-os como tarefas executáveis de uso de computador, coleta rollouts dos agentes e deriva supervisão em nível de trajetória para o treinamento do modelo de guarda. Conforme novas ameaças e falhas de validação aparecem, o pipeline pode ser repetido, gerando um ciclo de defesa adaptativo, em vez de um processo de treinamento estático e orientado por benchmarks. Instanciamos o BraveGuard treinando múltiplos backbones de guarda, incluindo variantes do Qwen3-Guard e do Llama-Guard, e avaliamos os guardas resultantes em benchmarks de segurança de agentes em nível de trajetória. O BraveGuard melhora consistentemente a detecção de segurança em trajetórias de uso de computador. No AgentHazard, ele melhora substancialmente a precisão de detecção em relação a modelos de guarda prontos para uso, com a precisão aumentando de 38,79% para 82,38% na configuração média de modelo de guarda. Esses resultados mostram que a supervisão de guarda baseada na descoberta de ameaças de mundo aberto e na execução realista de agentes pode aprimorar o monitoramento de segurança além de taxonomias fixas e dados sintéticos em nível de instrução. O BraveGuard oferece um caminho escalável para defesas adaptativas para agentes de uso de computador que enfrentam riscos reais em evolução.
O rápido progresso dos modelos de linguagem de grande escala de fronteira levou a uma saturação generalizada de benchmarks, limitando a capacidade dos conjuntos de dados existentes de diferenciar as capacidades dos modelos ou fornecer sinais de treinamento úteis. Por exemplo, no LiveCodeBench, os modelos de fronteira alcançam mais de 99% de Pass@1 em divisões fáceis e excedem 90% de Pass@1 em média entre os níveis de dificuldade. Construir novos conjuntos de dados desafiadores geralmente requer esforço humano substancial, criando um gargalo para o progresso. Apresentamos o BenchEvolver, um framework evolucionário centrado em soluções que transforma automaticamente problemas de programação existentes em variantes mais difíceis. Em vez de gerar problemas do zero, o BenchEvolver evolui soluções de referência por meio de transformações estruturadas e deriva enunciados e testes correspondentes a partir das soluções evoluídas. Esse design fundamenta a geração em semântica executável, permitindo a construção escalável de tarefas de alta qualidade, diversas e difíceis, com correção verificável. Aplicando o BenchEvolver ao LiveCodeBench e ao SciCode, obtemos tarefas evoluídas que são substancialmente mais difíceis, mantendo validade, correção de referência e diversidade. Além disso, curamos o LiveCodeBench-Plus, um benchmark de 91 problemas que combina tarefas evoluídas e tarefas originais difíceis do LCB-v6, onde o Pass@1 dos modelos de fronteira varia de 27,5% a 62,6%, restaurando uma discriminação clara entre modelos de codificação fortes. É importante notar que as tarefas evoluídas permanecem desafiadoras até mesmo para o modelo que as gera, permitindo autoaperfeiçoamento. Mostramos ainda que o RL em tarefas evoluídas do LCB melhora o desempenho de codificação em conjuntos de validação não vistos: para o gpt-oss-20b, o treinamento com semente + evoluído alcança ganhos de +8,7 e +8,3 no Pass@1 no LCB v6 Hard e no LCB-Pro Easy, superando os ganhos apenas com semente em 70,7% e 34,8%, respectivamente. Nossos resultados mostram que o BenchEvolver pode converter benchmarks saturados em suítes de avaliação de nível de fronteira e em sinal de treinamento reutilizável.
Como pode uma população de agentes auto-orquestrar-se e auto-adaptar-se para formar uma inteligência coletiva mais forte sem controle centralizado? Inspirados pela teoria econômica de Friedrich Hayek sobre coordenação descentralizada em mercados, estudamos esta questão através de uma economia de agentes na qual estes competem via leilões pelo direito de agir, trocam pagamentos e acumulam riqueza a partir de recompensas ambientais. Esses sinais econômicos simples induzem uma atribuição descentralizada de crédito, impulsionando o planejamento sem orquestração global ou protocolos explícitos de comunicação. A população evolui por meio de seleção econômica: agentes eficazes acumulam riqueza e sofrem mutações via exploração, enquanto os ineficazes vão à falência e são substituídos via exploração. Mostramos que, ao serem inicializados com agentes fracos, a economia produz estratégias emergentes de raciocínio em múltiplas etapas e supera linhas de base monolíticas mais fortes em cinco tarefas agentivas, incluindo raciocínio matemático, pesquisa financeira, pesquisa científica, design de aceleradores e otimização de sistemas distribuídos. Oferecemos ainda insights teóricos sobre como as dinâmicas econômicas moldam os comportamentos dos agentes, conectando incentivos locais ao desempenho global de longo prazo. Nossos resultados sugerem um novo caminho para a inteligência multiagente: em vez de projetar coordenação, podemos conceber estruturas descentralizadas de incentivos sob as quais ela emerge automaticamente.
Compreender como a estrutura interna estruturada emerge durante o treinamento de redes neurais é central para o estudo do aprendizado profundo. Investigamos esse fenômeno através da tarefa de composição de grupo, onde uma rede neural de duas camadas é treinada para prever \( g_1 \star g_2 \) para elementos de um grupo finito \( G \). Elevando o fluxo gradiente projetado ao domínio de Fourier, demonstramos que a dinâmica de treinamento é governada por uma ascensão gradiente Riemanniana em um funcional de energia da teoria de representação. Provamos que, sob inicialização aleatória, esse fluxo leva cada neurônio a convergir quase certamente para uma única representação irredutível, enquanto os coeficientes de Fourier entre camadas alcançam um alinhamento rotacional de posto um. Esse quadro fornece uma explicação baseada na teoria de representação para o aprendizado de características e caracteriza um novo fenômeno de compressão de posto baixo para representações de grupo com valores matriciais. Além disso, para grupos abelianos, fornecemos uma descrição completa ao nível da população: a inicialização aleatória promove uma diversificação uniforme entre representações não triviais e induz fases uniformes de Haar, aproximando conjuntamente o indicador por meio de um mecanismo de votação majoritária. Provamos ainda que tanto o alinhamento de fase quanto a competição de representação emergem com taxas de convergência exponencial.
A mesclagem de modelos no espaço de pesos é geralmente formulada como uma operação algébrica sobre checkpoints, mas, na escala de LLMs, o recurso limitante é frequentemente o conjunto de pesos especialistas que precisam ser lidos. Apresentamos o MergePipe, uma camada de execução consciente de orçamento que trata a mesclagem de LLMs como um problema de conjunto de acesso a especialistas: dado um operador de mesclagem e uma família de checkpoints em um sistema de coordenadas de pesos compartilhado, selecionar quais blocos delta de especialistas acessar sob um orçamento explícito de E/S. O MergePipe indexa blocos de parâmetros, constrói planos de acesso determinísticos e executa a mesclagem orçada induzida com manifestos reproduzíveis. O plano é válido em relação ao orçamento por construção e recupera a mesclagem de leitura completa no orçamento total; para operadores aditivos de coeficiente fixo, o erro de atualização omitida é limitado pela norma dos deltas omitidos. Em cargas de trabalho de mesclagem Qwen e Llama, o MergePipe reduz a E/S de leitura de especialistas em até uma ordem de magnitude e alcança acelerações de até 11 vezes. Varreduras de orçamento representativas mostram desvio de parâmetros da ordem de \(10^{-3}\) em relação às mesclagens de leitura completa e nenhuma degradação monotônica em benchmarks downstream.
A Atribuição de Dados de Treinamento (TDA) busca rastrear as previsões de um modelo até seus dados de treinamento. O padrão ouro para TDA baseia-se em intervenções causais, observando como um modelo muda quando dados são adicionados ou removidos, mas o retreinamento repetido é computacionalmente desafiador para Modelos de Linguagem de Grande Porte (LLMs). Consequentemente, a maioria das abordagens aproxima esse efeito no espaço de parâmetros usando gradientes. No entanto, rastrear gradientes através de bilhões de parâmetros não é apenas proibitivamente caro, mas também depende de aproximações locais. Neste trabalho, propomos uma mudança: em vez de estimar mudanças nos parâmetros, modelamos o efeito funcional dos dados de treinamento no espaço de ativações. Apresentamos o STRIDE (Decomposição de Influência de Dados de Treinamento Baseada em Direcionamento), uma estrutura que formula a TDA como um problema de recuperação esparsa no espírito da compressão de sensoriamento. O STRIDE aprende "operadores de direcionamento" leves que imitam a mudança comportamental causada pelo treinamento em subconjuntos de dados. Ao medir como esses operadores perturbam as previsões de teste, recuperamos as influências individuais de exemplos de treinamento por meio de decomposição linear esparsa. O STRIDE atinge o estado da arte para atribuição de pré-treinamento de LLM, sendo uma ordem de magnitude (13 vezes) mais rápido que trabalhos anteriores. Validamos ainda sua utilidade prática por meio de aplicações downstream, incluindo seleção de dados, contaminação de dados e análise qualitativa.
O raciocínio deôntico é a tarefa de responder a perguntas aplicando regras e políticas explícitas a fatos específicos de cada caso, por exemplo, calculando a obrigação tributária de acordo com uma lei ou determinando o resultado de um recurso de imigração. Um desafio técnico fundamental para o raciocínio deôntico baseado em LLMs é que o conjunto de regras relevante pode ser longo e referenciado de forma cruzada, de modo que os modelos ainda podem falhar em localizar as regras necessárias para uma etapa específica de raciocínio. Apresentamos o Deontic Agentic Reasoning (DAR), uma configuração de raciocínio agentivo na qual o modelo interage com as leis sob demanda. Avaliamos o DAR sob múltiplos arcabouços em subconjuntos difíceis do DeonticBench. Nessas configurações, constatamos que arcabouços agentivos podem ampliar os limites em tarefas de raciocínio deôntico, mas as melhorias não são uniformes: modelos mais fracos frequentemente pioram em tarefas numéricas, consumindo muito mais tokens.
Grandes modelos de linguagem (LLMs) estão sendo cada vez mais propostos como agentes clínicos, no entanto, benchmarks estáticos e de turno único não conseguem capturar como um modelo entrega cuidados dinamicamente ao longo de um encontro clínico: coletando informações, planejando tratamento e adaptando o manejo longitudinal em estados sucessivos do paciente. A educação médica há muito enfrenta um desafio análogo por meio de pacientes padronizados (SPs): atores treinados que retratam casos clínicos de forma consistente, permitindo prática realista e avaliação objetiva e roteirizada. Aqui apresentamos o MedSP1000, um benchmark interativo derivado de SPs para avaliação de agentes clínicos, incluindo 1.638 casos de SPs com 24.602 rubricas em nível de trajetória revisadas por pares. O MedSP1000 converte casos de ensino de SPs revisados por pares em cenários executáveis com roteiros definidos de casos de SPs, contextos de ambiente clínico e rubricas estruturadas validadas por humanos. Em cada execução de avaliação simulada, um agente clínico interage em malha fechada com um agente paciente e um controlador de ambiente, e seu comportamento é pontuado ao longo do encontro com base em critérios especialistas especificados nos materiais originais. Aplicando o MedSP1000 a uma variedade de LLMs de uso geral e especializados em medicina, descobrimos que o desempenho em benchmarks estáticos não se traduz de forma confiável para esses cenários educacionais. O modelo com melhor desempenho, GPT-5.5, completa apenas 60,4% dos itens das rubricas definidas por especialistas, enquanto o modelo especializado em medicina mais forte atinge 40,0%; aumentar o tempo de computação durante o teste não produz ganhos mensuráveis. Esses resultados sugerem que os LLMs atuais, incluindo sistemas agentes ajustados para medicina, ainda não são confiáveis o suficiente para serem integrados com segurança na prática clínica real. De forma mais ampla, o MedSP1000 mostra como a avaliação em nível de processo, no estilo SP, pode revelar modos de falha clinicamente relevantes que benchmarks de turno único não detectam.
Os sistemas de tradução de fala abrangem cada vez mais a tradução de fala para texto (S2TT), a tradução de fala para fala (S2ST), a tradução offline e a geração em streaming, produzindo saídas que diferem em modalidade, realização da fala e comportamento temporal. As práticas de avaliação existentes avaliam aspectos importantes, como qualidade da tradução, qualidade da fala e qualidade temporal, mas esses aspectos são frequentemente avaliados sob protocolos separados, dificultando a comparação abrangente de sistemas heterogêneos. Para preencher essa lacuna, apresentamos o OpenSTBench, um framework unificado de avaliação multidimensional que organiza saídas heterogêneas de tradução de fala em um formato de avaliação compartilhado. O OpenSTBench suporta sistemas S2TT e S2ST em configurações offline e em streaming, e avalia conjuntamente a qualidade da tradução, a qualidade da fala, a preservação do locutor, a fidelidade emocional e paralinguística, a consistência temporal e a latência. Por meio de experimentos em sistemas representativos de tradução de fala, mostramos que sistemas com forte qualidade de tradução ainda podem diferir substancialmente em qualidade da fala, bem como em qualidade temporal. O OpenSTBench fornece um protocolo reprodutível para analisar essas diferenças entre dimensões e apoiar a comparação orientada a aplicações de sistemas de tradução de fala. O código e os conjuntos de dados estão disponíveis em https://github.com/sjtuayj/OpenSTBench.
O treinamento e a escalabilidade de Grandes Modelos de Linguagem exigem enormes recursos computacionais, motivando tanto arquiteturas subquadráticas eficientes quanto métodos fundamentados de ajuste de hiperparâmetros. Embora a Maximal Update Parametrization (μP) tenha possibilitado a transferência zero-shot de hiperparâmetros para Transformers padrão, sua extensão para modelos lineares, particularmente aqueles com transições de estado estruturadas e arquiteturas complexas, permanece amplamente inexplorada. Propagando rigorosamente estimativas de tamanho de coordenadas através da passagem direta, mecanismos de portão e dinâmicas de estado recorrente, derivamos as regras de escalabilidade para a Gated Delta Network. Experimentos de pré-treinamento de modelos de linguagem confirmam que nossas configurações possibilitam a transferência estável da taxa de aprendizado entre larguras de modelo sob ambos AdamW e SGD, enquanto a parametrização padrão falha na transferência, validando a correção e a utilidade prática de nossa análise.
Apresentamos o Stable-Layers, um quadro de aprendizado por reforço que elimina a necessidade de supervisão pareada ao ajustar um modelo de decomposição de camadas pré-treinado utilizando apenas o feedback de um modelo de linguagem-visão (VLM). Partindo do Qwen-Image-Layered, aplicamos o Flow-GRPO com adaptação LoRA, amostrando múltiplas decomposições candidatas por imagem, pontuando-as com um VLM e otimizando a política a partir de vantagens relativas ao grupo. O principal desafio reside em projetar um sinal de recompensa confiável: VLMs que pontuam amostras isoladamente tendem a comprimir seus julgamentos em uma faixa estreita, deixando o GRPO com pouca variância intragrupo para aprender. Abordamos isso com um pipeline de avaliação em duas etapas que combina pontuação estruturada por amostra em cinco critérios centrados em edição com uma etapa de calibração baseada em grade, na qual o VLM reavalia todos os candidatos lado a lado. O Stable-Layers produz decomposições com separação de camadas mais forte, menos camadas vazias ou com artefatos e menor erro de reconstrução por camada no conjunto de dados Crello em comparação com o modelo base.
Embora os modelos multimodais atuais sejam proficientes em edição visual de formato livre, executar edições precisas de resposta única ainda representa um obstáculo importante. Para investigar esse desafio, apresentamos o PaintBench, um benchmark dinamicamente escalável que aborda 20 operações fundamentais de edição visual precisa em quatro categorias: transformação geométrica, manipulação estrutural, alteração de cor e raciocínio simbólico. A geração procedural com complexidade configurável possibilita um conjunto de avaliação efetivamente infinito e resistente a contaminação, e a avaliação determinística em nível de pixel elimina a dependência de modelos avaliadores propensos a viés. Em 11 modelos de edição de imagem, observamos desempenho geralmente baixo, com o atual líder da indústria com melhor desempenho obtendo apenas 17,1% (mIoU). A decomposição de tarefas revela tipos de operação especialmente desafiadores (transformação geométrica, a maioria das manipulações estruturais, alteração de cor baseada em fórmula) e especializações específicas de modelo. Diagnósticos detalhados do benchmark mostram ainda degradações de desempenho induzidas por variações de cena na contagem de objetos, complexidade de fundo, esquema de cores e tamanho da região de edição. Para testar a generalização das pontuações do PaintBench para o desempenho em tarefas aplicadas, criamos uma avaliação procedural e determinística para edição de visualização de dados (TinyGrafixBench) e encontramos uma forte correlação linear com as pontuações do PaintBench (R² = 0,91, p < 0,001). No geral, o PaintBench fornece uma base rigorosa para medir e impulsionar o progresso na edição visual multimodal precisa.
Os agentes de modelo de linguagem de grande escala (LLM) estão evoluindo de assistentes de solicitação-resposta para atores de software de longa duração: eles mantêm estado entre chamadas de modelo, bifurcam subtarefas, aguardam eventos externos, solicitam autorização humana, geram ferramentas e realizam efeitos colaterais que precisam ser retomados e auditados. Este artigo apresenta o Agent libOS, um substrato de runtime inspirado em sistema operacional de biblioteca para agentes LLM. O Agent libOS é executado acima de um sistema operacional hospedeiro convencional; ele não implementa drivers de hardware, isolamento em modo kernel ou um sistema operacional compatível com POSIX. Em vez disso, trata um agente como um AgentProcess: um sujeito de execução escalonável com identidade de processo, linhagem pai-filho, estado de ciclo de vida, uma tabela de ferramentas derivada de um AgentImage, Memória de Objetos tipada, capacidades explícitas, filas humanas, pontos de verificação, eventos e registros de auditoria. Sua regra central de design é que ferramentas são wrappers semelhantes à libc; primitivas de runtime constituem o limite de autoridade. Acesso ao sistema de arquivos, acesso a objetos, dormidas, aprovação humana, registro de ferramentas JIT e efeitos colaterais externos são verificados nos limites das primitivas sob capacidades e políticas explícitas. Descrevemos o design, o modelo de ameaça, o protótipo em Python e a avaliação orientada à segurança. O protótipo atual implementa escalonamento assíncrono, Memória de Objetos local ao namespace, aprovação humana integrada ao runtime, concessões de permissão únicas, diretórios de trabalho por processo, primitivas de shell e registro de imagem, ferramentas JIT Deno/TypeScript sobre um broker de chamadas de sistema do libOS, ferramentas de ponte entre sistema de arquivos/objetos, um Substrato Provedor de Recursos injetável, demonstrações determinísticas, scripts de fumaça com modelos reais e 123 testes de regressão no momento da redação. Em vez de melhorar a precisão do planejador, o Agent libOS demonstra um substrato de runtime no qual agentes LLM de longa duração podem ser escalonados, autorizados, retomados e auditados sem tratar o despacho de ferramentas como o limite de confiança.
Os humanos podem perceber sem esforço layouts espaciais, formar representações cognitivas, raciocinar sobre relações espaciais e traduzir esse raciocínio em ações em ambientes 3D cotidianos. Embora modelos recentes de visão-linguagem (VLMs) tenham mostrado desempenho promissor em tarefas de percepção e raciocínio espacial condicionadas por observação, ainda não está claro se eles conseguem construir uma compreensão espacial coerente, agir com base nela e refinar suas ações por meio de feedback em múltiplas rodadas. Para estudar esse problema, apresentamos o SpatialAct, um benchmark baseado em simulador para investigar o raciocínio espacial condicionado por ações em cenas 3D. Partindo do cenário mais desafiador, Refinamento Interativo em Múltiplas Rodadas, projetamos ainda sua contraparte decomposta, Detecção e Correção de Erros em Etapa Única, juntamente com cinco tarefas fundamentais de habilidade espacial para diagnosticar as causas subjacentes das falhas dos modelos. Os experimentos revelam uma clara lacuna entre raciocínio e ação: os VLMs atuais podem ter um bom desempenho em tarefas isoladas de raciocínio espacial, mas têm dificuldade em manter crenças espaciais coerentes e produzir ações confiáveis durante o feedback em múltiplas rodadas, apresentando desempenho substancialmente inferior ao dos humanos. Esses resultados sugerem que os agentes VLM atuais ainda carecem de um rastreamento robusto do estado espacial sob mudanças ambientais induzidas por ações, mesmo quando o controle de baixo nível é abstraído.
LLMs podem parecer cautelosas em tarefas de tomada de decisão sob risco, mas resultados que aparentam cautela não indicam necessariamente alinhamento com os mecanismos de decisão humanos. Investigamos essa distinção utilizando o jogo de São Petersburgo como um teste controlado, um paradoxo clássico no qual o retorno esperado é infinito, embora os seres humanos tipicamente relatem uma disposição a pagar baixa e finita. Avaliamos 28 LLMs com um conjunto estruturado de prompts que inclui o jogo original; variantes controladas de decisão que alteram truncamento, repetição, dotação numérica e identidade ocupacional; um prompt de perspectiva humana que solicita que os modelos raciocinem como tomadores de decisão humanos; e comparações pareadas entre modelos base e suas versões ajustadas por instrução. No jogo original, a maioria dos modelos gera lances finitos, criando a aparência de comportamento de risco semelhante ao humano. Contudo, essa semelhança ao nível do resultado mascara diferenças substanciais ao nível do mecanismo. As variantes controladas revelam que, em vez de manter o comportamento humano observado no jogo original, os modelos frequentemente mudam para um comportamento condicional e computacionalmente racional. O uso de prompts com sinais humanos e o ajuste por instrução frequentemente reduzem os lances e atenuam algumas patologias visíveis, mas a maioria dos padrões de resposta ao nível do mecanismo permanece amplamente inalterada. Esses achados mostram que o alinhamento comportamental na tomada de decisão sob risco pode ser superficial: LLMs podem produzir decisões de risco semelhantes às humanas sem exibir mecanismos consistentes com os humanos. Avaliações de alto risco da tomada de decisão de LLMs devem, portanto, ir além da similaridade de resultados e examinar se o alinhamento é sustentado por consistência ao nível do mecanismo.
A teoria de Koopman transforma dinâmicas não lineares em um problema espectral linear. Na computação, contudo, tudo depende de uma escolha difícil em dimensão finita: os observáveis devem ser expressivos, aproximadamente invariantes sob a dinâmica e, idealmente, compatíveis com composição. Métodos profundos de Koopman aprendem coordenadas flexíveis, enquanto métodos que preservam estrutura impõem identidades de operadores em dicionários fixos. Combinamos essas ideias ao introduzir a Decomposição em Modos Dinâmicos Multiplicativa com Incorporação Profunda (DeepMDMD), um método que aprende um espaço latente e uma partição dele, ao mesmo tempo em que impõe a regra do produto de Koopman como uma restrição algébrica exata. O treinamento alterna entre uma atualização exata do operador multiplicativo e uma etapa de agrupamento latente diferenciável que promove o fecho de Koopman. O resultado é um mapa de transição finito sobre células latentes aprendidas. Seu espectro não nulo situa-se no círculo unitário, seu dicionário é moldado pela dinâmica, e não pela geometria ambiente, e as previsões são feitas em coordenadas latentes antes de serem decodificadas para o espaço físico. Através de exemplos Hamiltonianos, caóticos e de fluidos, o DeepMDMD aprende dicionários muito mais compactos e dinamicamente coerentes do que aqueles produzidos por partições MDMD geométricas. Reduz a poluição espectral, revela estrutura de espectro contínuo mais rica e fornece previsões estáveis sob ruído severo. Em escoamentos de alta dimensão, incluindo uma esteira de cilindro com 158.624 dimensões e uma cavidade com tampa deslizante ruidosa com Re=20.000, ele preserva estruturas coerentes e estatísticas espectrais de longo prazo onde o MDMD no espaço de estados falha. Esses resultados sugerem uma regra prática para o aprendizado de Koopman: aprenda as coordenadas, restrinja a álgebra.
A geração autoregressiva de malhas tem atraído atenção ao tokenizar malhas em sequências e treinar modelos no estilo de modelagem de linguagem. No entanto, as abordagens existentes sofrem de duas limitações fundamentais: (i) baixa eficiência de tokenização, que gera longas sequências de tokens e impede a expansão para malhas de alta poligonal, e (ii) ausência de orientação ciente da geometria, pois a geração é condicionada apenas a *embeddings* globais de forma, em vez de pistas locais de superfície. Apresentamos o MeshWeaver, uma estrutura autoregressiva que trata a geração de malhas como um processo de tecelagem de superfície, prevendo diretamente o próximo vértice em vez de coordenadas independentes. Em seu núcleo está um codificador de voxels esparsos em vários níveis que injeta contexto geométrico no processo generativo de três maneiras complementares: fornecendo características de voxels como representações de vértices, orientando a previsão de tokens por meio de atenção cruzada às características de voxels, e servindo como um andaime estrutural que restringe a geração em torno da superfície de entrada. Nosso *design* hierárquico permite a previsão de vértices de grosso a fino em uma única etapa de decodificação, enquanto acopla firmemente o modelo generativo com a geometria 3D. Extensos experimentos demonstram que o MeshWeaver alcança uma taxa de compressão de última geração de 18%, pode gerar malhas com até 16 mil faces e melhora significativamente a fidelidade geométrica em relação às abordagens anteriores.
Modelos de difusão emergiram como a espinha dorsal da IA generativa moderna, impulsionando avanços em visão, linguagem, áudio e outras modalidades. Apesar de seu sucesso, eles sofrem de alucinações — amostras implausíveis que estão fora do suporte da verdadeira distribuição dos dados —, o que degrada a confiabilidade e a confiança. Neste trabalho, primeiro confirmamos empiricamente a hipótese previamente proposta de que a suavidade do score causa alucinações em modelos de difusão de geração de imagens, e fornecemos uma perspectiva baseada em densidade. Formalizamos ainda essa noção ao vincular a massa de probabilidade de alucinação à constante de Lipschitz da função de score aprendida. Motivados por isso, introduzimos uma estratégia de Modulação de Score Guiada por Variância (VSM) que controla o Jacobiano do score, reduzindo assim a suavidade do score e aproximando melhor o score real, o que diminui as alucinações. Resultados empíricos em conjuntos de dados sintéticos e do mundo real demonstram que nossa abordagem reduz alucinações (em até ~25%) enquanto mantém alta fidelidade e diversidade, representando um passo fundamentado em direção a uma geração de imagens baseada em difusão mais confiável. Propomos também dois conjuntos de dados de referência com variação semântica extrema para avaliação sistemática de alucinações. O código e os conjuntos de dados estão disponíveis publicamente em https://github.com/bhosalems/VSM.
Modelos de Linguagem Gráfica (GLMs) tornaram-se uma direção promissora para adaptar Grandes Modelos de Linguagem (LLMs) a tarefas de aprendizado em grafos. Ao transformar a topologia do grafo e as informações dos nós em tokens gráficos, os GLMs permitem que os LLMs processem conjuntamente entradas estruturadas de grafos e instruções textuais. No entanto, ainda não está claro como os LLMs interpretam internamente esses tokens gráficos e se os tokens gráficos atuam como portadores significativos da estrutura do grafo. Neste trabalho, analisamos como os LLMs processam informações de grafos por meio do comportamento dos tokens gráficos em arquiteturas representativas de GLMs. **Resultados.** Constatamos que a saliência interna dos tokens gráficos nos GLMs não é equivalente à utilização das informações do grafo. Tokens gráficos sumidouro emergem consistentemente como outliers no nível de ativação: eles podem ser identificados por valores massivos de ativação ao longo de um pequeno conjunto de dimensões do estado oculto e são tendenciosos para as primeiras posições dos tokens gráficos. No entanto, essa saliência no nível de ativação não implica que esses tokens sejam os principais portadores das informações do grafo. Diferentemente dos sumidouros de atenção clássicos em modelos de linguagem e visão-linguagem, os tokens gráficos sumidouro não necessariamente atraem os maiores pesos de atenção dos tokens de consulta. Por meio de intervenções de poda, reposicionamento e troca, mostramos que os tokens gráficos sumidouro não são os tokens semânticos ou estruturais mais importantes para a predição downstream. **Implicações.** Em conjunto, esses resultados sugerem que, após os GLMs atuais mapearem a estrutura do grafo para o espaço de tokens dos LLMs, as representações resultantes dos tokens gráficos não formam naturalmente uma representação interna totalmente utilizável e ciente da topologia; em vez disso, exibem um desacoplamento entre a saliência no nível de ativação e a utilidade grafo-semântica. Esse desacoplamento aponta para limitações nos mecanismos existentes de construção, posicionamento e alinhamento de tokens gráficos.
Grandes modelos de linguagem melhoram a precisão das respostas finais por meio de raciocínio em cadeia de pensamento estendido, mas frequentemente gastam tokens de forma ineficiente e oferecem pouco controle em tempo de inferência. Métodos existentes de raciocínio eficiente controlam o tempo de pensamento encurtando, interrompendo precocemente ou comprimindo trajetórias, deixando implícito como o modelo pensa. Neste artigo, propomos o Agentic Chain-of-Thought Steering (ACTS), que formula o direcionamento do raciocínio como um processo de decisão de Markov onde um agente controlador direciona adaptativamente um raciocinador congelado durante a inferência. A cada passo, o controlador observa a trajetória de raciocínio e o orçamento de pensamento restante, e então emite uma ação de direcionamento composta por uma estratégia de raciocínio e uma frase de direcionamento que inicia o próximo passo do raciocinador. Isso permite o controle de estratégia ciente de orçamento para raciocínio eficiente, preservando a continuidade de geração do raciocinador. Inicializamos o agente controlador a partir de nossas trajetórias de direcionamento sintéticas construídas com aumento multi-orçamento, e o otimizamos ainda mais por meio de aprendizado por reforço com modelagem de recompensa condicionada ao orçamento. Experimentos em diversos benchmarks mostram que o ACTS atinge desempenho equivalente ao pensamento completo com economia substancial de tokens, e possibilita compensações controláveis entre precisão e eficiência em diferentes raciocinadores e tarefas. O código está disponível em https://github.com/Andree-9/ACTS.
A teoria da equivariância prevê que um prior de simetria arquitetural reduz a complexidade amostral por um fator de |G|; isso é amplamente citado, mas raramente medido como uma lei de escala com controles que separem o prior de seus confundidores. Em uma tarefa controlada com simetria C_n, reportamos três descobertas. Primeiro, um controle de grupo errado com tamanho de órbita idêntico e computação equiparada é pior do que nenhuma restrição (IC pareado conjunto [+0,79, +3,26] exclui zero, robusto entre estimadores); uma restrição desalinhada é ativamente prejudicial, não apenas inútil. Segundo, uma linha de base de aumento equipada com média de órbita no teste corresponde exatamente ao modelo equivariante — curvas de validação por época bit a bit idênticas em células pareadas —, portanto, a lacuna arquitetura versus aumento é condicional à computação assimétrica no teste, não incondicional. Terceiro, a taxa de câmbio relativa beta_diff = 1,28 é consistente em sinal e ordem de grandeza com o valor teórico de 1,0 (IC de nível único [+0,92, +2,05]); o bootstrap mais conservador de dois níveis (sementes × tamanhos de grupo) amplia isso para [-0,63, +1,72], incluindo zero, e uma replicação com N mais fino em uma grade de espaçamento √2 é inconclusiva (estimativa pontual -0,82). As contribuições metodológicas — o estimador de taxa relativa que cancela o confundidor de dificuldade compartilhada, o controle de grupo errado e uma taxonomia de falhas pré-especificada — são transferíveis para qualquer viés indutivo cuja força possa ser parametrizada. Escopo honesto: o estimador primário beta_diff foi adotado post-hoc após a análise inicial revelar um problema de identificabilidade de inclinação positiva; o design nunca foi pré-registrado externamente; e o número principal depende de uma inclinação OLS sobre sete tamanhos de grupo em uma grade de N grosseira. Este é um estudo exploratório, não uma medição confirmatória; o resultado do grupo errado é a descoberta mais clara e aquela que reportamos com maior confiança. Uma replicação registrada com novas sementes é trabalho futuro.
O aprendizado por transferência tem como objetivo facilitar o aprendizado de um domínio alvo ao transferir conhecimento de um domínio fonte. O domínio fonte geralmente contém amostras semanticamente significativas (*e.g.*, imagens) para facilitar a transferência eficaz de conhecimento. No entanto, um estudo recente observa que o domínio de ruído construído a partir de distribuições simples (*e.g.*, distribuições Gaussianas) pode servir como um domínio fonte substituto no contexto semi-supervisionado, onde apenas uma pequena proporção das amostras alvo são rotuladas, enquanto a maioria permanece não rotulada. Com base nessa observação surpreendente, formulamos um problema inédito denominado *Adaptação ao Ruído Semi-Supervisionada* (SSNA, do inglês *Semi-Supervised Noise Adaptation*), que visa aproveitar um domínio de ruído sintético para melhorar a generalização do domínio alvo. Para abordar esse problema, primeiro estabelecemos um limite de generalização que caracteriza o efeito do domínio de ruído na generalização, com base no qual propomos uma Estrutura de Adaptação ao Ruído (NAF, do inglês *Noise Adaptation Framework*). Experimentos extensivos demonstram que a NAF utiliza efetivamente o domínio de ruído para restringir o limite de generalização do domínio alvo, resultando em melhor desempenho. Os códigos estão disponíveis em https://github.com/AIResearch-Group/SSNA.
Aprendizado por reforço (RL) tornou-se um paradigma dominante de pós-treinamento, permitindo que modelos de linguagem de grande porte (LLMs) aprendam a partir de recompensas. Observamos que as regulações sociais são estruturalmente semelhantes a funções de recompensa. Elas definem resultados mensuráveis, limiares e exceções, frequentemente deixando a intenção institucional apenas parcialmente especificada. Hipotetizamos que o processo de treinamento por RL pode explorar essas lacunas e, portanto, questionamos se a conhecida tendência dos modelos de burlar funções de recompensa durante o RL pode escalar para um modo de falha mais consequente, denominado invasão social: descobrir brechas nas regras sob as quais a sociedade opera. Para estudar esse fenômeno, introduzimos o SocioHack, uma sandbox com 72 ambientes sociais, e descobrimos que, nesses ambientes, a burla de recompensas emerge naturalmente e leva à descoberta de brechas regulatórias. Os modelos aprendem a manipular as regras sociais e a gerar estratégias que permanecem tecnicamente em conformidade enquanto frustram a intenção regulatória, e as salvaguardas atuais dos LLMs fornecem apenas mitigação limitada. Portanto, a coleta de feedback em campo para o treinamento de modelos exige maior cautela, e precisamos de um paradigma de pós-treinamento de próxima geração para iterar LLMs com segurança na sociedade real.
Os óculos de IA representam uma plataforma promissora para agentes de IA atuarem como assistentes de memória personalizados. Para serem verdadeiramente úteis, tais sistemas devem ir além da compreensão de vídeo de curto prazo e abordar lacunas de memória que os seres humanos experienciam para fins práticos, pessoais ou sociais ao longo de fluxos de vídeo egocêntricos longitudinais. No entanto, os conjuntos de dados egocêntricos existentes concentram-se predominantemente no reconhecimento de ações ou em perguntas e respostas genéricas a partir de clipes curtos, medindo capacidades perceptivas em vez de necessidades realistas de memória humana. Apresentamos o SuperMemory-VQA, um conjunto de dados de perguntas e respostas visuais (VQA) egocêntrico para avaliar assistentes de IA em tarefas de memória práticas e de longo horizonte. Ele contém 52,9 horas de atividades cotidianas gravadas com óculos de IA, incluindo vídeo RGB sincronizado, transcrição de áudio, olhar ocular, IMU e trajetórias SLAM. Através de um pipeline de anotação verificado por humanos, construímos 4.853 pares de perguntas e respostas fundamentadas que abrangem memória de objetos e locais, recordação de intenções, recordação de cenas visuais, reconstrução de linhas do tempo, memória conversacional e recuperação em contexto. Cada pergunta é formulada como múltipla escolha com uma opção explícita "não respondível" para testar a robustez contra alucinações. A avaliação comparativa de frameworks agentivos líderes e backbones de LLM revela que os sistemas existentes ainda estão longe de serem confiáveis em tarefas de memória do mundo real, destacando a necessidade de novas arquiteturas para memória de IA fundamentada que possam responder apenas quando houver evidências suficientes. Uma pesquisa com participantes corrobora ainda que nossas perguntas são realistas, úteis e alinhadas com as necessidades cotidianas de memória.
Um desafio de longa data na química computacional e na biofísica é amostrar eficientemente a distribuição de Boltzmann das moléculas. Avanços em modelagem generativa foram propostos para superar as limitações das técnicas convencionais de amostragem, eliminando o custo computacional da simulação. Uma direção promissora é o refinamento iterativo de modelos de difusão ao longo de uma escada de temperatura, onde os dados de treinamento são gerados por meio de amostragem por importância durante o recozimento no momento da inferência. Infelizmente, esses métodos exigem o cálculo de uma divergência sobre o campo de score para estimar os pesos de importância, tornando-os intratáveis para sistemas maiores. Aqui apresentamos o recozimento escalável no momento da inferência (SITA), que retreina modelos baseados em fluxo para gerar amostras em temperaturas progressivamente mais baixas, usando um modelo baseado em energia para facilitar verossimilhanças substitutas rápidas. Demonstramos desempenho de ponta tanto na Alanina Dipeptídeo quanto na Alanina Tripeptídeo, evitando termos de divergência custosos. Nosso código está disponível em https://github.com/countrsignal/sita.git
Aprender mapeamentos entre espaços de funções de dimensão infinita, ou aprendizado de operadores, é essencial para muitas aplicações de aprendizado de máquina. Embora operadores baseados em transformadores sejam populares, eles frequentemente dependem de atenção token a token. Esses métodos tratam campos contínuos como tokens discretos e geralmente ignoram a estrutura funcional global. Apresentamos a Atenção Funcional, que reinterpreta a atenção como uma correspondência funcional entre bases adaptativas. Inspirado por mapas funcionais geométricos, nosso método substitui afinidades softmax por operadores lineares estruturados. Isso resulta em uma representação compacta, generalizável e invariante à resolução que captura explicitamente dependências globais. Experimentos demonstram que a Atenção Funcional pode igualar o desempenho do estado da arte em muitas tarefas de aprendizado de operadores, incluindo resolução de EDPs, segmentação 3D e regressão, enquanto permanece robusta a discretizações variadas. A página do projeto está disponível em https://github.com/xjffff/FUNCATTN.
A Adaptação de Baixo Posto (LoRA) possibilita com sucesso a personalização na geração de texto para imagem ao adaptar modelos de difusão pré-treinados a conceitos e estilos visuais específicos. No entanto, estender tais modelos para a personalização de múltiplos conceitos continua desafiador. A combinação ingênua de múltiplos pesos LoRA ou de suas saídas frequentemente leva à interferência entre conceitos, resultando em qualidade visual degradada e menor fidelidade às imagens de referência de conceitos individuais. Este artigo propõe uma abordagem simples, porém eficaz, para a personalização de múltiplos conceitos, combinando de forma otimizada as saídas de múltiplos módulos LoRA. Aproveitamos a importância relativa de cada conceito durante a geração, inferida a partir de seus tokens de prompt correspondentes, e introduzimos dois métodos, W-Switch e W-Composite, que empregam uma estratégia de ponderação de importância ciente do prompt, na qual cada LoRA é ponderado de acordo com a influência semântica de suas palavras-gatilho no prompt alvo. Além disso, estendemos as métricas de avaliação quantitativa existentes ao propor uma nova estrutura de avaliação de similaridade baseada em imagem, que avalia a fidelidade da imagem e a preservação da identidade por meio de comparações entre imagens de referência do mundo real e regiões de conceitos segmentadas automaticamente a partir das imagens geradas. Avaliamos nossa abordagem no ambiente de teste ComposLoRA e demonstramos melhorias consistentes em relação aos métodos de última geração existentes em termos de qualidade visual, preservação de identidade e composicionalidade. Avaliações qualitativas, incluindo uma avaliação baseada em Modelo de Linguagem de Grande Escala (LLM) e um estudo de usuário, validam ainda mais a eficácia dos métodos propostos e se alinham com as novas métricas quantitativas baseadas em imagem introduzidas. Nosso código está disponível em https://github.com/GeorgeTsoumplekas/Prompt-Aware-Multi-LoRA-Composition.
Modelos multimodais unificados (MMUs) emergiram como um paradigma promissor para inteligência multimodal de uso geral. À medida que são implantados em aplicações do mundo real, a atualização eficaz do conhecimento interno torna-se crítica. Embora a edição de conhecimento já esteja madura para modelos exclusivamente textuais, ainda não está claro se edições que modificam com sucesso saídas textuais também transferem para a geração de imagens em MMUs. Para estudar essa questão, apresentamos UniKE, o primeiro benchmark para edição de conhecimento entre modalidades em MMUs, compreendendo 2.971 tópicos de edição abrangendo edições de atributos e relações. Usando verificação visual baseada em VQA, revelamos uma lacuna de modalidade impressionante: a eficácia do lado textual pode atingir aproximadamente 92%, enquanto a melhor precisão geral de VQA sob geração direta de imagem é de apenas 18,5%. Propomos ainda a Edição de Parâmetros Aumentada por Raciocínio, que ativa explicitamente o conhecimento editado antes da geração e melhora a precisão geral de VQA para todos os pares modelo-editor avaliados, com ganhos de até 18,6 pontos percentuais. A análise mecanicista mostra que essa lacuna está associada a um alinhamento parcial entre as representações textuais editadas e as vias de condicionamento para a geração visual, onde edições suficientes para saídas textuais podem permanecer muito fracas ou desalinhadas para orientar a síntese de imagens. Esses achados mostram que edições de conhecimento textual não garantem transferência confiável entre modalidades e motivam métodos de edição conscientes da modalidade. Nosso código e dados estão disponíveis em https://github.com/gxx27/UniKE.
Estouros de orçamento em agentes LLM são uma classe documentada de falha em produção: um único loop de tentativa pode gastar milhares de dólares antes que um operador perceba, e as propriedades de integridade durante o processo que o impediriam (sem aliasing, sem gasto duplo, sem uso pós-delegação de um valor oneroso) são aplicadas, quando o são, por wrappers ad-hoc em vez de pelo sistema de tipos. Nossa contribuição central é empírica: um catálogo de 63 incidentes confirmados em produção, oriundos de 21 arcabouços de orquestração (2023-2026), cada um respaldado por uma issue citada no GitHub e, quando relatado, uma perda em dólares, organizado em uma taxonomia de falhas com oito agrupamentos (kappa de Cohen entre avaliadores = 0,837, N = 113), além de 47 entradas estruturais suplementares. Como uma das mitigações avaliadas contra essa taxonomia, construímos token-budgets, uma crate Rust de 1.180 linhas (sem unsafe) que operacionaliza a propriedade afim de modo que clonar, gastar duas vezes ou usar um orçamento após delegá-lo resultem em erros de compilação, e não em perigos em tempo de execução que um operador precise lembrar de evitar. O limite em dólares é aritmética em tempo de execução sob uma suposição do estimador; a camada afim torna essa aritmética não contornável. Em cargas de trabalho de agente único, um contador Python de 4 linhas equipara-se à crate com 0/30 de extrapolação, portanto o valor distintivo é a não contornabilidade sob erro do operador na delegação multiagente: a condição de corrida de fan-out de delegação documentada em 11 incidentes é rejeitada pelo verificador de empréstimo em tempo de compilação, enquanto o mesmo padrão sob asyncio extrapola 30/30 e três alternativas disciplinadas extrapolam 0/30. Em cinco runtimes, três provedores e um teste de API ao vivo estratificado por temperatura (N = 160), a abordagem reporta zero violações de limite e zero recusas falsas, com paridade operacional em relação a trabalhos concorrentes. A sobrerreserva estática é de 4 a 6 vezes (2,11 vezes adaptativa). A solidez de limite em nível binário no binário em execução permanece em aberto.