Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos de mundo baseados em vídeo emergiram seguindo dois paradigmas dominantes: geração de vídeo e reconstrução 3D. No entanto, os benchmarks de avaliação existentes focam-se estreitamente na fidelidade visual e no alinhamento texto-vídeo para modelos generativos, ou dependem de métricas estáticas de reconstrução 3D que fundamentalmente negligenciam a dinâmica temporal. Argumentamos que o futuro da modelação de mundos reside na geração 4D, que modela conjuntamente a estrutura espacial e a evolução temporal. Neste paradigma, a capacidade central é a resposta interativa: a habilidade de refletir fielmente como as ações de interação conduzem transições de estado através do espaço e do tempo. Contudo, nenhum benchmark existente avalia sistematicamente esta dimensão crítica. Para colmatar esta lacuna, propomos o Omni-WorldBench, um benchmark abrangente especificamente concebido para avaliar as capacidades de resposta interativa de modelos de mundo em ambientes 4D. O Omni-WorldBench compreende dois componentes-chave: a Omni-WorldSuite, um conjunto sistemático de instruções abrangendo diversos níveis de interação e tipos de cena; e as Omni-Metrics, uma estrutura de avaliação baseada em agentes que quantifica as capacidades de modelação de mundo medindo o impacto causal das ações de interação tanto nos resultados finais como nas trajetórias de evolução do estado intermédio. Realizamos avaliações extensivas de 18 modelos de mundo representativos em múltiplos paradigmas. A nossa análise revela limitações críticas dos modelos de mundo atuais na resposta interativa, fornecendo perspetivas acionáveis para investigação futura. O Omni-WorldBench será disponibilizado publicamente para fomentar o progresso na modelação interativa de mundos 4D.
Apresentamos o daVinci-MagiHuman, um modelo de fundação generativo de áudio e vídeo de código aberto para geração centrada no ser humano. O daVinci-MagiHuman gera conjuntamente vídeo e áudio sincronizados utilizando um Transformer de fluxo único que processa texto, vídeo e áudio dentro de uma sequência unificada de tokens apenas por meio de auto-atenção. Este design de fluxo único evita a complexidade das arquiteturas de múltiplos fluxos ou de atenção cruzada, mantendo-se fácil de otimizar com infraestrutura padrão de treinamento e inferência. O modelo é particularmente forte em cenários centrados no ser humano, produzindo performance facial expressiva, coordenação natural entre fala e expressão, movimento corporal realista e sincronização áudio-vídeo precisa. Ele suporta geração de fala multilíngue em chinês (mandarim e cantonês), inglês, japonês, coreano, alemão e francês. Para inferência eficiente, combinamos a espinha dorsal de fluxo único com destilação de modelo, super-resolução em espaço latente e um decodificador Turbo VAE, permitindo a geração de um vídeo de 5 segundos em 256p em 2 segundos em uma única GPU H100. Na avaliação automática, o daVinci-MagiHuman alcança a mais alta qualidade visual e alinhamento textual entre os principais modelos abertos, juntamente com a menor taxa de erro de palavra (14,60%) para inteligibilidade de fala. Na avaliação humana pareada, ele alcança taxas de vitória de 80,0% contra o Ovi 1.1 e 60,9% contra o LTX 2.3 em mais de 2000 comparações. Disponibilizamos como código aberto a pilha completa do modelo, incluindo o modelo base, o modelo destilado, o modelo de super-resolução e o código de inferência.
O treinamento de agentes de pesquisa profunda requer trajetórias de longo horizonte que intercalam busca, agregação de evidências e raciocínio multi-etapas. No entanto, os pipelines de coleta de dados existentes geralmente dependem de APIs web proprietárias, tornando a síntese de trajetórias em larga escala dispendiosa, instável e de difícil reprodução. Apresentamos o OpenResearcher, um pipeline reproduzível que desacopla o *bootstrapping* único do corpus da síntese de trajetórias multi-turn e executa o ciclo de busca e navegação inteiramente offline usando três primitivas explícitas do navegador: pesquisar, abrir e encontrar, sobre um *corpus* de 15 milhões de documentos. Usando o GPT-OSS-120B como modelo professor, sintetizamos mais de 97 mil trajetórias, incluindo uma cauda substancial de longo horizonte com mais de 100 chamadas de ferramentas. O ajuste fino supervisionado de um modelo *backbone* 30B-A3B nessas trajetórias atinge 54,8% de precisão no BrowseComp-Plus, uma melhoria de +34,0 pontos em relação ao modelo base, mantendo-se competitivo no BrowseComp, GAIA e xbench-DeepSearch. Como o ambiente é offline e totalmente instrumentado, ele também permite análises controladas, onde nosso estudo revela *insights* práticos para o projeto de *pipelines* de pesquisa profunda, incluindo estratégias de filtragem de dados, escolhas de configuração do agente e como o sucesso da recuperação se relaciona com a precisão da resposta final. Disponibilizamos o *pipeline*, as trajetórias sintetizadas, os *checkpoints* do modelo e o ambiente de busca offline em https://github.com/TIGER-AI-Lab/OpenResearcher.
Os modelos visão-linguagem (VLMs) normalmente processam imagens em sua resolução alta nativa, forçando uma escolha entre precisão e eficiência computacional: entradas de alta resolução capturam detalhes finos, mas incorrem em custos computacionais significativos, enquanto entradas de baixa resolução priorizam a eficiência, mas potencialmente perdem informações visuais críticas, como texto pequeno. Apresentamos o AwaRes, uma estrutura espacial sob demanda que resolve este conflito entre precisão e eficiência operando numa visão global de baixa resolução e usando chamadas de ferramentas para recuperar apenas os segmentos de alta resolução necessários para uma consulta específica. Construímos dados supervisionados automaticamente: um avaliador compara respostas de baixa versus alta resolução para rotular se um recorte é necessário, e um modelo de fundamentação oráculo localiza a evidência para a resposta correta, que mapeamos para um conjunto discreto de recortes para formar trajetórias de uso de ferramentas em múltiplas etapas. Treinamos nossa estrutura com SFT de arranque a frio seguido por GRPO multi-etapa com uma recompensa composta que combina a correção semântica da resposta com penalidades explícitas de custo de recorte. Página do projeto: https://nimrodshabtay.github.io/AwaRes
Apresentamos o LongCat-Flash-Prover, um modelo de código aberto líder com 560 bilhões de parâmetros baseado em Mistura de Especialistas (MoE), que avança o Raciocínio Formal Nativo no Lean4 por meio de raciocínio agentivo integrado a ferramentas (TIR). Decompomos a tarefa de raciocínio formal nativo em três capacidades formais independentes: autoformalização, esboço e prova. Para facilitar essas capacidades, propomos um Framework de Iteração Híbrida de Especialistas para expandir trajetórias de tarefas de alta qualidade, incluindo a geração de uma afirmação formal com base em um problema informal dado, a produção de uma prova completa diretamente a partir da afirmação ou um esboço no estilo de lema. Durante o RL agentivo, apresentamos um algoritmo de Otimização de Política por Amostragem de Importância Hierárquica (HisPO), que visa estabilizar o treinamento do modelo MoE em tarefas de horizonte longo. Ele emprega uma estratégia de mascaramento de gradiente que leva em conta a obsolescência da política e as discrepâncias inerentes entre o motor de treinamento e inferência, tanto em nível de sequência quanto de token. Adicionalmente, também incorporamos mecanismos de detecção de consistência e legalidade de teoremas para eliminar problemas de manipulação de recompensa. Avaliações extensivas mostram que nosso LongCat-Flash-Prover estabelece um novo estado da arte para modelos de pesos abertos tanto em autoformalização quanto em prova de teoremas. Demonstrando notável eficiência amostral, ele alcança uma taxa de aprovação de 97,1% no MiniF2F-Test usando apenas 72 orçamentos de inferência por problema. Em benchmarks mais desafiadores, ele resolve 70,8% do ProverBench e 41,5% do PutnamBench com não mais que 220 tentativas por problema, superando significativamente as linhas de base de pesos abertos existentes.
A compreensão de vídeos longos continua a ser um desafio para os modelos de linguagem grandes multimodais (MLLMs) devido aos contextos limitados, que exigem a identificação de segmentos de vídeo esparsos relevantes para a consulta. No entanto, os métodos existentes predominantemente localizam pistas com base apenas na consulta, ignorando a estrutura intrínseca do vídeo e a relevância variável entre os segmentos. Para resolver isso, propomos o VideoDetective, uma estrutura que integra a relevância consulta-segmento e a afinidade entre segmentos para uma caça eficaz de pistas em tarefas de resposta a perguntas sobre vídeos longos. Especificamente, dividimos um vídeo em vários segmentos e os representamos como um grafo de afinidade visual-temporal construído a partir da similaridade visual e da proximidade temporal. Em seguida, realizamos um ciclo de Hipótese-Verificação-Refinamento para estimar os escores de relevância dos segmentos observados em relação à consulta e propagá-los para segmentos não observados, resultando numa distribuição de relevância global que orienta a localização dos segmentos mais críticos para a resposta final com observação esparsa. Experiências mostram que o nosso método alcança consistentemente ganhos substanciais numa ampla gama de MLLMs principais em benchmarks representativos, com melhorias de precisão de até 7,5% no VideoMME-long. O nosso código está disponível em https://videodetective.github.io/
Apesar do notável sucesso dos modelos de representação de imagens em larga escala pré-treinados (ou seja, codificadores visuais) em várias tarefas de visão computacional, eles são predominantemente treinados em dados de imagem 2D e, portanto, frequentemente falham em capturar relações espaciais 3D entre objetos e fundos no mundo real, limitando sua eficácia em muitas aplicações downstream. Para resolver isso, propomos o SpatialBoost, uma estrutura escalável que melhora a percepção espacial de codificadores visuais pré-treinados existentes através da injeção de conhecimento espacial 3D expresso em descrições linguísticas. A ideia central envolve converter informações espaciais 3D densas de imagens 2D em expressões linguísticas, que são então usadas para injetar esse conhecimento espacial nos codificadores visuais por meio de um Modelo de Linguagem de Grande Porte (LLM). Para isso, adotamos um processo de raciocínio em cadeia (Chain-of-Thought - CoT) de múltiplas etapas que incorpora progressivamente conhecimento espacial denso e constrói uma compreensão espacial hierárquica. Para validar a eficácia, adaptamos o SpatialBoost a codificadores visuais state-of-the-art como o DINOv3 e avaliamos seus ganhos de desempenho em uma ampla gama de benchmarks que exigem tanto percepção 3D quanto habilidades visuais gerais. Por exemplo, o SpatialBoost melhora o desempenho do DINOv3 de 55,9 para 59,7 mIoU no ADE20K, alcançando desempenho state-of-the-art com um ganho de 3,8% sobre o DINOv3 pré-treinado.
Embora os avanços recentes em espaços latentes generativos tenham impulsionado progressos substanciais na geração de imagens únicas, o espaço latente ideal para a síntese de novas vistas (NVS) permanece amplamente inexplorado. Em particular, a NVS requer uma geração geometricamente consistente entre diferentes pontos de vista, mas as abordagens existentes normalmente operam em um espaço latente VAE independente da vista. Neste artigo, propomos a Difusão Latente Geométrica (GLD), uma estrutura que reaproveita o espaço de características geometricamente consistente de modelos de base geométrica como o espaço latente para difusão multi-vista. Demonstramos que essas características não apenas suportam a reconstrução RGB de alta fidelidade, mas também codificam fortes correspondências geométricas entre vistas, fornecendo um espaço latente bem adequado para a NVS. Nossos experimentos demonstram que o GLD supera tanto o VAE quanto o RAE em métricas de qualidade de imagem 2D e consistência 3D, enquanto acelera o treinamento em mais de 4,4x em comparação com o espaço latente VAE. Notavelmente, o GLD mantém-se competitivo com os métodos state-of-the-art que aproveitam o pré-treinamento em larga escala de texto para imagem, apesar de treinar seu modelo de difusão do zero sem esse pré-treinamento generativo.
O treinamento atual de modelos de linguagem aplica comumente o Ajuste Fino Supervisionado (SFS) multitarefa utilizando um orçamento computacional homogéneo em todos os subconjuntos de dados. Esta abordagem é fundamentalmente subótima: dinâmicas de aprendizagem heterogéneas fazem com que tarefas de aprendizagem rápida sofram sobreajuste precoce, enquanto as mais lentas permanecem subajustadas. Para resolver isto, introduzimos o mSFT, um algoritmo de busca iterativo e consciente do sobreajuste para misturas de dados multitarefa. O mSFT treina o modelo numa mistura ativa, identifica e exclui o subconjunto de dados que sobreajusta mais cedo, e reverte para o *checkpoint* ótimo específico antes de continuar. Avaliações extensivas demonstram que o mSFT supera consistentemente 4 *baselines* em 10 *benchmarks* e 6 modelos base. Análises adicionais confirmam que o mSFT mantém ganhos robustos em diversos tamanhos de conjuntos de dados e granularidades de tarefas, sendo insensível ao seu único novo hiperparâmetro (orçamento computacional). Notavelmente, com um orçamento computacional baixo, o mSFT pode melhorar o desempenho enquanto reduz os FLOPS de treinamento. Em última análise, o mSFT estabelece um algoritmo prático e consciente do sobreajuste para o SFS multitarefa que maximiza o potencial dos modelos em diversas misturas de dados.
Os métodos de Otimização de Política Relativa de Grupo (GRPO) para geração de vídeo, como o FlowGRPO, permanecem muito menos confiáveis do que os seus equivalentes para modelos de linguagem e imagens. Esta lacuna surge porque a geração de vídeo possui um espaço de soluções complexo, e a conversão ODE-para-SDE usada para exploração pode injetar ruído excessivo, reduzindo a qualidade dos *rollouts* e tornando as estimativas de recompensa menos confiáveis, o que desestabiliza o alinhamento pós-treinamento. Para resolver este problema, encaramos o modelo pré-treinado como a definição de uma variedade de dados de vídeo válida e formulamos o problema central como a restrição da exploração à vizinhança desta variedade, garantindo que a qualidade dos *rollouts* seja preservada e que as estimativas de recompensa permaneçam confiáveis. Propomos o SAGE-GRPO (Alinhamento Estável via Exploração), que aplica restrições a nível micro e macro. A nível micro, derivamos uma EDS precisa e consciente da variedade, com uma correção logarítmica de curvatura, e introduzimos um equalizador de norma de gradiente para estabilizar a amostragem e as atualizações ao longo dos passos de tempo. A nível macro, usamos uma região de confiança dupla com uma âncora móvel periódica e restrições passo a passo, de modo que a região de confiança acompanhe pontos de verificação mais próximos da variedade e limite o desvio de longo horizonte. Avaliamos o SAGE-GRPO no HunyuanVideo1.5 usando o VideoAlign original como modelo de recompensa e observamos ganhos consistentes em relação a métodos anteriores nas métricas VQ, MQ, TA e visuais (CLIPScore, PickScore), demonstrando um desempenho superior tanto na maximização de recompensa quanto na qualidade geral do vídeo. O código e a galeria visual estão disponíveis em https://dungeonmassster.github.io/SAGE-GRPO-Page/.
Os métodos de "Feed-forward 3D Gaussian Splatting" permitem reconstrução em uma única passagem e renderização em tempo real. No entanto, eles geralmente adotam pipelines rígidos de pixel-para-Gaussiana ou voxel-para-Gaussiana que alocam Gaussianas de forma uniforme, resultando em Gaussianas redundantes entre diferentes vistas. Além disso, carecem de um mecanismo eficaz para controlar o número total de Gaussianas enquanto mantêm a fidelidade da reconstrução. Para superar essas limitações, apresentamos o F4Splat, que realiza uma densificação preditiva do tipo "feed-forward" para o "3D Gaussian Splatting", introduzindo uma estratégia de alocação guiada por pontuação de densificação que distribui Gaussianas de forma adaptativa de acordo com a complexidade espacial e a sobreposição multivista. Nosso modelo prevê pontuações de densificação por região para estimar a densidade Gaussiana necessária e permite o controle explícito do orçamento final de Gaussianas sem necessidade de retreinamento. Esta alocação espacialmente adaptativa reduz a redundância em regiões simples e minimiza Gaussianas duplicadas em vistas sobrepostas, produzindo representações 3D compactas e de alta qualidade. Experimentos extensivos demonstram que nosso modelo alcança desempenho superior em síntese de novas vistas em comparação com métodos "feed-forward" não calibrados anteriores, utilizando significativamente menos Gaussianas.
A detecção de objetos 3D de vocabulário aberto tem como objetivo localizar e reconhecer objetos além de uma taxonomia de treinamento fixa. Em configurações RGB multi-visão, abordagens recentes frequentemente desacoplam a construção de instâncias baseada em geometria da rotulagem semântica, gerando fragmentos agnósticos de classe e atribuindo categorias de vocabulário aberto posteriormente. Embora flexível, tal desacoplamento deixa a construção de instâncias governada principalmente pela consistência geométrica, sem restrições semânticas durante a fusão. Quando a evidência geométrica é dependente da visão e incompleta, esta fusão baseada apenas em geometria pode levar a erros de associação irreversíveis, incluindo a fusão excessiva de objetos distintos ou a fragmentação de uma única instância. Propomos o Group3D, uma estrutura de detecção 3D de vocabulário aberto multi-visão que integra restrições semânticas diretamente no processo de construção de instâncias. O Group3D mantém um vocabulário adaptativo à cena derivado de um modelo de linguagem grande multimodal (MLLM) e o organiza em grupos de compatibilidade semântica que codificam a equivalência de categoria plausível entre vistas. Estes grupos atuam como restrições no momento da fusão: fragmentos 3D são associados apenas quando satisfazem tanto a compatibilidade semântica quanto a consistência geométrica. Esta fusão semanticamente controlada mitiga a fusão excessiva orientada por geometria, ao mesmo tempo que absorve a variabilidade de categorias multi-visão. O Group3D suporta configurações com pose conhecida e livre de pose, dependendo apenas de observações RGB. Experimentos no ScanNet e ARKitScenes demonstram que o Group3D alcança desempenho state-of-the-art em detecção 3D de vocabulário aberto multi-visão, exibindo forte generalização em cenários zero-shot. A página do projeto está disponível em https://ubin108.github.io/Group3D/.
A melhoria do raciocínio incorporado em modelos multimodais de grande linguagem (MLLMs) é essencial para a construção de modelos visão-linguagem-ação (VLAs) sobre eles, permitindo traduzir prontamente a compreensão multimodal em ações de baixo nível. Consequentemente, trabalhos recentes exploraram o aprimoramento do raciocínio incorporado em MLLMs por meio de supervisão do tipo resposta a perguntas visuais. No entanto, essas abordagens têm sido relatadas como resultantes em desempenho instável de VLA, frequentemente produzindo ganhos apenas marginais ou mesmo negativos. Neste artigo, propomos um framework de treinamento de MLLM mais sistemático, o RoboAlign, que melhora de forma confiável o desempenho do VLA. Nossa ideia principal é amostrar tokens de ação via raciocínio de linguagem natural de disparo zero e refinar esse raciocínio usando aprendizado por reforço (RL) para melhorar a precisão da ação. Como resultado, o RoboAlign preenche a lacuna de modalidade entre linguagem e ações de baixo nível em MLLMs e facilita a transferência de conhecimento do MLLM para o VLA. Para validar a eficácia do RoboAlign, treinamos VLAs adicionando um cabeçalho de ação baseado em difusão sobre uma espinha dorsal de MLLM e os avaliamos em principais benchmarks de robótica. Notavelmente, ao realizar o alinhamento baseado em RL após o SFT usando menos de 1% dos dados, o RoboAlign alcança melhorias de desempenho de 17,5%, 18,9% e 106,6% sobre as linhas de base de SFT nos ambientes LIBERO, CALVIN e do mundo real, respectivamente.
Os Modelos de Linguagem de Grande Porte (LLMs) exibem alucinações em tarefas que exigem conhecimento intensivo. A Geração Aumentada por Recuperação baseada em grafos (Graph-based RAG) surgiu como uma solução promissora, no entanto, as abordagens existentes sofrem com limitações fundamentais de recuperação (recall) e precisão ao operar sobre grafos de conhecimento de caixa-preta (black-box) – grafos cujo esquema e estrutura são desconhecidos antecipadamente. Nós identificamos três desafios centrais que causam perda de recuperação (incerteza na instanciação semântica e incerteza do caminho estrutural) e perda de precisão (incerteza na comparação evidencial). Para enfrentar esses desafios, formalizamos a tarefa de recuperação como o problema de Recuperação do Subgrafo Informativo Ótimo (Optimal Informative Subgraph Retrieval - OISR) – uma variante da Árvore de Steiner de Grupo – e provamos que ele é NP-difícil e APX-difícil. Propomos o BubbleRAG, um *pipeline* que não requer treinamento e que otimiza sistematicamente tanto a recuperação quanto a precisão através do agrupamento de âncoras semânticas, expansão heurística em bolha para descobrir grafos de evidência candidatos (CEGs), ranqueamento composto e expansão com consciência do raciocínio. Experimentos em benchmarks de QA de múltiplos saltos (multi-hop) demonstram que o BubbleRAG alcança resultados de última geração, superando *baselines* fortes tanto em F1 quanto em precisão (accuracy), mantendo-se *plug-and-play*.
A aprendizagem por reforço com recompensas verificáveis (RLVR) melhorou substancialmente as capacidades de raciocínio de modelos de linguagem de grande escala. Embora as análises existentes identifiquem que as alterações induzidas pela RLVR são esparsas, elas concentram-se principalmente na magnitude dessas atualizações, negligenciando em grande parte a sua direção. Neste trabalho, argumentamos que a direção das atualizações é uma lente mais crítica para compreender os efeitos da RLVR, a qual pode ser capturada pela diferença de probabilidade logarítmica assinada a nível de token, Δlog p, entre os modelos base e final da RLVR. Através de análise estatística e intervenções de substituição de tokens, demonstramos que o Δlog p identifica mais eficazmente atualizações esparsas, mas críticas para o raciocínio, do que métricas baseadas na magnitude (por exemplo, divergência ou entropia). Com base nesta perceção, propomos duas aplicações práticas: (1) um método de extrapolação em tempo de teste que amplifica a política ao longo da direção aprendida Δlog p para melhorar a precisão do raciocínio sem treino adicional; (2) um método de reponderação em tempo de treino que concentra a aprendizagem em tokens de baixa probabilidade (correspondentes a um Δlog p mais elevado), o que melhora o desempenho do raciocínio em vários modelos e benchmarks. O nosso trabalho estabelece a direção da mudança como um princípio fundamental para analisar e melhorar a RLVR.
A pós-treinamento para tarefas agentísticas de longo horizonte apresenta uma tensão entre eficiência computacional e generalização. Embora o ajuste fino supervisionado (SFT) seja computacionalmente eficiente, frequentemente sofre com degradação fora do domínio (OOD). Por outro lado, o aprendizado por reforço de ponta a ponta (E2E RL) preserva as capacidades OOD, mas incorre em altos custos computacionais devido às muitas rodadas de rollout *on-policy*. Apresentamos o PivotRL, uma estrutura inovadora que opera em trajetórias SFT existentes para combinar a eficiência computacional do SFT com a precisão OOD do E2E RL. O PivotRL baseia-se em dois mecanismos principais: primeiro, executa rollouts *on-policy* locais e filtra *pivôs* - turnos intermediários informativos onde as ações amostradas exibem alta variância nos resultados; segundo, utiliza recompensas para ações funcionalmente equivalentes em vez de exigir uma correspondência estrita de cadeias de caracteres com a demonstração de dados do SFT. Mostramos teoricamente que esses mecanismos incentivam sinais de aprendizagem robustos com alta norma de gradiente natural, preservando maximamente a ordenação de probabilidade da política em ações não relacionadas às tarefas de treinamento. Em comparação com o SFT padrão nos mesmos dados, demonstramos que o PivotRL alcança uma precisão intra-domínio +4,17% maior em média em quatro domínios agentísticos e uma precisão OOD +10,04% maior em tarefas não agentísticas. Notavelmente, em tarefas agentísticas de codificação, o PivotRL alcança precisão competitiva com o E2E RL usando 4 vezes menos turnos de rollout. O PivotRL é adotado pelo Nemotron-3-Super-120B-A12B da NVIDIA, atuando como a ferramenta principal na pós-formação agentística em escala de produção.
As técnicas existentes de otimização de prompts dependem de sinais locais para atualizar o comportamento, frequentemente negligenciando padrões mais amplos e recorrentes entre tarefas, o que leva a uma generalização deficiente; elas ainda dependem de reescritas completas do prompt ou de fusões não estruturadas, resultando em perda de conhecimento. Essas limitações são amplificadas em fluxos de trabalho de pesquisa em codificação, que envolvem repositórios heterogêneos, ambientes subespecificados e feedback fraco, onde a reprodução de resultados a partir de codebases públicas é um regime de avaliação estabelecido. Apresentamos o Reflective Evolving Research Engineer (REVERE), uma estrutura que aprende continuamente a partir de um Contexto de Treinamento Global, reconhece modos de falha recorrentes em trajetórias de execução entre repositórios, os destila em heurísticas reutilizáveis e realiza edições direcionadas em três campos configuráveis: o prompt do sistema, um modelo de prompt de tarefa e uma "cola" cumulativa. O REVERE, por meio desta estrutura de otimização reflexiva, melhora o desempenho em relação às instruções especializadas prévias de última geração em tarefas de codificação de pesquisa em 4,50% no SUPER, 3,51% no ResearchCodeBench e 4,89% no ScienceAgentBench em suas respectivas métricas. Esses resultados demonstram que agentes equipados com mecanismos para aprendizado contínuo e consolidação de memória global podem evoluir significativamente suas capacidades ao longo do tempo.
Modelos que integram visão e linguagem, como o CLIP, são componentes fundamentais da IA multimodal, mas os seus dados de treino em larga escala e não curados introduzem vieses sociais e espúrios significativos. Os métodos existentes de mitigação de viés *post-hoc* operam frequentemente diretamente no espaço denso de incorporação do CLIP, onde a informação do viés e a informação relevante para a tarefa estão altamente entrelaçadas. Este entrelaçamento limita a sua capacidade de remover o viés sem degradar a fidelidade semântica. Neste trabalho, propomos a Modulação de Incorporações Esparsas (SEM, do inglês *Sparse Embedding Modulation*), uma estrutura de mitigação de viés *post-hoc* e *zero-shot* que opera num espaço latente de Autoencoder Esparsos (SAE). Ao decompor as incorporações de texto do CLIP em características disentrelaçadas, o SEM identifica e modula os neurónios relevantes para o viés, preservando aqueles que são relevantes para a consulta. Isto permite intervenções não lineares mais precisas. Em quatro conjuntos de dados de referência e duas arquiteturas base do CLIP, o SEM alcança ganhos substanciais de equidade em tarefas de recuperação e classificação *zero-shot*. Os nossos resultados demonstram que as representações latentes esparsas fornecem uma base eficaz para a mitigação de viés *post-hoc* em modelos de visão e linguagem.
Os modelos generativos e os codificadores de visão evoluíram amplamente em trilhas separadas, otimizados para objetivos diferentes e fundamentados em princípios matemáticos distintos. No entanto, eles compartilham uma propriedade fundamental: a gaussianidade do espaço latente. Os modelos generativos mapeiam ruído gaussiano para imagens, enquanto os codificadores mapeiam imagens para incorporações semânticas cujas coordenadas se comportam empiricamente como gaussianas. Nossa hipótese é que ambos são visões de uma fonte latente compartilhada, a Incorporação Normal Universal (UNE): um espaço latente aproximadamente gaussiano do qual as incorporações do codificador e o ruído invertido por DDIM surgem como projeções lineares ruidosas. Para testar nossa hipótese, introduzimos o NoiseZoo, um conjunto de dados de latentes por imagem que compreende ruído de difusão invertido por DDIM e representações correspondentes do codificador (CLIP, DINO). No CelebA, sondas lineares em ambos os espaços produzem fortes previsões de atributos alinhadas, indicando que o ruído generativo codifica semântica significativa ao longo de direções lineares. Essas direções ainda permitem edições controladas e fiéis (por exemplo, sorriso, gênero, idade) sem alterações arquiteturais, onde uma simples ortogonalização mitiga emaranhamentos espúrios. Em conjunto, nossos resultados fornecem suporte empírico para a hipótese UNE e revelam uma geometria latente gaussiana compartilhada que liga concretamente a codificação e a geração. Código e dados estão disponíveis em https://rbetser.github.io/UNE/
A Adaptação de Baixa Posto com Decomposição de Peso (DoRA) estende o LoRA ao desacoplar a magnitude do peso da sua direção, mas o seu *forward pass* requer a norma linha a linha de W + sBA, um cálculo que todos os principais *frameworks* que pesquisamos implementam materializando o produto denso [d_out, d_in] BA. Com d_in = 8192 e posto r = 384, a norma de um único módulo requer cerca de 512 MB de memória de trabalho transitória em bf16, tornando a DoRA de alto posto dispendiosa e muitas vezes inviável em configurações comuns de GPU única quando centenas de módulos adaptados e *checkpointing* estão envolvidos. Apresentamos duas contribuições de sistema. Uma **norma fatorada** decompõe a norma ao quadrado em termos de base, cruzado e de Gram, calculáveis através de intermediários de O(d_out r + r²), eliminando o produto denso. **Kernels Triton fundidos** colapsam a composição de quatro *kernels* da DoRA em uma única passada, reduzindo o tráfego de memória em cerca de 4x e usando uma forma numericamente estável que evita o cancelamento catastrófico no regime de reescalonamento próximo à unidade, onde as escalas de magnitude se concentram na prática. Em seis modelos visão-linguagem (VLMs) de 8-32B, executados em três GPUs NVIDIA (RTX 6000 PRO, H200, B200) com r = 384 em bf16, a implementação fundida é 1.5-2.0x mais rápida que a implementação DoRA do Hugging Face PEFT para inferência e 1.5-1.9x mais rápida para o cálculo do gradiente (etapa do otimizador excluída), com um pico de VRAM até 7 GB menor. *Microbenchmarks* em seis GPUs abrangendo quatro gerações de arquitetura (L40S, A100, RTX 6000 PRO, H200, B200, B300) confirmam uma aceleração de 1.5-2.7x no *kernel* de composição. A similaridade do cosseno nos *logits* finais excede 0.9999 em todos os pares modelo/GPU, e as curvas de treinamento com múltiplas sementes coincidem dentro de um delta de perda médio por etapa de 7.1 x 10^-4 ao longo de 2000 etapas.
Os Modelos de Linguagem de Grande Porte (LLMs) alcançaram confiabilidade notável e capacidades avançadas por meio de raciocínio estendido em tempo de teste. No entanto, estender essas capacidades para Modelos Multimodais de Linguagem de Grande Porte (MLLMs) permanece um desafio significativo devido a uma escassez crítica de dados de raciocínio de cadeia longa de alta qualidade e de pipelines de treinamento otimizados. Para preencher essa lacuna, apresentamos uma estrutura unificada de raciocínio visual multiagente que evolui sistematicamente do nosso modelo fundamental centrado em imagem, Insight-V, para uma arquitetura espaço-temporal generalizada, Insight-V++. Primeiro, propomos um pipeline escalável de geração de dados equipado com avaliação multigranularidade que sintetiza autonomamente trajetórias de raciocínio complexas e estruturadas nos domínios de imagem e vídeo, sem intervenção humana. Reconhecendo que supervisionar MLLMs diretamente com dados tão intrincados produz resultados subóptimos, projetamos uma arquitetura de agente duplo composta por um agente de raciocínio para executar cadeias analíticas extensas e um agente de resumo para avaliar criticamente e destilar os resultados finais. Embora nossa estrutura inicial utilizasse a Otimização de Preferência Direta (DPO), sua natureza *off-policy* limitou fundamentalmente o potencial de aprendizado por reforço. Para superar essas limitações, particularmente para a compreensão de vídeos de longo horizonte, o Insight-V++ introduz dois novos algoritmos, ST-GRPO e J-GRPO, que aprimoram o raciocínio espaço-temporal e melhoram a robustez avaliativa. Crucialmente, ao alavancar o *feedback* confiável do agente de resumo, orientamos um processo iterativo de geração de caminhos de raciocínio, retreinando todo o sistema multiagente em um ciclo contínuo e de autossuperação. Experimentações extensas em modelos base como LLaVA-NeXT e Qwen2.5-VL demonstram ganhos significativos de desempenho em *benchmarks* desafiadores de raciocínio para imagem e vídeo, preservando simultaneamente capacidades sólidas em tarefas tradicionais focadas em percepção.
Apresentamos o Generalized Discrete Diffusion from Snapshots (GDDS), uma estrutura unificada para modelagem de difusão discreta que suporta processos arbitrários de adição de ruído em grandes espaços de estado discretos. Nossa formulação abrange todas as abordagens existentes de difusão discreta, permitindo uma flexibilidade significativamente maior na escolha da dinâmica de corrupção. O processo direto de adição de ruído baseia-se na uniformização e permite corrupção arbitrária rápida. Para o processo reverso, derivamos um limite inferior de evidência (ELBO) simples baseado em variáveis latentes de instantâneo, em vez de todo o caminho de ruído, que permite o treinamento eficiente de arquiteturas padrão de modelagem generativa com interpretação probabilística clara. Nossos experimentos em tarefas de geração discreta de grande vocabulário sugerem que a estrutura proposta supera os métodos existentes de difusão discreta em termos de eficiência de treinamento e qualidade de geração, e supera os modelos autoregressivos pela primeira vez nesta escala. Disponibilizamos o código juntamente com um artigo no blog na página do projeto: https://oussamazekri.fr/gdds{https://oussamazekri.fr/gdds}.
A "singularidade da IA" é frequentemente mal interpretada como uma mente monolítica e divina. A evolução sugere um caminho diferente: a inteligência é fundamentalmente plural, social e relacional. Avanços recentes em IA agentica revelam que os modelos de raciocínio de ponta, como o DeepSeek-R1, não melhoram simplesmente por "pensar por mais tempo". Em vez disso, eles simulam "sociedades de pensamento" internas, debates cognitivos espontâneos que argumentam, verificam e reconciliam para resolver tarefas complexas. Além disso, estamos entrando em uma era de centauros humano-IA: atores híbridos nos quais a agência coletiva transcende o controle individual. Escalar essa inteligência requer uma mudança do alinhamento diádico (RLHF) para o alinhamento institucional. Ao projetar protocolos digitais, modelados em organizações e mercados, podemos construir uma infraestrutura social de freios e contrapesos. A próxima explosão de inteligência não será um único cérebro de silício, mas uma sociedade combinatória complexa, especializando-se e expandindo-se como uma cidade. Nenhuma mente é uma ilha.
O roteamento dinâmico de prompts seleciona automaticamente o modelo de linguagem mais adequado de um conjunto de candidatos para cada consulta, otimizando o desempenho enquanto gerencia custos. À medida que os conjuntos de modelos escalam para incluir dezenas de modelos de ponta com diferenças de desempenho mínimas, as abordagens existentes enfrentam desafios significativos: taxonomias de tarefas definidas manualmente não conseguem capturar distinções granulares de capacidade, enquanto roteadores monolíticos lutam para diferenciar diferenças sutis em tarefas diversas. Propomos uma arquitetura de roteamento em dois estágios que aborda essas limitações através da descoberta automatizada de tarefas granulares e da estimativa de qualidade consciente da tarefa. Nosso primeiro estágio emprega agrupamento baseado em grafos para descobrir tipos de tarefas latentes e treina um classificador para atribuir prompts às tarefas descobertas. O segundo estágio usa uma arquitetura de mistura de especialistas com cabeças de predição específicas por tarefa para estimativas de qualidade especializadas. Na inferência, agregamos as previsões de ambos os estágios para equilibrar a estabilidade a nível de tarefa com a adaptabilidade específica do prompt. Avaliado em 10 benchmarks com 11 modelos de ponta, nosso método supera consistentemente as linhas de base existentes e ultrapassa o modelo individual mais forte enquanto incorre em menos da metade do seu custo.
A reutilização e invocação de código existente continua a ser dispendiosa e pouco fiável, uma vez que a maioria das ferramentas práticas está embutida em repositórios de código heterogéneos e carece de interfaces executáveis padronizadas. Embora os modelos de linguagem de grande escala (LLMs) e os frameworks de invocação de ferramentas baseados no Model Context Protocol (MCP) permitam a execução de tarefas em linguagem natural, as abordagens atuais dependem fortemente da curadoria e padronização manual de ferramentas, o que limita fundamentalmente a escalabilidade. Neste artigo, propomos o ToolRosetta, um framework unificado que traduz automaticamente repositórios de código aberto e APIs em ferramentas compatíveis com MCP que podem ser invocadas de forma fiável por LLMs. Dada uma tarefa do utilizador, o ToolRosetta planeia autonomamente cadeias de ferramentas, identifica bases de código relevantes e converte-as em serviços MCP executáveis, permitindo a conclusão de tarefas de forma ponta a ponta com intervenção humana mínima. Adicionalmente, o ToolRosetta incorpora uma camada de inspeção de segurança para mitigar os riscos inerentes à execução de código arbitrário. Experiências extensas em diversos domínios científicos demonstram que o ToolRosetta pode padronizar automaticamente um grande número de ferramentas de código aberto e reduzir o esforço humano necessário para reprodução e implantação de código. Notavelmente, ao aproveitar de forma transparente ferramentas de código aberto especializadas, os agentes potenciados pelo ToolRosetta melhoram consistentemente o desempenho na conclusão de tarefas em comparação com LLMs comerciais e sistemas de agentes existentes.
A Adaptação de Baixa Classificação (LoRA) é a estratégia de ajuste fino padrão para gerar imagens personalizadas a partir de modelos de difusão pré-treinados. A escolha de uma boa classificação (rank) é extremamente crítica, uma vez que equilibra desempenho e consumo de memória, mas atualmente a decisão é frequentemente deixada para o consenso da comunidade, independentemente da complexidade do assunto personalizado. A razão é evidente: o custo para selecionar uma boa classificação para cada componente LoRA é combinatório, então optamos por atalhos práticos, como fixar a mesma classificação para todos os componentes. Neste artigo, damos um primeiro passo para superar este desafio. Inspirados por métodos variacionais que aprendem uma largura adaptativa de redes neurais, permitimos que as classificações de cada camada se adaptem livremente durante o ajuste fino em um assunto. Conseguimos isso impondo uma ordenação de importância nas posições da classificação, incentivando efetivamente a criação de classificações mais altas apenas quando estritamente necessário. Qualitativa e quantitativamente, nossa abordagem, LoRA^2, alcança um equilíbrio competitivo entre DINO, CLIP-I e CLIP-T em 29 assuntos, enquanto requer muito menos memória e uma classificação inferior em comparação com versões LoRA de alta classificação. Código: https://github.com/donaldssh/NotAllLayersAreCreatedEqual.
Os agentes de IA tornaram-se cada vez mais capazes em tarefas isoladas de engenharia de software (SWE), como resolver problemas no GitHub. No entanto, tarefas de longo horizonte envolvendo múltiplas subtarefas interdependentes ainda representam desafios, tanto em termos de precisão quanto de conclusão oportuna. Uma abordagem natural para resolver essas tarefas de longo horizonte de maneira eficiente é a colaboração assíncrona multiagente, na qual vários agentes trabalham em diferentes partes da tarefa simultaneamente. Mas a aplicação eficaz de sistemas multiagente tem se mostrado surpreendentemente difícil: edições concorrentes por múltiplos agentes interferem umas com as outras, as dependências são difíceis de sincronizar e combinar progressos parciais em um todo coerente é desafiador. Por outro lado, os desenvolvedores humanos há muito dependem de infraestruturas de colaboração maduras para gerenciar esses desafios em grandes projetos de software. Inspirados por essas primitivas de colaboração, introduzimos o Delegamento Isolado Assíncrono Centralizado (CAID), um paradigma estruturado de coordenação multiagente baseado em três primitivas fundamentais de SWE: delegação centralizada de tarefas, execução assíncrona e espaços de trabalho isolados. O CAID constrói planos de tarefas conscientes de dependências por meio de um gerente central, executa subtarefas concorrentemente em espaços de trabalho isolados e consolida o progresso por meio de integração estruturada com verificação executável baseada em testes. Em avaliação empírica, descobrimos que o CAID melhora a precisão em 26,7% absoluto em relação às baselines de agente único em tarefas de reprodução de artigos (PaperBench) e 14,3% em tarefas de desenvolvimento de bibliotecas Python (Commit0). Por meio de análise sistemática, constatamos que o ramificar-e-combinar (branch-and-merge) é um mecanismo central de coordenação para colaboração multiagente, e que primitivas de SWE como git worktree, git commit e git merge permitem que ele seja realizado de maneira confiável e executável.
Os Grandes Modelos de Linguagem e Visão (LVLMs) destacam-se na compreensão semântica, mas lutam com a ancoragem espacial de granularidade fina, uma vez que o modelo deve inferir implicitamente geometrias complexas sem nunca produzir uma interpretação espacial. Apresentamos o Perceptio, um LVLM com percepção aprimorada e capacidades de raciocínio espacial 2D e 3D, possibilitadas através de *tokens* de segmentação semântica e de profundidade gerados explicitamente diretamente dentro da sequência autoregressiva. Concretamente, nós (i) destilamos um codebook de profundidade VQ-VAE a partir de um forte professor monocular para tokenizar a profundidade densa em sequências compactas, e (ii) integramos *tokens* de segmentação semântica baseados no SAM2 e *tokens* de profundidade VQ-VAE dentro do LLM, de modo que o modelo emite primeiro os *tokens* espaciais e depois responde. Para estabilizar a geração de *tokens* de profundidade, introduzimos novos objetivos compostos para *tokens* de profundidade (perdas de marcador, *token* e contagem) e uma técnica de *soft-merging* para reconstrução diferenciável. Adotamos uma estratégia de treino conjunto multi-tarefa em diversos conjuntos de dados, permitindo que o modelo aprenda *tokens* de percepção para abordar múltiplas tarefas subsequentes. Construído sobre o InternVL, o Perceptio atinge um desempenho state-of-the-art em várias benchmarks: melhora a segmentação por expressão referencial em +0,8/+1,4/+1,1 cIoU no RefCOCO/+/g, aumenta a precisão de compreensão espacial do HardBLINK em 10,3% e a precisão do MMBench em 1,0%, demonstrando que uma cadeia de pensamento espacial explícita fortalece materialmente a ancoragem espacial nos LVLMs.
Os Diffusion Transformers (DiTs) impulsionam modelos de mundo em vídeo de alta fidelidade, mas permanecem computacionalmente dispendiosos devido à eliminação de ruído sequencial e à custosa atenção espaço-temporal. O cache de características *training-free* acelera a inferência ao reutilizar ativações intermediárias entre as etapas de eliminação de ruído; no entanto, os métodos existentes dependem amplamente de uma suposição de Manutenção de Ordem Zero, ou seja, reutilizam características em cache como instantâneos estáticos quando o desvio global é pequeno. Isso frequentemente resulta em artefatos de *ghosting*, desfoque e inconsistências de movimento em cenas dinâmicas. Propomos o WorldCache, uma estrutura de Cache Dinâmico com Restrição de Percepção que melhora tanto *quando* quanto *como* reutilizar características. O WorldCache introduz limites adaptativos de movimento, estimativa de desvio ponderada por saliência, aproximação ótima via *blending* e *warping*, e agendamento de limites consciente da fase entre as etapas de difusão. Nossa abordagem coesa permite a reutilização adaptativa e consistente de características sem necessidade de retreinamento. No Cosmos-Predict2.5-2B avaliado no PAI-Bench, o WorldCache alcança uma aceleração de inferência de 2,3 vezes, preservando 99,4% da qualidade da linha de base, superando substancialmente as abordagens de cache *training-free* anteriores. Nosso código pode ser acessado em https://umair1221.github.io/World-Cache/{World-Cache}.
O aprendizado por reforço seguro offline (RL) busca políticas de maximização de recompensa a partir de conjuntos de dados estáticos sob restrições rígidas de segurança. Os métodos existentes frequentemente dependem de objetivos de custo esperado suavizados ou de inferência generativa iterativa, o que pode ser insuficiente para controle em tempo real crítico para segurança. Propomos o Safe Flow Q-Learning (SafeFQL), que estende o FQL para o RL seguro offline combinando uma função de valor de segurança inspirada na alcançabilidade de Hamilton-Jacobi com uma política de fluxo eficiente de uma única etapa. O SafeFQL aprende o valor de segurança via uma recursão de Bellman de auto-consistência, treina uma política de fluxo por clonagem comportamental e a destila em um ator de uma única etapa para seleção de ação segura de maximização de recompensa sem amostragem por rejeição na implantação. Para contabilizar o erro de aproximação de dados finitos no limite de segurança aprendido, adicionamos uma etapa de calibração por predição conformal que ajusta o limiar de segurança e fornece cobertura de segurança probabilística de amostra finita. Empiricamente, o SafeFQL troca um custo de treinamento offline moderadamente mais alto por uma latência de inferência substancialmente menor do que as linhas de base generativas seguras no estilo de difusão, o que é vantajoso para implantação crítica de segurança em tempo real. Em tarefas de navegação de barco e no Safety Gymnasium MuJoCo, o SafeFQL iguala ou supera o desempenho anterior do RL seguro offline enquanto reduz substancialmente as violações de restrição.
As vocalizações animais fornecem insights cruciais para a avaliação da vida selvagem, particularmente em ambientes complexos como florestas, auxiliando na identificação de espécies e no monitoramento ecológico. Avanços recentes em aprendizado profundo permitiram a classificação automática de espécies a partir de suas vocalizações. No entanto, classificar espécies não vistas durante o treinamento permanece um desafio. Para superar essa limitação, apresentamos o AnimalCLAP, uma estrutura áudio-linguagem consciente da taxonomia, compreendendo um novo conjunto de dados e modelo que incorpora informações biológicas hierárquicas. Especificamente, nosso conjunto de dados de vocalização consiste em 4.225 horas de gravações abrangendo 6.823 espécies, anotadas com 22 características ecológicas. O modelo AnimalCLAP é treinado neste conjunto de dados para alinhar representações de áudio e textuais usando estruturas taxonômicas, melhorando o reconhecimento de espécies não vistas. Demonstramos que nosso modelo proposto infere efetivamente atributos ecológicos e biológicos das espécies diretamente de suas vocalizações, alcançando desempenho superior em comparação com o CLAP. Nosso conjunto de dados, código e modelos estarão publicamente disponíveis em https://dahlian00.github.io/AnimalCLAP_Page/.
Os modelos de mundo aprendem a prever estados futuros de um ambiente, permitindo planeamento e simulação mental. As abordagens atuais recorrem por padrão a preditores baseados em Transformers que operam em espaços latentes aprendidos. Isto tem um custo: computação O(N²) e nenhum viés indutivo espacial explícito. Este artigo coloca uma questão fundamental: a auto-atenção é necessária para a modelação preditiva de mundo, ou podem substratos computacionais alternativos alcançar resultados comparáveis ou superiores? Apresento o FluidWorld, um modelo de mundo de prova de conceito cuja dinâmica preditiva é governada por equações diferenciais parciais (EDPs) do tipo reação-difusão. Em vez de usar um preditor de rede neural separado, a própria integração da EDP produz a previsão do estado futuro. Numa ablação tripla com parâmetros estritamente equivalentes para previsão incondicional de vídeo UCF-101 (64x64, ~800K parâmetros, codificador, descodificador, funções de perda e dados idênticos), o FluidWorld é comparado com uma linha de base Transformer (auto-atenção) e uma linha de base ConvLSTM (recorrência convolucional). Embora os três modelos convirjam para uma função de perda de previsão de um passo comparável, o FluidWorld alcança um erro de reconstrução 2x menor, produz representações com preservação da estrutura espacial 10-15% superior e dimensionalidade efetiva 18-25% maior e, criticamente, mantém rollouts multi-passo coerentes, enquanto ambas as linhas de base se degradam rapidamente. Todas as experiências foram conduzidas num único computador pessoal de consumo (Intel Core i5, NVIDIA RTX 4070 Ti), sem qualquer computação em larga escala. Estes resultados estabelecem que as dinâmicas baseadas em EDPs, que fornecem nativamente complexidade espacial O(N), computação adaptativa e coerência espacial global através da difusão, são uma alternativa viável e parametricamente eficiente tanto à atenção quanto à recorrência convolucional para a modelação de mundo.
Os Modelos de Linguagem de Difusão (DLMs) oferecem vantagens atrativas em relação aos modelos auto-regressivos (AR), como a decodificação paralela com atenção completa e geração flexível. No entanto, eles sofrem com uma notável incompatibilidade entre treinamento e inferência: os DLMs são treinados com um objetivo estático de previsão mascarada em etapa única, mas são implantados por meio de uma trajetória progressiva de desruído em múltiplas etapas. Propomos o MemDLM (DLM Aprimorado por Memória), que reduz essa lacuna incorporando um processo simulado de desruído no treinamento via Otimização Bi-nível. Um laço interno atualiza um conjunto de pesos rápidos, formando uma Memória Paramétrica que captura a experiência da trajetória local de cada amostra, enquanto um laço externo atualiza o modelo base condicionado a essa memória. Ao transferir a pressão de memorização das representações de tokens para os parâmetros, o MemDLM resulta em convergência mais rápida e menor perda de treinamento. Além disso, o laço interno pode ser reativado no momento da inferência como uma etapa de adaptação, gerando ganhos adicionais na compreensão de contexto longo. Descobrimos que, quando ativada no momento da inferência, esta Memória Paramétrica atua como um mecanismo emergente de recuperação em pesos, ajudando o MemDLM a reduzir ainda mais os gargalos de atenção a nível de token em tarefas desafiadoras de recuperação do tipo "Agulha no Palheiro". Código: https://github.com/JarvisPei/MemDLM.
Os recentes avanços nas tecnologias de conversão de texto em voz permitem gerar fala sintética de alta fidelidade, quase indistinguível de vozes humanas reais. Embora estudos recentes demonstrem a eficácia de codificadores de fala baseados em aprendizagem auto supervisionada para detecção de deepfakes, estes modelos têm dificuldade em generalizar para locutores não vistos. Nossa análise quantitativa sugere que essas representações do codificador são substancialmente influenciadas por informações do locutor, fazendo com que os detectores explorem correlações específicas do falante em vez de pistas relacionadas a artefatos. Denominamos este fenômeno de *entrelaçamento do locutor*. Para mitigar esta dependência, introduzimos o SNAP, uma estrutura de anulação do locutor. Estimamos um subespaço do locutor e aplicamos uma projeção ortogonal para suprimir componentes dependentes do falante, isolando os artefatos de síntese nas características residuais. Ao reduzir o entrelaçamento do locutor, o SNAP incentiva os detectores a concentrarem-se em padrões relacionados a artefatos, resultando num desempenho de ponta.
As redes neurais profundas (DNNs) alcançaram sucesso notável em visão computacional, mas permanecem altamente vulneráveis a ataques adversariais. Entre eles, os ataques de camuflagem manipulam a aparência visível de um objeto para enganar detectores, mantendo-se furtivos para humanos. Neste artigo, propomos uma nova estrutura que formula os ataques de camuflagem de veículos como um problema de edição de imagem condicional. Especificamente, exploramos estratégias de geração de camuflagem em nível de imagem e em nível de cena, e ajustamos finamente um ControlNet para sintetizar veículos camuflados diretamente em imagens reais. Projetamos um objetivo unificado que aplica conjuntamente fidelidade estrutural do veículo, consistência de estilo e eficácia adversária. Experimentos extensivos nos conjuntos de dados COCO e LINZ mostram que nosso método alcança uma eficácia de ataque significativamente maior, levando a uma diminuição de mais de 38% no AP50, enquanto preserva melhor a estrutura do veículo e melhora a furtividade percebida por humanos em comparação com as abordagens existentes. Além disso, nossa estrutura generaliza efetivamente para detectores black-box não vistos e exibe uma transferibilidade promissora para o mundo físico. A página do projeto está disponível em https://humansensinglab.github.io/CtrlCamo.
A navegação audiovisual permite que agentes corporificados naveguem em direção a alvos emissores de som, aproveitando pistas auditivas e visuais. No entanto, a maioria das abordagens existentes depende de respostas impulsivas de sala (RIRs) pré-computadas para renderização de áudio binaural, restringindo os agentes a posições discretas em grade e levando a observações espacialmente descontínuas. Para estabelecer um cenário mais realista, introduzimos a Navegação Semântica Audiovisual em Ambientes Contínuos (SAVN-CE), onde os agentes podem se mover livremente em espaços 3D e perceber fluxos audiovisuais temporal e espacialmente coerentes. Neste cenário, os alvos podem ficar intermitentemente silenciosos ou parar de emitir som completamente, fazendo com que os agentes percam informações do objetivo. Para enfrentar este desafio, propomos o MAGNet, um modelo baseado em transformador multimodal que codifica conjuntamente representações espaciais e semânticas do objetivo e integra contexto histórico com pistas de autolocomoção para permitir um raciocínio sobre objetivos aumentado por memória. Experimentos abrangentes demonstram que o MAGNet supera significativamente os métodos state-of-the-art, alcançando uma melhoria absoluta de até 12,1% na taxa de sucesso. Estes resultados também destacam sua robustez para sons de curta duração e cenários de navegação de longa distância. O código está disponível em https://github.com/yichenzeng24/SAVN-CE.
O Aprendizado por Reforço (AR) é essencial para evoluir os Grandes Modelos de Linguagem (LLMs) em agentes autônomos capazes de planejamento de longo horizonte, contudo, uma receita prática para escalar o AR em ambientes complexos e multi-turnos permanece indefinida. Este artigo apresenta um estudo empírico sistemático utilizando o TravelPlanner, um ambiente de teste desafiador que requer orquestração de ferramentas para satisfazer restrições multifacetadas. Decompomos o espaço de projeto do AR agente ao longo de 5 eixos: modelagem de recompensa, escalonamento de modelos, composição de dados, seleção de algoritmo e estabilidade ambiental. Nossos experimentos controlados resultam em 7 conclusões principais, por exemplo: (1) as escolhas de recompensa e algoritmo são dependentes da escala, pois modelos menores beneficiam-se de recompensas em estágios e exploração aprimorada, enquanto modelos maiores convergem eficientemente com recompensas densas mais simples; (2) ~1.000 amostras de treinamento com uma mistura balanceada de dificuldade representam um ponto ótimo para desempenho tanto dentro quanto fora do domínio; e (3) a estabilidade ambiental é crítica para evitar a degradação da política. Com base em nossa receita destilada, nossos modelos treinados com AR alcançam desempenho de ponta no TravelPlanner, superando significativamente os principais LLMs.
A clonagem de comportamento é um paradigma fundamental no aprendizado de máquina, permitindo o aprendizado de políticas a partir de demonstrações de especialistas em áreas como robótica, direção autônoma e modelos generativos. Modelos autorregressivos, como os transformadores, têm se mostrado notavelmente eficazes, desde grandes modelos de linguagem (LLMs) até sistemas visão-linguagem-ação (VLAs). No entanto, aplicar modelos autorregressivos ao controle contínuo requer a discretização de ações por meio de quantização, uma prática amplamente adotada, mas pouco compreendida teoricamente. Este artigo fornece fundamentos teóricos para essa prática. Analisamos como o erro de quantização se propaga ao longo do horizonte e interage com a complexidade amostral estatística. Mostramos que a clonagem de comportamento com ações quantizadas e perda logarítmica atinge uma complexidade amostral ótima, correspondendo aos limites inferiores existentes, e incorre apenas em uma dependência polinomial do horizonte em relação ao erro de quantização, desde que a dinâmica seja estável e a política satisfaça uma condição de suavidade probabilística. Caracterizamos ainda quando diferentes esquemas de quantização satisfazem ou violam esses requisitos e propomos uma ampliação baseada em modelo que comprovadamente melhora o limite de erro sem exigir suavidade da política. Por fim, estabelecemos limites fundamentais que capturam conjuntamente os efeitos do erro de quantização e da complexidade estatística.
Estudamos se uma hierarquia aperiódica pode oferecer uma vantagem estrutural para compressão sem perdas em relação a alternativas periódicas. Mostramos que os ladrilhamentos quasicristais de Fibonacci evitam o colapso de profundidade finita que afeta as hierarquias periódicas: as posições utilizáveis para pesquisa de n-gramas permanecem diferentes de zero em todos os níveis, enquanto os ladrilhamentos periódicos colapsam após O(log p) níveis para um período p. Isso resulta numa vantagem da hierarquia aperiódica: a reutilização do dicionário permanece disponível em todas as escalas, em vez de desaparecer além de uma profundidade finita. Nossa análise apresenta quatro consequências principais. Primeiro, a propriedade da Compensação Áurea mostra que o decaimento exponencial no número de posições é exatamente equilibrado pelo crescimento exponencial no comprimento das frases, de modo que a cobertura potencial permanece invariante em escala com valor assintótico Wvarphi/5. Segundo, usando a lei de complexidade esturmiana p(n)=n+1, mostramos que as hierarquias de Fibonacci/Esturmianas maximizam a eficiência de cobertura do codebook entre os ladrilhamentos aperiódicos binários. Terceiro, sob dependência de longo alcance, a hierarquia resultante alcança uma entropia de codificação menor do que hierarquias periódicas comparáveis. Quarto, a redundância decai superexponencialmente com a profundidade, enquanto os sistemas periódicos permanecem travados na profundidade onde o colapso ocorre. Validamos esses resultados com o Quasicryth, um compressor de texto sem perdas construído sobre uma hierarquia de Fibonacci de dez níveis com comprimentos de frase {2,3,5,8,13,21,34,55,89,144}. Em experimentos A/B controlados com codebooks idênticos, a vantagem aperiódica sobre uma linha de base de Período-5 cresce de 36.243 B em 3 MB para 11.089.469 B em 1 GB, explicada pela ativação de níveis mais profundos da hierarquia. No enwik9, o Quasicryth alcança 225.918.349 B (22,59%), com 20.735.733 B economizados pelo ladrilhamento de Fibonacci em relação à ausência de ladrilhamento.
Os sistemas de diálogo fundamentados em conhecimento visam gerar respostas informativas e contextualmente relevantes, condicionando-se a fontes de conhecimento externas. No entanto, a maioria das abordagens existentes concentra-se exclusivamente no inglês, carece de mecanismos explícitos de citação para verificar afirmações factuais e oferece transparência limitada sobre a tomada de decisão do modelo. Apresentamos o XKD-Dial, um *pipeline* de treinamento progressivo de quatro estágios para geração de diálogo explicável e fundamentada em conhecimento em um contexto bilíngue (inglês-hindi), compreendendo: (1) adaptação multilíngue, (2) SFT (*Supervised Fine-Tuning*) de diálogo em inglês com fundamentação por citação, (3) SFT de diálogo bilíngue e (4) alinhamento por GRPO (*Group Relative Policy Optimization*) com recompensas conscientes da citação. Avaliamos seis modelos que abrangem arquiteturas *encoder-decoder* (250M-3B) e *decoder-only* (1B-7B) em cada estágio do *pipeline*. Nossas principais contribuições são: (i) três análises de explicabilidade *post-hoc* - alinhamento de *cross-attention*, atribuição por *Integrated Gradients* e fundamentação causal baseada em oclusão - aplicadas sistematicamente em toda a trajetória de treinamento para revelar COMO o comportamento de citação é aprendido, não apenas SE é aprendido; (ii) o SFT com fundamentação por citação reduz o *hallucination* para 0,0% em modelos *encoder-decoder* a partir do Estágio 2; (iii) o *pipeline* progressivo evita o *catastrophic forgetting* enquanto melhora as capacidades em hindi; (iv) modelos menores equiparam-se a modelos maiores em inglês após o SFT; e (v) o GRPO fornece uma melhoria marginal em relação a um SFT bem projetado para tarefas estruturadas de citação. Avaliamos com base em seis métricas automáticas (BLEU, ROUGE, BERTScore, FactScore, Citação-F1 e taxa de *hallucination*).
Este trabalho apresenta o AdditiveLLM2, um modelo de linguagem grande multimodal e adaptado a um domínio, construído a partir da variante ajustada por instruções do modelo Gemma 3, utilizando um conjunto de dados relativamente pequeno de cerca de 50 milhões de tokens. O conjunto de dados (AdditiveLLM2-OA) consiste em artigos de revista de acesso aberto sobre manufatura aditiva, com dados extraídos para os processos de pré-treinamento adaptativo de domínio e de ajuste fino por instrução visual. Várias etapas do modelo desenvolvido são avaliadas com o *Additive-Manufacturing-Benchmark*, que consiste em tarefas específicas do domínio de manufatura aditiva compiladas a partir de recursos publicados. O AdditiveLLM2 demonstra proficiência em tarefas baseadas em linguagem e visão, atingindo precisões superiores a 90% em conhecimento geral de manufatura aditiva. Esta estratégia de pré-treinamento adaptativo de domínio e ajuste fino por instruções delineia um método de especialização acessível para modelos de linguagem grandes em um domínio específico, como a manufatura aditiva.