Artigos de pesquisa em IA selecionados diariamente com traduções
O progresso recente no desenvolvimento de modelos de linguagem tem sido definido pela escala, com cada geração absorvendo mais conhecimento mundial em seus pesos. No entanto, muitas aplicações práticas se beneficiam mais de raciocínio robusto do que de conhecimento paramétrico extenso. Nesse contexto, modelos de linguagem pequenos e especializados em tarefas (SLMs) oferecem uma escolha de design fundamentada. Apresentamos o Optimal Cognitive Core (OCC), uma família de SLMs construída em torno dessa premissa. Como variante do OCC, propomos o OCC-RAG, otimizado para resposta a perguntas (QA) fiel, fundamentada no contexto fornecido. Essa tarefa alinha-se diretamente com a abordagem de design do OCC, exigindo raciocínio de múltiplas etapas sobre passagens fornecidas enquanto ignora conhecimento memorizado. Para treinar o OCC-RAG, implementamos um pipeline inovador para sintetizar dados de QA de múltiplas etapas e múltiplos contextos em escala, produzindo um corpus de mais de três milhões de exemplos voltados para raciocínio de múltiplas etapas, fidelidade estrita ao contexto e abstenção calibrada. Disponibilizamos OCC-RAG-0.6B e OCC-RAG-1.7B, ambos treinados nesse corpus. Os modelos produzem traços de raciocínio estruturados com citações de fontes fundamentadas em citações literais do contexto. Através do OCC-RAG, demonstramos que SLMs compactos e especializados em tarefas podem igualar ou superar modelos de propósito geral de 2 a 6 vezes seu tamanho nos benchmarks de raciocínio de múltiplas etapas (HotpotQA, MuSiQue, TAT-QA), fidelidade (ConFiQA) e recusa (MuSiQue-Un).
Identificar quais regiões cerebrais representam um conceito visual no cérebro humano é um desafio central na neurociência. Abordagens existentes localizaram regiões funcionais grosseiras (por exemplo, rostos, lugares) através da maximização de ativação, identificando regiões que ativam fortemente para um conceito alvo em relação a outros conceitos. No entanto, a forte ativação por si só não estabelece que uma região representa o próprio conceito, pois as respostas podem, em vez disso, ser impulsionadas por pistas visuais ou semânticas correlacionadas. Apresentamos o BrainCause, uma estrutura automatizada que combina modelos generativos e cerebrais para sintetizar estímulos controlados e validar representações neurais através de testes causais direcionados. Dada uma consulta especificando um conceito de interesse, nossa estrutura constrói conjuntos de estímulos direcionados que compreendem imagens do conceito, edições contrafactuais que removem o conceito alvo enquanto preservam o restante do conteúdo da imagem, e imagens com distratores correlacionados candidatos. Em seguida, utiliza um modelo de codificação imagem-para-fMRI para prever respostas cerebrais e busca por representações que respondam especificamente ao conceito alvo em detrimento de alternativas correlacionadas. O BrainCause retorna representações candidatas validadas e propõe experimentos de fMRI de acompanhamento para testar ou estender suas descobertas. Nossa abordagem recupera com sucesso localizações funcionais conhecidas e identifica novas representações candidatas em dezenas de conceitos, validadas tanto em dados de fMRI previstos quanto medidos. Criticamente, mostramos que, sem validação causal, uma grande fração das localizações seriam falsos positivos, confirmando que a ativação por si só é evidência insuficiente de representação.
**Destilação On-Policy (OPD)** é uma técnica fundamental para o pós-treinamento eficiente de modelos de linguagem de grande escala (LLMs), com amplas aplicações em aprendizado de agentes, aprimoramento multitarefa e compressão de modelos. No entanto, o treinamento OPD torna-se instável quando as distribuições do professor e do aluno diferem substancialmente, pois a supervisão do professor sobre tokens gerados pelo aluno pode produzir gradientes de política não confiáveis e até causar falha na otimização. Este trabalho aborda a supervisão confiável em nível de token on-policy por meio de estratégias de atribuição de crédito e propõe a *Trust Region On-Policy Distillation*, **TrOPD**. Ela apresenta as seguintes características: 1) **Aprendizado On-Policy em Região de Confiança:** A TrOPD realiza OPD apenas em regiões onde o professor fornece supervisão confiável, mitigando a dificuldade de otimização do estimador K1 de divergência KL reversa sob incompatibilidade de distribuições. 2) **Estimação de Outliers:** Para regiões outliers, exploramos corte de gradiente, mascaramento e estimação KL direta para reduzir os efeitos adversos da supervisão não confiável. 3) **Orientação Fora da Política:** O aluno continua a geração a partir de prefixos do professor e usa KL direto para imitar a orientação fora da política, incentivando a exploração on-policy em direção a regiões confiáveis. Experimentos mostram que a TrOPD supera consistentemente os baselines de OPD estado da arte, incluindo OPD, EOPD e REOPOLD, em raciocínio matemático, geração de código e benchmarks de domínio geral.
Apresentamos o Humanoid-GPT, um Transformer no estilo GPT com atenção causal treinado em um corpus de movimento em escala de bilhões para controle corporal completo. Diferentemente de rastreadores MLP rasos anteriores, limitados por dados escassos e um compromisso entre agilidade e generalização, o Humanoid-GPT é pré-treinado em um corpus retargeted de 2 bilhões de quadros que unifica todos os principais conjuntos de dados de captura de movimento com gravações internas em larga escala. O escalonamento tanto dos dados quanto da capacidade do modelo produz um único Transformer generativo que rastreia comportamentos altamente dinâmicos, ao mesmo tempo que alcança generalização zero-shot sem precedentes para movimentos e tarefas de controle não vistos. Experimentos extensivos e análises de escalonamento mostram que nosso modelo estabelece uma nova fronteira de desempenho, demonstrando generalização zero-shot robusta para tarefas não vistas enquanto rastreia simultaneamente movimentos complexos e altamente dinâmicos.
O escalonamento em tempo de teste é uma abordagem poderosa para obter melhor raciocínio em grandes modelos de linguagem, mas torna-se limitado por gargalos de memória durante a decodificação de longo horizonte, à medida que o cache KV cresce. A quantização do cache KV pode ajudar a melhorar esse aspecto, porém os métodos atuais são avaliados em configurações do tipo prefill e os erros se comportam de forma diferente sob decodificação autoregressiva. Mostramos que, nesse último regime, os erros de quantização se acumulam ao longo das etapas temporais, impulsionados principalmente por escalas de token incorretas. Apresentamos o KVarN, um quantizador de cache KV sem calibração que aplica uma rotação de Hadamard seguida de uma normalização de variância com dupla escala em ambos os eixos das matrizes K e V. Descobrimos que essa combinação corrige erros de escala de token discrepantes e reduz substancialmente o acúmulo de erros em relação às referências existentes. O KVarN estabelece um novo estado da arte para quantização de cache KV em benchmarks generativos, incluindo MATH500, AIME24 e HumanEval, com precisão de 2 bits. Uma implementação vLLM do método KVarN está disponível em https://github.com/huawei-csl/KVarN.
O aprendizado por reforço (RL) pós-treinamento melhora modelos de linguagem de grande escala (LLMs) em domínios individuais, como raciocínio matemático, geração de código, resposta a perguntas e escrita criativa (CW), mas o treinamento em um domínio frequentemente degrada o desempenho em outros. Explicações existentes baseadas em esquecimento catastrófico ou conflito global de gradientes são incompletas: interferência substancial pode ocorrer mesmo quando os gradientes do modelo completo são quase ortogonais. Mostramos que o RL em domínio único produz edições de parâmetros esparsas e de pequena magnitude, com fraca sobreposição entre os neurônios mais alterados, enquanto diferentes domínios ainda compartilham rotas computacionais ativas substanciais nas quais as direções de atualização determinam se atuam de forma sinérgica ou conflituosa. Guiados por essa observação, provamos, sob um modelo de perturbação local de RL multi-domínio, que o treinamento em um domínio posterior prejudica um domínio anterior principalmente por meio de um termo de dano de segunda ordem, que, sob a estrutura de rota esparsa observada, se concentra em um subespaço de conflito compartilhado de baixa dimensionalidade. Além disso, uma breve atualização do domínio contrai o componente prejudicial nesse subespaço, permitindo uma recuperação seletiva com danos colaterais limitados. Consistente com a teoria, uma breve atualização Re-Math após Digitação → Matemática → QA → CW recupera Matemática de 57,66 para 66,04, preservando amplamente o desempenho nos outros domínios, resultando no melhor escore médio de 66,39. Além da atualização, um rollback livre de treinamento em um conjunto esparso de coordenadas de conflito proxy para o par Matemática-QA restaura parcialmente Matemática, fornecendo evidência direta em nível proxy para danos localizados. Esses resultados fornecem uma explicação mecanicista localizada da interferência e recuperação em RL multi-domínio.
Modelos mundiais e modelos de linguagem grandes multimodais (MLLMs) fornecem capacidades complementares para prever resultados futuros a partir de observações visuais estáticas. Modelos mundiais podem gerar simulações visuais concretas de futuros possíveis, enquanto os MLLMs podem raciocinar abstratamente sobre perguntas, objetivos e regras. No entanto, as simulações geradas são estocásticas e podem ser visualmente plausíveis, mas incorretas para a tarefa, tornando necessário determinar quando a simulação visual é útil, se uma simulação é crível e como ela deve influenciar a resposta final. Formulamos este problema como raciocínio concreto controlado, onde um modelo aprende a invocar, verificar e integrar a simulação visual futura juntamente com o raciocínio abstrato. Para estudar este cenário, construímos dois benchmarks verificados por humanos, o VRQABench para previsão espacial controlável e o OpenWorldQA para previsão física de domínio aberto, e propomos a Auto-Destilação On-Policy com Futuro Privilegiado (PF-OPSD). Durante o treinamento, o PF-OPSD usa vídeos futuros de verdade fundamental e respostas apenas como contexto privilegiado do lado do professor para avaliar trajetórias de raciocínio concreto on-policy, enquanto o aluno implantável nunca observa futuros verdadeiros no momento do teste. Os resultados experimentais mostram que o PF-OPSD supera a linha de base em 10,6% e 10,9% no VRQABench e no OpenWorldQA, respectivamente, ao mesmo tempo que aumenta a robustez a simulações ruidosas ou conflitantes. Nosso código e conjunto de dados estão disponíveis em https://github.com/yczhou001/PF-OPSD.
Espera-se cada vez mais que agentes autônomos apoiem fluxos de trabalho de pesquisa médica com IA de ponta a ponta, indo além de tarefas isoladas de predição ou respostas a perguntas clínicas de formato curto. No entanto, os benchmarks existentes para agentes médicos avaliam principalmente os resultados finais, oferecendo visibilidade limitada sobre o comportamento do agente dentro do processo de pesquisa. Para preencher essa lacuna, apresentamos o AutoMedBench, um benchmark consciente do fluxo de trabalho para pesquisa autônoma em IA médica em diversas tarefas de imagem médica e inferência multimodal, organizando a execução do agente em um fluxo de trabalho unificado de cinco estágios (S1-S5): Planejamento, Configuração, Validação, Inferência e Submissão. Ele compreende tarefas de longo horizonte, com cada execução tendo em média 33 turnos de agente, abrangendo cinco trilhas de pesquisa: segmentação, melhoria de imagem, resposta a perguntas visuais (VQA), geração de relatórios e detecção de lesões. Cada tarefa é avaliada em dois níveis de dificuldade, Lite e Standard, que utilizam os mesmos dados e métricas, mas diferem na quantidade de suporte estrutural do resumo da tarefa, e cada execução é pontuada usando tanto o desempenho final da tarefa quanto as pontuações dos estágios S1-S5, permitindo uma análise em nível de estágio desde o resumo inicial da tarefa até o artefato final submetido. Em milhares de execuções registradas, a pontuação em nível de estágio revela que Validação é o estágio do fluxo de trabalho mais fraco em média, enquanto Configuração é o mais forte, sugerindo que os agentes atuais são melhores em tornar os pipelines executáveis do que em verificar sua confiabilidade. A análise de erros pós-execução mostra ainda que falhas de verificação e submissão dominam os erros etiquetados, representando 37,7% e 38,1% dos códigos disparados, respectivamente, enquanto erros de compreensão da tarefa são raros, com 0,9%, e execuções com um código de erro disparado têm, em média, uma pontuação geral 48% menor do que execuções sem nenhum código de erro.
O treinamento intermediário tornou-se uma etapa importante no desenvolvimento moderno de LLMs, utilizando misturas curadas em larga escala para fortalecer capacidades antes do pós-treinamento final. Seu problema de seleção de dados é distinto: os dados são otimizados sob um objetivo do tipo pré-treinamento em escala próxima ao pré-treinamento, mas são curados para capacidades downstream e extraídos de fontes heterogêneas com diferentes formatos e funções de treinamento. Como resultado, a seleção eficaz requer tanto escalabilidade quanto critérios semânticos adaptáveis à fonte. Métodos existentes baseados em modelos escalam bem, mas fornecem apenas sinais de qualidade implícitos. Métodos de seleção semântica oferecem julgamentos mais robustos, mas geralmente assumem rubricas fixas ou formatos de dados padronizados. Para resolver essa incompatibilidade, propomos MIRA, uma estrutura de filtragem consciente da fonte baseada em descoberta de rubricas autoancoradas. A ideia chave é tornar a construção de rubricas parte da seleção de dados: MIRA primeiro descobre o que deve ser avaliado para cada grupo de fonte e, em seguida, destila esses julgamentos em classificadores alunos escaláveis para a filtragem do corpus completo. Em treinamento intermediário orientado a código com 21 fontes e 5 grupos de fonte, MIRA supera as linhas de base de seleção em nove benchmarks de código e iguala o desempenho da execução com corpus completo enquanto utiliza apenas metade dos tokens.
Aprendizado por reforço (RL) para raciocínio visual necessita de sinais de treinamento escaláveis, verificáveis e controláveis. Os atuais pós-treinamentos visuais com RL são treinados em conjuntos de dados estáticos e curados, com amostras fixas de imagem-pergunta-resposta limitadas pelo orçamento de coleta. Neste trabalho, introduzimos o TRON (Ambientes Online Direcionados e Verificáveis por Regras, do inglês *Targeted, Rule-verifiable Online eNvironments*), um substrato de ambiente online: uma *rollout* de treinamento é gerada sob demanda por um programa gerador-verificador controlável que amostra um novo estado visual latente, renderiza uma imagem, faz uma pergunta e verifica exatamente a resposta. Uma única execução pode, portanto, gerar um fluxo ilimitado de novas instâncias no nível de dificuldade exigido pelo currículo atual. O conjunto atual do TRON contém 520 ambientes organizados em cinco categorias de habilidade (espacial, matemática, diagrama, padrão/lógica e contagem); o mesmo substrato suporta tanto um único modelo completo treinado em todas as categorias quanto modelos especialistas por categoria de habilidade, sem necessidade de coleta adicional de dados. Também introduzimos uma análise do substrato que abrange confiabilidade da geração, diversidade de instâncias e níveis, quase duplicatas entre ambientes e taxa de aprovação do modelo base por nível de dificuldade. O pós-treinamento com RL usando METHOD melhora consistentemente o desempenho em dez benchmarks externos de raciocínio multimodal nos modelos Qwen3-VL-4B, Qwen2.5-VL-7B e MiMo-VL-7B-SFT.
Compreender um vídeo requer mais do que reconhecer momentos isolados, pois os humanos acompanham continuamente entidades, estados e eventos ao longo do tempo. Essa capacidade de rastreamento visual de estado é fundamental para a compreensão de vídeos, mas permanece pouco explorada nas avaliações atuais de Modelos de Linguagem Multimodais de Grande Escala (MLLMs). Apresentamos o benchmark Visual State Tracking (VSTAT), um benchmark baseado em vídeo projetado para diagnosticar o rastreamento visual de estado em MLLMs. O VSTAT consiste em 834 clipes extraídos de vídeos sintéticos e do mundo real, emparelhados com 1.500 perguntas que não podem ser respondidas a partir de um único quadro ou segmento curto, exigindo percepção contínua e integração de eventos ao longo de todo o fluxo de vídeo. Apesar de seu forte desempenho em benchmarks de vídeo existentes, descobrimos que os MLLMs de última geração têm desempenho muito inferior ao dos humanos e apenas modestamente acima das linhas de base de respostas anteriores. Para analisar essa lacuna, comparamos os traços de pensamento dos MLLMs com o fluxo de vídeo subjacente para entender por que e quando os MLLMs falham no VSTAT. Descobrimos que os MLLMs raciocinam e rastreiam corretamente em texto, mas falham em perceber visualmente os eventos que precisam rastrear. Por fim, nossa avaliação preliminar sugere que abordagens agentivas recentes, incluindo agentes de vídeo baseados em MLLM e agentes de codificação, não resolvem prontamente essas falhas, ainda ficando aquém no VSTAT.
Nas últimas décadas, testemunhamos avanços significativos no projeto de algoritmos de aprendizado de máquina, desde estudos iniciais sobre modelos rasos específicos para tarefas até Grandes Modelos de Linguagem (LLMs) profundos e mais gerais. Embora apresentem resultados promissores em tarefas que exigem predição instantânea ou aprendizado em contexto, os modelos existentes não possuem a capacidade de aprender continuamente e transferir eficazmente seu conhecimento contextual temporal para seus parâmetros de longo prazo. Inspirados pelo processo de aprendizado humano, introduzimos um paradigma "Sono" que permite que os modelos aprendam continuamente, destilem suas memórias frágeis de curto prazo em conhecimento estável de longo prazo por meio de repetição e melhorem recursivamente a si mesmos com um processo de "Sonhar". Mais detalhadamente, o sono consiste em duas etapas: (1) Consolidação da Memória: um processo de destilação ascendente, chamado Semeadura de Conhecimento, onde as memórias de um "eu" menor são destiladas em uma rede maior para fornecer maior capacidade enquanto preserva o conhecimento. Como prova de conceito, apresentamos um novo processo de Destilação Generalizada para Semeadura de Conhecimento (ou seja, a combinação de destilação on-policy com aprendizado por imitação baseado em Aprendizagem por Reforço (RL)); (2) Sonhar: uma fase de autoaperfeiçoamento, na qual o modelo utiliza RL para gerar um currículo de dados sintéticos, ensaiar novos conhecimentos e refinar capacidades existentes sem supervisão humana. Nossos experimentos em tarefas de longo horizonte, aprendizado contínuo, incorporação de conhecimento e generalização com poucos exemplos corroboram a importância da etapa do sono.
À medida que as capacidades dos veículos autônomos avançam, a avaliação segura de políticas de condução em cenários de cauda longa continua sendo um gargalo crítico. Na simulação em malha fechada, o modelo de política de condução interage ativamente com o ambiente, onde suas ações atualizam dinamicamente o estado do simulador e influenciam diretamente o próximo conjunto de observações sensoriais geradas. Embora simuladores neurais baseados em reconstrução ofereçam fotorrealismo, eles são fundamentalmente limitados pelos dados capturados inicialmente e têm dificuldade em generalizar para cenas altamente dinâmicas ou inéditas. Para superar essas limitações, apresentamos o OmniDreams, um modelo de mundo generativo de base, treinado intermediária e posteriormente a partir do modelo de difusão Cosmos, para gerar de forma autoregressiva vídeos condicionados a ações em tempo real. Ao explorar os ricos priores visuais do Cosmos e o treinamento intermediário e posterior em 21 mil horas de cenários de condução, o OmniDreams sintetiza fenômenos complexos e não observados que são difíceis de capturar por simuladores tradicionais, como condições climáticas extremas e comportamentos imprevisíveis de agentes dinâmicos. Crucialmente, ele condiciona autoregressivamente sua geração sensorial fotorrealista a quadros passados, ao estado atual do simulador e às ações de condução imediatas. Implantado em um sistema de malha fechada com o modelo de política Alpamayo 1 e o orquestrador AlpaSim, o OmniDreams atua como um ambiente altamente responsivo e reativo, fornecendo uma solução escalável e abrangente para treinar e avaliar políticas de condução autônoma de próxima geração. Além disso, apresentamos resultados preliminares indicando que um modelo mundo-ação (WAM) treinado posteriormente a partir do OmniDreams alcança desempenho robusto no conjunto de dados Physical AI Autonomous Vehicles NuRec, superando o modelo de política de pesquisa Alpamayo 1.5 baseado em VLA, utilizando apenas 1/5 do total de parâmetros. Esses resultados destacam o potencial de um modelo de mundo em tempo real como o OmniDreams para também servir como espinha dorsal para arquiteturas de políticas.
Modelos generativos modernos possuem uma compreensão profunda do conteúdo visual, no entanto, treiná-los para edição de imagens geralmente requer conjuntos de dados massivos de exemplos pareados. Isso limita a escalabilidade, especialmente para edição de vídeos, onde a coleta de dados pareados é proibitivamente cara. Propomos o Bootstrap Your Generator (ByG), uma estrutura geral para treinamento não pareado de modelos de edição baseados em correspondência de fluxo (flow matching). Ele aproveita o conhecimento do modelo base sem qualquer sinal externo. Nossa abordagem combina sinais de instrução extraídos do modelo congelado com consistência cíclica para preservação da estrutura. Para tornar isso viável, propomos direcionar gradientes de perdas posteriores sobre predições limpas para estados de treinamento ruidosos. Demonstramos resultados de ponta em cenários desafiadores de edição de imagem e vídeo com escassez de dados. Avaliações extensivas e estudos de usuários mostram que nosso método generaliza efetivamente para domínios não vistos e supera linhas de base supervisionadas treinadas em milhões de amostras. A análise revela que nosso direcionamento de gradientes reduz a lacuna entre treinamento e inferência, e a extração de sinais semânticos de um modelo base fornece um sinal de treinamento robusto que elimina a necessidade de modelos de recompensa externos.
Propomos Modelos de Difusão com Remoção de Ruído Residual Desacoplada (DRDD) para tradução imagem-para-imagem (I2I) unificada e eficiente em termos de dados. Embora os modelos de difusão tenham avançado a tradução I2I em termos de qualidade e diversidade, revelamos uma propriedade anteriormente pouco explorada nesses modelos. Crucialmente, para além do seu papel convencional de elevação de variedade (i.e., mover dados para fora de variedades de baixa dimensão), a injeção de ruído Gaussiano facilita a harmonização de domínio ao alinhar implicitamente as distribuições de características entre domínios, uma propriedade particularmente vantajosa para a tradução I2I unificada. No entanto, os modelos de difusão existentes erosionam prematuramente este efeito de harmonização, uma vez que o ruído e os resíduos são simultaneamente removidos num único processo de difusão acoplado. Para resolver isto, o DRDD desacopla o processo de difusão em duas etapas sequenciais e independentes: (1) uma difusão estocástica de ruído para harmonização de domínio e elevação de variedade, e (2) uma difusão residual determinística que aprende o mapeamento semântico central inteiramente dentro do domínio de ruído fixo. Este desacoplamento preserva os efeitos de harmonização e elevação de variedade ao longo da transformação, simplificando substancialmente a aprendizagem de mapeamentos unificados através de tarefas e domínios diversos. Notavelmente, a fase de difusão de ruído é treinada exclusivamente em abundantes imagens não emparelhadas do domínio alvo, melhorando grandemente a eficiência de dados. Uma análise teórica e empírica abrangente demonstra que o DRDD é amplamente compatível com modelos de difusão mainstream e fornece consistentemente uma tradução I2I robusta e unificada, mesmo sob dados emparelhados limitados. O nosso código está disponível em https://github.com/HKU-HealthAI/DRDD.
A personalização é uma capacidade crucial dos agentes de linguagem modernos. No entanto, a pesquisa atual posiciona principalmente os agentes personalizados como respondedores passivos às preferências dos usuários, limitando sua capacidade de interagir com os usuários e fornecer sugestões ou orientações de forma proativa. Para avaliar sistematicamente essa personalização proativa em interações realistas, propomos o Ψ-Bench, um benchmark para avaliar a capacidade dos LLMs de influenciar usuários realistas por meio da conversação. Projetamos três cenários de interação do mundo real que envolvem persuasão no Ψ-Bench e dotamos clientes simulados de características pessoais por meio de perfis de usuário explícitos derivados de históricos de diálogo. Avaliamos 10 LLMs de ponta no Ψ-Bench e descobrimos que, embora a maioria dos modelos consiga produzir argumentos coerentes e razoáveis, mesmo os modelos mais avançados ainda deixam espaço considerável para melhorias na persuasão. Também constatamos que o acesso aos perfis dos clientes proporciona um ganho médio de desempenho de 18,24%, destacando a importância das informações específicas do usuário para uma persuasão eficaz. No geral, nosso trabalho destaca a influência sensível à persona como uma direção desafiadora, porém prática, para avaliar e desenvolver agentes LLM personalizados mais proativos. Os códigos estão disponíveis em: https://github.com/Hanpx20/Psi-Bench.
A escala em tempo de teste melhora o desempenho de raciocínio de grandes modelos de linguagem, mas incorre em custos substanciais tanto em computação total quanto em latência. Métodos existentes de amostragem adaptativa mitigam parcialmente esse problema ao decidir dinamicamente quando parar a amostragem, mas geralmente dependem de regras heurísticas ou de suposições sobre a distribuição. Neste trabalho, formulamos a amostragem adaptativa como um processo de decisão de Markov (MDP). Treinamos um controlador de amostragem leve com aprendizado por reforço (RL) para equilibrar conjuntamente a correção da resposta, a latência e o custo computacional. Em cada rodada, o controlador decide parar a amostragem ou adquirir amostras adicionais. Nosso método é leve, baseando-se apenas em estatísticas das respostas finais, e pode ser treinado e implantado em CPU. Mostramos ainda que o arcabouço resultante admite uma interpretação como a relaxação Lagrangiana de um problema de otimização com restrições orçamentárias explícitas. Experimentos contra baselines fortes, como ASC e ESC, mostram que nosso método alcança trade-offs melhorados entre correção da resposta, rodadas de amostragem e número total de amostras necessárias.
Sistemas de auto-harness como A-Evolve, GEPA e Meta-Harness melhoram agentes de LLM otimizando prompts, habilidades, ferramentas, memórias e infraestruturas de suporte a partir do feedback de execução, mas são tipicamente avaliados em benchmarks offline fixos. Implantações reais, em vez disso, apresentam fluxos de tarefas abertos (open-ended): os históricos crescem sem um ponto final fixo, tarefas heterogêneas exigem diferentes harnesses, e as distribuições de problemas mudam ao longo do tempo. Esses desafios tornam frágil um único harness atualizado repetida e densamente, causando degradação de desempenho à medida que a precisão atinge um pico precoce e depois declina. Isso motiva a construção sustentada de harness com adaptação por tarefa. Apresentamos o Adaptive Auto-Harness, uma estrutura (framework) e sistema para tais fluxos. O framework decompõe a lacuna em relação a um harness oráculo em perda de evolução e perda de adaptação. O sistema aborda essas perdas com um evolver multiagente com estado (stateful), uma árvore de harness com roteamento em tempo de resolução, e ganchos de direção humana para casos em que o histórico carece do sinal necessário. Em fluxos de mercado de previsão, competição de segurança e previsão de eventos, o Adaptive Auto-Harness supera cinco baselines de auto-harness existentes, e as ablações atribuem os ganhos a melhor construção, roteamento ou direção humana direcionada. O código está disponível em https://github.com/A-EVO-Lab/AdaptiveHarness .
Apresentamos o PaddleOCR-VL-1.6, um modelo compacto aprimorado de análise de documentos, construído sobre o PaddleOCR-VL-1.5. Embora o PaddleOCR-VL-1.5 estabeleça uma linha de base robusta de 0,9B, seus erros residuais concentram-se em regiões sub-otimizadas, onde o comportamento do modelo é instável, a cobertura de dados é esparsa ou a supervisão é pouco confiável. Em vez de expandir indiscriminadamente o corpus de treinamento, o PaddleOCR-VL-1.6 introduz um framework de otimização de dados consciente de regiões, que identifica regiões frágeis a partir do modelo anterior, aplica aprimoramento direcionado a essas regiões e melhora a confiabilidade dos sinais de supervisão. Além disso, adota uma receita progressiva de pós-treinamento baseada em seleção curada de dados e aprendizado por reforço, elevando o desempenho do modelo a um patamar superior por meio de otimização em etapas. O PaddleOCR-VL-1.6 alcança uma nova pontuação de estado da arte de 96,33% no OmniDocBench v1.6, demonstra forte competitividade em relação a VLMs de alto nível e fornece uma receita prática de pós-treinamento para a série PaddleOCR-VL.
O ajuste por instruções alinha modelos de linguagem grandes, incluindo os multimodais, com diversas intenções do usuário, mas a escalabilidade para misturas heterogêneas é dificultada pela interferência de gradientes e pela sincronização que consome muita largura de banda. Perguntamos se esses dois gargalos podem ser abordados conjuntamente treinando partes da mistura de forma independente e reconciliando-as uma vez no espaço de parâmetros. Desenvolvemos uma teoria quadrática local dentro de uma bacia plana compartilhada que produz três resultados: a fusão de pesos produz uma redução de variância ponderada pela curvatura; a divisão de conflitos alinhada por PCA maximiza esse ganho ao longo de direções de alta curvatura; e a fusão adicionalmente atua como filtragem espectral com regularização implícita de norma. Esses resultados motivam diretamente o MERIT, um pipeline descentralizado de ajuste por instruções pronto para fusão que estima conflitos de gradiente em nível de conjunto de dados, particiona a mistura ao longo dos principais eixos de conflito da PCA, ajusta cada partição de forma independente sem comunicação entre partições e realiza a fusão uma vez por meio de média ponderada por tokens. No Qwen2.5-VL-3B com 136 tarefas Vision-FLAN, o MERIT melhora a média de 8 benchmarks de 54,3 (treinamento conjunto) para 57,0. A mesma receita escala para um modelo de 7B em uma mistura de 1,6M de exemplos e 176 fontes — igualando ou superando o treinamento conjunto centralizado com custo adicional mínimo — e transfere para o FLAN apenas textual. Nosso código está disponível em https://github.com/naver-ai/merit.
Navegação visual incorporada, onde um agente percebe um ambiente complexo e age para alcançar um objetivo a partir de informações sensoriais brutas, sustenta uma ampla gama de aplicações, como robótica de serviço doméstico, robótica assistiva e exploração autônoma em larga escala. No entanto, tentativas recentes de unificar navegação por visão e linguagem (VLN) e navegação por objetivo de objeto (ObjNav) permanecem no nível de fusão arquitetural, treinamento com tarefas mistas e pré-treinamento amplo de visão e linguagem, sem examinar se codificadores de visão e linguagem treinados independentemente já podem compartilhar uma estrutura semântica comum. Além disso, mesmo mapas topológicos centrados em objetos ainda fundamentam objetivos de linguagem por meio de supervisão cross-modal explícita, como CLIP ou grandes modelos de visão-linguagem, deixando em aberto se tal fundamentação é possível a partir de um mapa puramente construído por visão. Para abordar esses desafios, estendemos a Hipótese de Representação Platônica à navegação incorporada e reinterpretamos ObjNav apenas por visão, ObjNav cross-modal e VLN como três interfaces diferentes para o mesmo manifold semântico centrado em objetos. Introduzimos ainda PlatonicNav, uma estrutura livre de treinamento cujo Mapa Topológico Platônico funde distâncias geométricas e semânticas de nós de um codificador visual auto-supervisionado, e fundamenta objetivos de linguagem via correspondência cega sem qualquer dado pareado de visão-linguagem. Experimentos extensivos em benchmarks de simulação, incluindo HM3D-IIN, OVON e R2R-CE no MP3D, juntamente com implantação no Unitree Go2, demonstram que PlatonicNav generaliza entre tarefas, modalidades e corporificações sem treinamento cross-modal explícito. Código: https://github.com/AIGeeksGroup/PlatonicNav. Site: https://aigeeksgroup.github.io/PlatonicNav.
Traços longos de cadeia de pensamento (CoT) são amplamente utilizados como supervisão para SFT de LLM orientado a raciocínio, porém traços com respostas corretas ainda podem levar a resultados de fine-tuning marcadamente diferentes. Estudamos a continuação pós-conclusão em dados longos de CoT com respostas corretas: uma continuação na qual a resposta aparece suficientemente fundamentada, mas o traço continua com raciocínio adicional que permanece no alvo supervisionado. Para testar seu efeito no treinamento, utilizamos um editor apenas de exclusão para construir uma remoção de sufixo que preserva a resposta e comparamos o SFT baseado em CoT nos traços originais e processados. Observamos melhores resultados de SFT após a remoção da continuação pós-conclusão identificada pelo editor, sugerindo que essa continuação é prejudicial ao treinamento em nosso cenário. Portanto, denominamos esse fenômeno empiricamente suportado como continuação prejudicial. Além dessa intervenção, caracterizamos ainda a continuação pós-conclusão removida por meio de incerteza e progresso do estado oculto. Observamos incerteza local persistente juntamente com progresso direcional terminal enfraquecido, formando uma incompatibilidade entre incerteza e geometria. Finalmente, implementamos o Corte de Continuação Prejudicial (HCC), um proxy de limite leve que aproxima o limite da continuação pós-conclusão identificado pelo editor.
Destilação On-Policy (OPD) treina um modelo estudante em suas próprias trajetórias generativas sob supervisão densa de feedback em nível de token de um professor mais forte, mitigando tanto a mudança de distribuição off-policy do Ajuste Fino Supervisionado (SFT) quanto a atribuição esparsa de crédito da Aprendizagem por Reforço (RL). No entanto, a OPD padrão enfrenta duas limitações acopladas. Primeiro, ela requer acesso direto aos logits em nível de token do professor, excluindo uma ampla classe de modelos proprietários capazes de atuar como professores. Segundo, o sinal de logit em nível de token é frágil por si só, dependendo de uma sobreposição estreita de próximos tokens plausíveis entre professor e estudante, e propenso a amplificar padrões degenerados, como loops de repetição. Neste artigo, apresentamos o OmniOPD, uma nova estrutura que aborda ambas as limitações por meio de um sinal de supervisão em nível de bloco e livre de logits. O OmniOPD substitui a correspondência determinística de logits por amostragens de Monte Carlo que aproximam as preferências locais do professor por meio de uma métrica de similaridade semântica contínua sobre blocos de múltiplos tokens, e concentra essa supervisão por meio de um agendador de pico de entropia que audita o estudante apenas em suas bifurcações de raciocínio de alta incerteza. Um prior Bayesiano Dirichlet-Multinomial e uma âncora KL do modelo base ainda limitam a variância da amostragem discreta e previnem o colapso da política em tokens não auditados. Em benchmarks competitivos, o OmniOPD supera a abordagem OPD padrão em até +28,64% em matemática, confirmando que a verificação semântica em nível de bloco extrai um sinal de aprendizado mais confiável do que a correspondência de logits em nível de token, cuja alta densidade de informação é compensada por ruído e fragilidade significativos. Além disso, quando combinado com professores black-box mais fortes, como Claude-4.5-Haiku e Gemini-2.5-Flash, o OmniOPD alcança um adicional de +9,54% relativo em matemática em comparação com sua contraparte de professor de peso aberto, avançando o estudante além do desempenho da RL autoexploratória.
Os modelos atuais de similaridade musical geralmente calculam uma única pontuação monolítica, entrelaçando dimensões musicais distintas, como melodia, ritmo e timbre. Isso limita o controle e a interpretabilidade do usuário, impossibilitando a execução de consultas diferenciadas. Apresentamos o MERIT, uma estrutura para aprender representações musicais desembaraçadas e específicas de fator, adaptadas a essas três dimensões centrais. Para superar a falta de variações musicais isoladas em áudio do mundo real, utilizamos uma estratégia de treinamento inovadora que emprega geração condicional de áudio e stems separados por fonte para estimular fortemente a variação de um único fator nos dados de treinamento. Nossas avaliações demonstram um forte desembaraçamento fatorial. Cada cabeça responde fortemente à sua dimensão perceptual pretendida, enquanto permanece próximo ao acaso nas demais – uma propriedade representacional que se mantém tanto no domínio de treinamento sintético quanto em áudio independente do mundo real.
Modelos de raciocínio melhoram a precisão por meio de cadeias de pensamento estendidas, mas suas saídas longas criam um gargalo de memória e computação. Métodos de expulsão de cache KV reduzem esse custo ao remover pares chave-valor irrelevantes do cache, porém frequentemente produzem precisão inferior em comparação com alternativas de atenção esparsa baseadas em seleção, que mantêm o cache KV completo. Identificamos fatores-chave cruciais para a precisão da expulsão de cache KV. Primeiro, uma pequena fração dos estados de valor possui magnitudes anormalmente grandes, e sua expulsão causa falhas catastróficas, nas quais os modelos entram em loops repetitivos de raciocínio. Segundo, a introdução de estocasticidade durante a expulsão melhora a precisão ao aumentar a diversidade do cache. Com base nessas descobertas, propomos a Expulsão Estocástica de Cache KV Consciente de Valores (VaSE), uma receita livre de treinamento que protege estados de valor de grande magnitude e promove decisões de expulsão diversas. Em seis tarefas de raciocínio, modelos Qwen3 que utilizam VaSE com compressão de cache KV de 4x apresentam precisões médias mais altas do que o método de seleção de última geração na mesma esparsidade, superando o método de expulsão mais forte em mais de 4%. No geral, VaSE preenche a lacuna entre eficiência e precisão, suportando FlashAttention2 e permitindo uma pegada de memória estática para modelos de raciocínio.
A análise de elementos finitos (AEF) é a abordagem numérica mais importante para a mecânica dos sólidos. Os desafios da AEF incluem uma curva de aprendizado íngreme para usuários iniciantes e possíveis simulações falsas devido à definição incorreta de componentes-chave da simulação, como condições de contorno, casos de carga e variáveis de solução. Geralmente, são necessários anos de experiência em engenharia para a resolução de problemas reais. Para abordar essas questões, apresentamos o AbaqusAgent, um framework multiagente fundamentado em grandes modelos de linguagem (LLMs) para análises de mecânica dos sólidos. O AbaqusAgent foi desenvolvido para facilitar a geração e execução de casos de análise utilizando o Abaqus, um dos pacotes de AEF mais amplamente utilizados, transformando instruções em linguagem natural dos usuários em análises de AEF executadas e visualização de resultados. O AbaqusAgent é composto por seis agentes, incluindo agente intérprete, arquiteto, escritor de entrada, executor, revisor e visualizador, abrangendo todas as etapas essenciais de pré-processamento e pós-processamento de análises de AEF padrão. Uma ampla variedade de 50 problemas de mecânica dos sólidos foi validada com sucesso, alcançando uma taxa geral de sucesso de 86%. Além de melhorar a eficiência da AEF para problemas de mecânica dos sólidos e reduzir a barreira para a educação em mecânica computacional, o AbaqusAgent avança o paradigma de interação humano-simulação e possibilita a integração com fluxos de trabalho de otimização e caracterização de materiais capacitados por IA. O código está disponível em https://github.com/LIRAM-LIN/AbaqusAgent.
Modelos de Linguagem de Grande Escala demonstraram progressos notáveis em capacidades de uso geral e podem alcançar desempenho robusto em domínios específicos por meio de ajuste fino em dados específicos do domínio. No entanto, a aquisição de dados de alta qualidade para domínios-alvo continua sendo um desafio significativo. As abordagens existentes de síntese de dados seguem um paradigma dedutivo, dependendo fortemente de descrições explícitas de domínio expressas em linguagem natural e de engenharia cuidadosa de prompts, o que limita sua aplicabilidade em cenários do mundo real onde os domínios são difíceis de descrever ou articular formalmente. Neste trabalho, abordamos o problema pouco explorado da síntese de dados específicos de domínio por meio de um paradigma indutivo, onde o domínio alvo é definido apenas por um conjunto de exemplos de referência, particularmente quando as características do domínio são difíceis de articular em linguagem natural. Propomos uma nova estrutura, DOMINO, que aprende uma representação mínima suficiente do domínio a partir de amostras de referência e a utiliza para guiar a geração de dados sintéticos alinhados ao domínio. O DOMINO integra o ajuste de prompts com um objetivo de desentrelaçamento contrastivo para separar padrões em nível de domínio do ruído específico de amostras, mitigando o sobreajuste enquanto preserva as características centrais do domínio. Teoricamente, provamos que o DOMINO expande o suporte da distribuição de dados sintéticos, garantindo maior diversidade. Empiricamente, em benchmarks desafiadores de codificação onde as definições de domínio são implícitas, o ajuste fino nos dados sintetizados pelo DOMINO melhora a precisão Pass@1 em até 4,63% em relação a backbones robustos ajustados por instruções, demonstrando sua eficácia e robustez. Este trabalho estabelece um novo paradigma para síntese de dados específicos de domínio, possibilitando adaptação prática e escalável de domínio sem design manual de prompts ou especificações de domínio em linguagem natural.
Um objetivo central da ciência social computacional é descobrir diferenças interpretáveis em como a linguagem varia entre desfechos de interesse, como afiliação política ou qualidade instrucional. Métodos recentes de geração de hipóteses baseados em LLM descrevem essas diferenças em linguagem natural, mas selecionam padrões globalmente discriminativos sem considerar covariáveis que moldam os dados com base no conhecimento de domínio dos pesquisadores. Quando as covariáveis são ignoradas, os padrões selecionados podem refletir fatores de confusão, em vez de diferenças de interesse substantivo. Introduzimos a geração condicional de hipóteses, uma estrutura que incorpora covariáveis especificadas pelo pesquisador para direcionar a descoberta de hipóteses para diferenças que se mantêm dentro de subgrupos relevantes. Dois desafios surgem: o subgrupo alvo pode estar sub-representado (desequilíbrio de estrato) e a direção de uma diferença pode inverter entre subgrupos (inversão de sinal). Propomos dois métodos inspirados em econometria: um introduz interações entre características e covariáveis para detectar inversões de sinal, e o outro aplica centralização dentro do estrato e re-ponderação por frequência inversa para equalizar estratos sub-representados. Experimentos sintéticos mostram que cada método supera as linhas de base globais em seu cenário-alvo, e a avaliação de especialistas em dois conjuntos de dados reais confirma que a geração ciente de covariáveis revela hipóteses mais úteis dentro de subgrupos relevantes.
Modelar com precisão limites suaves, por exemplo, cabelos e desfoque de desfoco, é um desafio fundamental na conversão estéreo devido à mistura ambígua de primeiro plano e fundo. Modelos de profundidade existentes preveem principalmente profundidade de camada única, gerando ambiguidade na correspondência de profundidade em limites suaves. Embora técnicas de matting possam capturar opacidade para modelagem em camadas, elas frequentemente enfrentam dificuldades em cenas complexas com múltiplos alvos e geralmente exigem intervenção do usuário. Este artigo apresenta αDepth, uma representação em camadas que decompõe limites suaves para conversão estéreo de alta fidelidade. Especificamente, primeiro resolvemos a ambiguidade de cor e profundidade mista estimando valores de cor e profundidade em camadas em limites suaves. Considerando cenas complexas com múltiplos alvos, projetamos uma Representação Alfa Circular (CAR) que desloca o paradigma da extração global de alvos para a decomposição local de limites. Diferente de métodos de matting anteriores restritos a um único primeiro plano/fundo, a CAR permite inferência eficiente em nível de cena sem orientação manual. Avaliações extensivas demonstram que αDepth alcança desempenho de última geração em conversão estéreo, eliminando sangramento de fundo e distorções estruturais em limites suaves.
A visão em tempo real exige modelos que sejam precisos, eficientes e simples de implantar em diversos hardwares. A família YOLO tornou-se amplamente implantada por esse motivo, mas a maioria dos detectores YOLO ainda depende de supressão não-máxima na inferência, possui cabeças de detecção pesadas devido à Perda Focal de Distribuição, requer longos cronogramas de treinamento e pode deixar os menores objetos sem atribuições de rótulos positivos. Apresentamos o Ultralytics YOLO26, uma família unificada de modelos de visão em tempo real que aborda essas limitações por meio de avanços coordenados na arquitetura e no treinamento. O YOLO26 usa um design de cabeça dupla para inferência nativa de ponta a ponta sem NMS e remove completamente a DFL, resultando em uma cabeça mais leve com intervalo de regressão sem restrições. Seu pipeline de treinamento combina MuSGD, um otimizador híbrido Muon-SGD adaptado do treinamento de modelos de linguagem de grande escala; Perda Progressiva, que desloca a supervisão em direção à cabeça de inferência; e STAL, uma estratégia de atribuição de rótulos que garante cobertura positiva para objetos pequenos. Além da detecção, o YOLO26 introduz designs de cabeça e perda específicos para tarefas de segmentação de instâncias, estimativa de pose e detecção orientada, produzindo ganhos consistentes em tarefas e escalas. A família abrange cinco escalas (n/s/m/l/x) e suporta detecção, segmentação de instâncias, estimativa de pose, classificação e detecção orientada em um único pipeline, com uma extensão de vocabulário aberto, YOLOE-26, para inferência sem texto, visual ou prompt. Em todas as escalas, o YOLO26 atinge 40,9–57,5 mAP no COCO com latência de 1,7–11,8 ms T4 TensorRT, avançando a fronteira de Pareto entre precisão e latência em relação aos detectores em tempo real anteriores, enquanto o YOLOE-26x alcança 40,6 AP no LVIS minival sob prompt de texto. O código e os modelos estão disponíveis em https://github.com/ultralytics/ultralytics.
As habilidades de agentes estendem os agentes de IA com instruções, ferramentas, scripts, referências e fluxos de trabalho reutilizáveis, estabelecendo um limite de segurança distinto tanto da segurança do modelo quanto da detecção tradicional de malware em pacotes. O ClawHub Security Signals é um conjunto de dados sanitizados de 67.453 versões públicas recentes de habilidades do OpenClaw. Cada linha combina conteúdo editado de SKILL.md e arquivos empacotados sanitizados, quando presentes, com um veredito final do registro ClawScan e evidências de três famílias de scanners: VirusTotal, análise heurística estática e NVIDIA SkillSpector. Em vez de estimar a prevalência de habilidades maliciosas, estudamos a discordância entre scanners. Os três scanners raramente sinalizam as mesmas habilidades: qualquer par se sobrepõe em no máximo 10,4% de seus positivos combinados, apenas 0,69% das habilidades são sinalizadas pelos três, e 81,9% das habilidades sinalizadas são identificadas por um único scanner. A discordância é estruturada pela superfície de ataque. O SkillSpector, que emite avisos semânticos de risco agentivo em vez de sinais de reputação de malware, é positivo para 19.209 de 25.504 linhas suspeitas (75,3%), mas apenas 14 de 206 linhas maliciosas (6,8%). A região de veredito malicioso mostra o perfil inverso: 150 de 206 linhas maliciosas (72,8%) são positivas no VirusTotal, consistente com evidências de malware em código empacotado. Esses resultados mostram que a segurança de habilidades de agentes requer governança em camadas, e não decisões de permitir/bloquear baseadas em um único scanner. O corpus é liberado como um conjunto de dados sanitizados de padrão-prata: os rótulos são os vereditos automatizados do registro, não a verdade fundamental anotada por humanos, e a liberação representa um instantâneo inicial com versão, destinado a apoiar a comunidade enquanto um subconjunto anotado por humanos é desenvolvido. Pesquisas adicionais são incentivadas, incluindo modelos adaptados para triagem de segurança de habilidades.
A memória KV-cache é adequada para datacenters, mas inadequada para robôs. A inferência em datacenters processa muitas solicitações curtas e as reinicia, amortizando um cache de atenção entre uma multidão de requisições. Agentes corporificados, por outro lado, executam um único episódio longo, sem reinicializações, em hardware de borda com largura de banda limitada, onde memória de alta largura de banda e flash são escassos, o flash possui resistência finita a escritas, e as escritas na memória, em vez do processamento, podem se tornar a restrição dominante. A AURA-Mem (Memória Adaptativa Recorrente com Utilidade de Ação) visa esse regime. Ela envolve um backbone congelado de visão-linguagem-ação com uma memória recorrente de tamanho constante e uma porta aprendida que escreve apenas quando a observação atual alteraria a próxima ação: uma memória que sabe quando ficar silenciosa. Diferentemente da memória baseada em reconstrução, a porta é treinada diretamente contra um sinal de erro de ação em malha fechada. Seu estado de inferência é fixo em 4.224 bytes, independentemente do horizonte, enquanto uma memória KV-cache cresce para 6.061 vezes maior em 100.000 passos. Em um benchmark sintético controlado, a AURA-Mem iguala a melhor linha de base O(1) em precisão, utilizando 5,19 a 6,13 vezes menos escritas, e até 9,19 vezes menos escritas em configurações mais fáceis. Cronogramas aleatórios e periódicos com orçamento correspondente não recuperam esse ganho, isolando o benefício ao sinal de surpresa da ação. Em um painel treinado OpenVLA-OFT 7B em malha fechada no LIBERO-Long (n=60 episódios por braço), a porta não prejudica o sucesso: a AURA-Mem iguala a política base sem porta (0,233) e supera ligeiramente um braço KV de sempre escrever (0,217), enquanto utiliza 7,0 vezes menos escritas e memória constante. Também instanciamos um limite de perda de valor de estado de informação aproximada como demonstração metodológica; nessa escala, o limite é vago, em vez de uma garantia.
A simulação-para-real visual industrial é frequentemente descrita como a transferência de imagens sintéticas para imagens reais, mas a implantação industrial geralmente envolve uma incompatibilidade mais ampla entre as evidências disponíveis e as decisões necessárias. Um sistema pode ser construído a partir de renderizações CAD, observações RGB-D simuladas, imagens de referência normais, defeitos sintéticos, espaços de características pré-treinados ou prompts de linguagem, mas implantado sob diferentes sensores, iluminação, materiais, dispositivos de fixação, calibração, variação de produção e modos de defeito raros. Esta revisão reformula a simulação-para-real visual industrial como um problema de lacuna de domínio organizado pela disponibilidade de priori. Distinguimos configurações com CAD disponível, onde a geometria explícita do objeto pode suportar renderização, calibração, estimação de pose, segmentação e verificação geométrica em tempo de teste; configurações sem CAD disponível, onde a geometria é substituída por aparência de referência normal, distribuições de características, resíduos professor-aluno, suposições de anomalia sintética, características de base ou priores visão-linguagem; e configurações de priori de fronteira, onde modelos aproximados, gabaritos, vistas de referência ou correspondências semânticas preservam apenas parte do papel do CAD. Este enquadramento conecta a literatura de detecção baseada em CAD e estimação de pose 6D com a literatura de anomalia industrial e inspeção de superfície que geralmente são revisadas separadamente. Para tornar a taxonomia concreta, usamos âncoras empíricas nos conjuntos T-LESS/BOP, MVTec AD e VisA. As âncoras mostram que apenas a contagem de renderizações CAD não fecha a transferência; o design da distribuição de origem, a capacidade do detector e uma pequena calibração real podem ser mais importantes. Elas também mostram que o CAD em tempo de teste cria um canal de verificação distinto por meio da consistência de máscara, pose e profundidade, enquanto a inspeção sem CAD depende de normalidade calibrada e desvio de características. A revisão, portanto, argumenta contra um único ranking entre tarefas e, em vez disso, pergunta qual priori fundamenta a decisão de implantação.
Modelos feed-forward para reconstrução 3D têm alcançado alto desempenho utilizando atenção profunda entre visões para trocar informações entre imagens. No entanto, essas abordagens frequentemente dependem de pilhas de decodificadores pesados e carecem de um mecanismo estruturado para refinamento geométrico, resultando em baixa consistência entre múltiplas visões. Abordamos essa limitação inspirando-nos no clássico ajuste de feixe (BA), que pode ser interpretado como um processo iterativo de propagação de informações entre poses e geometria local. Inspirado pelo BA, propomos o BA-T, um Transformer iterativo que implementa atualizações estruturadas no estilo BA como uma camada repetível no espaço de tokens implícitos. Em vez de depender de pilhas profundas de atenção, o BA-T refina previsões com base no resíduo latente por meio de uma única camada leve. Experimentos demonstram que o BA-T melhora progressivamente a precisão de poses e reconstrução ao longo das iterações, alcança consistência entre visões superior à de decodificadores convencionais e iguala ou supera modelos substancialmente maiores, utilizando apenas 16% dos parâmetros de seus decodificadores. O BA-T oferece uma alternativa compacta, eficiente e estrutural à atenção profunda, viabilizando reconstrução 3D precisa dentro de uma arquitetura leve. O código será disponibilizado publicamente em https://github.com/zhangganlin/BA-T.
Sondas lineares treinadas em ativações de LLMs são cada vez mais propostas como métricas de detecção de engano, mas relatam AUROC superior a 0,96 em benchmarks limpos, enquanto colapsam sob mudança distribucional. Este artigo testa sistematicamente a resistência de métricas baseadas em sondas na família de modelos Gemma 3 (1B-27B parâmetros), diagnosticando por que falham, em vez de meramente documentar que falham. Testamos quatro hipóteses sobre a codificação do engano: (1) direção linear única, (2) subespaço multidimensional, (3) invólucro cônico convexo, (4) proxy de entropia. Nosso projeto inclui matrizes de transferência entre domínios, análise de sondas multidimensionais com linhas de base nulas por permutação, testes de residualização de entropia e avaliações com distratores em 8 mudanças estilísticas. Constatamos que: (a) as sondas alcançam AUROC quase perfeito (>=0,998) em dados limpos, mas colapsam sob mudanças estilísticas; sondas aumentadas por estilo recuperam detecção quase perfeita (AUROC médio 0,979-0,983) em estilos não vistos; (b) a hipótese de direção única é rejeitada (k=1 captura apenas AUROC 0,61-0,80), com falha de transferência entre domínios confirmada como geométrica, e não impulsionada por incompatibilidade de camadas; (c) a hipótese de proxy de entropia é rejeitada (|rho| máximo=0,454, Delta-AUROC máximo após residualização=0,004); e (d) o engano não forma um subespaço linear significativo (k* por domínio=0), mas sondas multidimensionais (k>=5) recuperam o sinal por meio de características distribuídas sublimiares. A fragilidade das sondas reflete estreiteza distribucional, e não limitação arquitetural: sondas aumentadas por estilo recuperam detecção quase perfeita tanto em 4B quanto em 27B, estabelecendo que o padrão de escalonamento inverso é um artefato da distribuição de treinamento, e não um fenômeno genuíno dependente de escala.
Modelos de linguagem grandes multimodais recentes demonstraram forte capacidade de raciocínio, mas sua confiabilidade como avaliadores automatizados ainda é limitada por uma fragilidade crítica: quando evidências visuais entram em conflito com pistas textuais, os juízes MLLM tendem a recompensar narrativas plausíveis em detrimento de respostas perceptualmente corretas. Identificamos e analisamos sistematicamente esse fenômeno, ao qual denominamos Viés de Julgamento Perceptual. Por meio de perturbações visuais controladas, os juízes multimodais existentes frequentemente se ancoram no texto da resposta em vez de sua própria percepção visual, gerando avaliações inconsistentes e não verificáveis. Para enfrentar esse problema, apresentamos o Conjunto de Dados de Julgamento com Perturbações Perceptuais, que constrói respostas contrafactuais minimamente editadas que isolam erros perceptuais e possibilitam supervisão verificável. Com base nesse conjunto de dados, desenvolvemos um quadro de treinamento unificado que combina uma recompensa estruturada baseada em GRPO com um objetivo de classificação por lote, alcançando uma ordenação global coerente sem a necessidade de rótulos pareados explícitos. Experimentos em diversos benchmarks de MLLM como Juiz mostram que nossa abordagem melhora substancialmente a fidelidade perceptual, a coerência de classificação e o alinhamento com a avaliação humana. Nossos resultados estabelecem um caminho escalável e generalizável para treinar juízes multimodais que sejam perceptualmente fundamentados, interpretáveis e robustos a conflitos entre raciocínio visual e textual.
WALL-WM é um Modelo de Ação Mundial (WAM) que desloca a aprendizagem vídeo-ação de uma otimização centrada em segmentos para um pré-treinamento Visão-Linguagem-Ação (VLA) fundamentado em eventos, utilizando eventos de ação semanticamente coerentes como unidade atômica de aprendizado. WAMs existentes geralmente inicializam a partir de modelos fundamentais multimodais ou de vídeo e, em seguida, otimizam segmentos de ação de comprimento fixo condicionados diretamente à observação e instrução atuais. Embora conveniente, essa formulação centrada em segmentos cria uma incompatibilidade fundamental de granularidade. A linguagem descreve objetivos e eventos semânticos, a visão evolui por meio de dinâmicas contínuas de cena e as ações operam em escalas temporais de nível de controle; forçar todos os três na mesma janela de predição de comprimento fixo transforma o treinamento VLA em um ajuste de correlação de curto horizonte. O WALL-WM aborda essa incompatibilidade organizando tanto a supervisão quanto os dados em torno de eventos semânticos. Especificamente, ele combina o pré-treinamento VLA fundamentado em eventos com um ecossistema de dados construído a partir de legendas em nível de evento e amostragem balanceada por agrupamento, permitindo aprendizado escalável sobre diversos comportamentos, cenas e estruturas de tarefas. A partir do mesmo backbone pré-treinado em eventos, o WALL-WM suporta dois modos de inferência complementares. O modo evento consome descrições do próximo evento e permite segmentos de execução de comprimento variável, enquanto o modo unificado utiliza um VLM com Decodificação em Escada para condicionar a inferência convencional de segmentos de comprimento fixo, preservando um caminho VLA contínuo em gradiente. Em conjunto com a infraestrutura de pré-treinamento em larga escala baseada no otimizador Muon, o WALL-WM fornece uma receita prática de escalonamento para WAMs de propósito geral. Experimentos mostram que o WALL-WM generaliza amplamente entre linguagem, cenas e tarefas, alcançando desempenho de ponta em avaliação de generalização em larga escala no mundo real.