Artigos de pesquisa em IA selecionados diariamente com traduções
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) baseia-se comumente na amostragem em grupo para estimar vantagens e estabilizar atualizações da política. Na prática, tamanhos grandes de grupo não são viáveis devido a limitações computacionais, o que tendencia o aprendizado para trajetórias que já são prováveis. Grupos menores frequentemente perdem trajetórias raras-corretas enquanto ainda contêm recompensas mistas, concentrando a probabilidade em soluções comuns. Derivamos a probabilidade de que as atualizações percam modos raros-corretos em função do tamanho do grupo, mostrando um comportamento não monotônico, e caracterizamos como as atualizações redistribuem massa dentro do conjunto correto, revelando que a massa correta não amostrada pode diminuir mesmo quando a massa correta total aumenta. Motivados por esta análise, propomos um coeficiente de escala de vantagem consciente da dificuldade, inspirado na perda focal (Focal loss), que reduz o peso das atualizações em prompts de alto sucesso. A modificação leve pode ser integrada diretamente em qualquer algoritmo RLVR relativo a grupo, como GRPO, DAPO e CISPO. No modelo Qwen2.5-7B, através de benchmarks intra-domínio e fora-do-domínio, nosso método melhora o pass@256 de 64.1 → 70.3 (GRPO), 69.3 → 72.5 (DAPO) e 73.2 → 76.8 (CISPO), enquanto preserva ou melhora o pass@1, sem aumentar o tamanho do grupo ou o custo computacional.
Os Autoencoders Esparsos (SAEs) são ferramentas poderosas para interpretar representações neurais, mas o seu uso em áudio permanece pouco explorado. Treinamos SAEs em todas as camadas do codificador do Whisper e do HuBERT, fornecemos uma avaliação extensiva da sua estabilidade e interpretabilidade, e demonstramos a sua utilidade prática. Mais de 50% das características permanecem consistentes entre diferentes inicializações aleatórias, e a qualidade da reconstrução é preservada. As características dos SAEs capturam informações acústicas e semânticas gerais, bem como eventos específicos, incluindo ruídos ambientais e sons paralinguísticos (por exemplo, risos, sussurros), e separam-nos eficazmente, sendo necessária a remoção de apenas 19-27% das características para apagar um conceito. A orientação de características reduz as deteções falsas de fala do Whisper em 70% com um aumento negligenciável da Taxa de Erro de Palavras (WER), demonstrando aplicabilidade no mundo real. Finalmente, descobrimos que as características dos SAEs estão correlacionadas com a atividade de EEG humano durante a perceção de fala, indicando um alinhamento com o processamento neural humano. O código e os *checkpoints* estão disponíveis em https://github.com/audiosae/audiosae_demo.
Apresentamos o Baichuan-M3, um modelo de linguagem de grande escala com aprimoramento médico, projetado para mudar o paradigma do questionamento e resposta passivo para um suporte ativo à decisão de nível clínico. Para superar as limitações dos sistemas existentes em consultas de escopo aberto, o Baichuan-M3 utiliza um *pipeline* de treinamento especializado para modelar o fluxo de trabalho sistemático de um médico. As capacidades principais incluem: (i) aquisição proativa de informações para resolver ambiguidades; (ii) raciocínio de longo horizonte que unifica evidências dispersas em diagnósticos coerentes; e (iii) supressão adaptativa de alucinações para garantir confiabilidade factual. Avaliações empíricas demonstram que o Baichuan-M3 alcança resultados de última geração no HealthBench, no recém-introduzido HealthBench-Hallu e no ScanBench, superando significativamente o GPT-5.2 em investigação clínica, aconselhamento e segurança. Os modelos estão publicamente disponíveis em https://huggingface.co/collections/baichuan-inc/baichuan-m3.
O rápido avanço dos Grandes Modelos de Linguagem (LLMs) tem catalisado o desenvolvimento de agentes autônomos capazes de navegar em ambientes complexos. No entanto, as avaliações existentes adotam principalmente um paradigma dedutivo, no qual os agentes executam tarefas com base em regras explicitamente fornecidas e objetivos estáticos, frequentemente dentro de horizontes de planejamento limitados. Crucialmente, isso negligencia a necessidade indutiva de os agentes descobrirem leis de transição latentes a partir da experiência de forma autônoma, que é a pedra angular para permitir a previsão agentiva e sustentar a coerência estratégica. Para preencher essa lacuna, introduzimos a OdysseyArena, que recentraliza a avaliação de agentes em interações de longo horizonte, ativas e indutivas. Formalizamos e instanciamos quatro primitivas, traduzindo dinâmicas de transição abstratas em ambientes interativos concretos. Com base nisso, estabelecemos a OdysseyArena-Lite para benchmarking padronizado, fornecendo um conjunto de 120 tarefas para medir a eficiência indutiva e a descoberta de longo horizonte de um agente. Indo além, introduzimos a OdysseyArena-Challenge para testar a resistência da estabilidade do agente em horizontes de interação extremos (por exemplo, > 200 passos). Experimentos extensos com mais de 15 LLMs líderes revelam que mesmo os modelos de fronteira exibem uma deficiência em cenários indutivos, identificando um gargalo crítico na busca pela descoberta autônoma em ambientes complexos. Nosso código e dados estão disponíveis em https://github.com/xufangzhi/Odyssey-Arena.
A entropia serve como uma métrica crítica para medir a diversidade de saídas geradas por modelos de linguagem de grande escala (LLMs), fornecendo insights valiosos sobre suas capacidades de exploração. Embora estudos recentes se concentrem cada vez mais em monitorar e ajustar a entropia para equilibrar melhor a exploração e a explotação no ajuste fino por reforço (RFT), uma compreensão fundamentada da dinâmica da entropia durante este processo ainda precisa ser investigada a fundo. Neste artigo, estabelecemos um quadro teórico para analisar a dinâmica da entropia durante o processo de RFT, que começa com uma expressão discriminante que quantifica a mudança de entropia sob uma única atualização dos logits. Esta base permite a derivação de uma expressão de primeira ordem para a mudança de entropia, que pode ser estendida para a fórmula de atualização da Otimização de Política Relativa de Grupo (GRPO). Os corolários e insights extraídos da análise teórica inspiram o desenho de métodos de controle de entropia e também oferecem uma lente unificada para interpretar vários métodos baseados em entropia em estudos existentes. Fornecemos evidências empíricas para apoiar as principais conclusões da nossa análise e demonstramos a eficácia dos métodos de recorte de discriminante de entropia derivados. Este estudo produz novos insights sobre a dinâmica de treinamento do RFT, fornecendo suporte teórico e estratégias práticas para otimizar o equilíbrio entre exploração e explotação durante o ajuste fino de LLMs.
A capacidade de simular os resultados de ações em ambientes variados revolucionará o desenvolvimento de agentes generalistas em larga escala. No entanto, modelar essas dinâmicas do mundo, especialmente para tarefas de robótica hábil, apresenta desafios significativos devido à cobertura limitada de dados e à escassez de rótulos de ação. Como um esforço nesse sentido, apresentamos o DreamDojo, um modelo de mundo de base que aprende interações diversas e controles hábeis a partir de 44 mil horas de vídeos humanos egocêntricos. Nossa mistura de dados representa o maior conjunto de dados de vídeo até o momento para pré-treinamento de modelos de mundo, abrangendo uma ampla gama de cenários diários com objetos e habilidades diversos. Para lidar com a escassez de rótulos de ação, introduzimos ações latentes contínuas como ações proxy unificadas, aprimorando a transferência de conhecimento de interação a partir de vídeos não rotulados. Após o pós-treinamento em dados de robôs-alvo de pequena escala, o DreamDojo demonstra uma forte compreensão da física e uma controlabilidade de ação precisa. Também concebemos um pipeline de destilação que acelera o DreamDojo para uma velocidade em tempo real de 10,81 FPS e ainda melhora a consistência contextual. Nosso trabalho possibilita várias aplicações importantes baseadas em modelos de mundo generativos, incluindo teleoperação ao vivo, avaliação de políticas e planejamento baseado em modelo. A avaliação sistemática em múltiplos benchmarks desafiadores fora da distribuição (OOD) verifica a significância do nosso método para simular tarefas de mundo aberto e ricas em contato, pavimentando o caminho para modelos de mundo de robôs de propósito geral.
Este trabalho apresenta um sistema de conversão de fala em texto, denominado "Pisets", desenvolvido para cientistas e jornalistas. O sistema é baseado numa arquitetura de três componentes concebida para melhorar a precisão do reconhecimento de fala, minimizando ao mesmo tempo os erros e as alucinações associadas ao modelo Whisper. A arquitetura compreende o reconhecimento primário através do Wav2Vec2, a filtragem de falsos positivos via *Audio Spectrogram Transformer* (AST) e o reconhecimento de fala final realizado pelo Whisper. A implementação de métodos de *curriculum learning* e a utilização de diversos corpora de fala em língua russa aumentaram significativamente a eficácia do sistema. Adicionalmente, foram introduzidas técnicas avançadas de modelação de incerteza, que contribuíram para melhorias adicionais na qualidade da transcrição. As abordagens propostas garantem uma transcrição robusta de dados de áudio longos em diversas condições acústicas, em comparação com o WhisperX e o modelo Whisper padrão. O código-fonte do sistema "Pisets" está publicamente disponível no GitHub: https://github.com/bond005/pisets.
A instabilidade no treinamento continua sendo um desafio crítico no pré-treinamento de grandes modelos de linguagem (LLMs), manifestando-se frequentemente como explosões súbitas de gradiente que desperdiçam recursos computacionais significativos. Estudamos falhas de treinamento num modelo NanoGPT de 5M de parâmetros dimensionado via μP, identificando dois fenómenos-chave que precedem o colapso: (1) declínio rápido no posto estável da matriz de pesos (rácio da norma de Frobenius ao quadrado para a norma espectral ao quadrado), e (2) aumento do alinhamento entre os Jacobianos de camadas adjacentes. Provamos teoricamente que estas duas condições conjuntamente causam um crescimento exponencial da norma do gradiente com a profundidade da rede. Para quebrar este mecanismo de instabilidade, propomos o MSign, um novo otimizador que aplica periodicamente operações de sinal matricial para restaurar o posto estável. Experiências em modelos de 5M a 3B de parâmetros demonstram que o MSign previne eficazmente falhas de treinamento com uma sobrecarga computacional inferior a 7,0%.
A modelagem interna do mundo – prever transições entre estados anteriores X e estados seguintes Y sob ações Z – é essencial para o raciocínio e planejamento em LLMs e VLMs. A aprendizagem de tais modelos normalmente requer trajectórias dispendiosas com etiquetas de ação. Propomos o SWIRL, um quadro de autoaprimoramento que aprende a partir de sequências contendo apenas estados, tratando as ações como uma variável latente e alternando entre a Modelagem Direta do Mundo (FWM) P_θ(Y|X,Z) e uma Modelagem de Dinâmica Inversa (IDM) Q_φ(Z|X,Y). O SWIRL itera duas fases: (1) Maximização de Informação Variacional, que atualiza a FWM para gerar estados seguintes que maximizam a informação mútua condicional com as ações latentes dado os estados anteriores, incentivando uma consistência identificável; e (2) Maximização do ELBO, que atualiza a IDM para explicar transições observadas, efetivamente realizando uma subida coordenada. Ambos os modelos são treinados com aprendizagem por reforço (especificamente, GRPO) usando o log-probabilidade do modelo oposto congelado como sinal de recompensa. Fornecemos garantias teóricas de capacidade de aprendizagem para ambas as atualizações e avaliamos o SWIRL em LLMs e VLMs através de múltiplos ambientes: dinâmicas visuais de mundo aberto de turno único e múltiplos turnos, e ambientes textuais sintéticos para física, web e chamada de ferramentas. O SWIRL alcança ganhos de 16% no AURORABench, 28% no ByteMorph, 16% no WorldPredictionBench e 14% no StableToolBench.
Os recentes avanços em modelos de raciocínio sugerem que a geração de tentativas plausíveis para problemas matemáticos de nível de pesquisa pode estar ao alcance, mas a verificação permanece um gargalo, consumindo o tempo escasso de especialistas. Nossa hipótese é que uma solução significativa deve conter informações suficientes a nível de método que, quando aplicadas a um conjunto de questões relacionadas, produzam um desempenho subsequente melhor do que soluções incorretas. Com base nesta ideia, propomos a Utilidade Baseada em Consequências, um avaliador livre de oráculo que pontua cada candidato testando seu valor como exemplo contextual na resolução de questões relacionadas, porém verificáveis. Nossa abordagem é avaliada em um conjunto original de problemas matemáticos de nível de pesquisa, cada um emparelhado com uma solução escrita por especialistas e nove soluções geradas por LLM. Notavelmente, a Utilidade Baseada em Consequências supera consistentemente modelos de recompensa, modelos de recompensa generativos e juízes LLM em qualidade de classificação. Especificamente, para o GPT-OSS-120B, ela melhora o Acc@1 de 67,2 para 76,3 e a AUC de 71,4 para 79,6, com ganhos de AUC igualmente grandes no GPT-OSS-20B (69,0 para 79,2). Além disso, em comparação com os Juízes-LLM, ela também exibe uma lacma maior entre resolvedor e avaliador, mantendo uma separação correto-errado mais forte mesmo em instâncias onde o resolvedor subjacente frequentemente falha em resolver.
Os modelos de raciocínio longo frequentemente apresentam dificuldades em ambientes multilíngues: tendem a raciocinar em inglês para perguntas não inglesas; quando restritos a raciocinar no idioma da pergunta, as precisões caem substancialmente. Essa dificuldade é causada pelas capacidades limitadas tanto para compreensão multilíngue de perguntas quanto para raciocínio multilíngue. Para abordar ambos os problemas, propomos o TRIT (Treinamento Integrado de Tradução e Raciocínio), uma estrutura de autoaprimoramento que integra o treinamento de tradução no raciocínio multilíngue. Sem feedback externo ou dados multilíngues adicionais, nosso método aprimora conjuntamente a compreensão de perguntas multilíngues e a geração de respostas. No MMATH, nosso método supera múltiplas linhas de base em média 7 pontos percentuais, melhorando tanto a correção das respostas quanto a consistência linguística. Análises adicionais revelam que a integração do treinamento de tradução melhora o alinhamento translinguístico de perguntas em mais de 10 pontos percentuais e aprimora a qualidade de tradução tanto para questões matemáticas quanto para texto de domínio geral, com ganhos de até 8.4 pontos COMET no FLORES-200.
O rápido avanço dos modelos visão-linguagem catalisou o surgimento de agentes de interface gráfica (GUI), que possuem imenso potencial para automatizar tarefas complexas, desde compras online até reservas de voos, aliviando assim a carga de fluxos de trabalho digitais repetitivos. Como capacidade fundamental, o grounding de GUI é tipicamente estabelecido como pré-requisito para a execução de tarefas end-to-end. Ele permite que os modelos localizem com precisão elementos de interface, como texto e ícones, para realizar operações precisas como cliques e digitação. Diferente de trabalhos anteriores que ajustam modelos já dotados de forte consciência espacial (ex: Qwen3-VL), nosso objetivo é dominar o pipeline técnico completo partindo de um modelo base com capacidade mínima de grounding, como o POINTS-1.5. Apresentamos o POINTS-GUI-G-8B, que atinge desempenho state-of-the-art com pontuações de 59,9 no ScreenSpot-Pro, 66,0 no OSWorld-G, 95,7 no ScreenSpot-v2 e 49,9 no UI-Vision. O sucesso do nosso modelo é impulsionado por três fatores-chave: (1) Engenharia de Dados Refinada, envolvendo a unificação de formatos de diversos datasets de código aberto juntamente com estratégias sofisticadas de aumento, filtragem e classificação por dificuldade; (2) Estratégias de Treinamento Aprimoradas, incluindo fine-tuning contínuo do codificador visual para melhorar a precisão perceptual e manutenção da consistência de resolução entre treinamento e inferência; e (3) Aprendizado por Reforço (RL) com Recompensas Verificáveis. Embora o RL seja tradicionalmente usado para fortalecer o raciocínio, demonstramos que ele melhora significativamente a precisão na tarefa de grounding de GUI, intensiva em percepção. Adicionalmente, o grounding de GUI oferece uma vantagem natural para o RL, pois as recompensas são facilmente verificáveis e altamente precisas.
A escalabilidade dos Modelos de Linguagem de Grande Porte (LLMs) impulsiona o interesse em otimizadores baseados em matrizes (por exemplo, Shampoo, Muon, SOAP) devido à sua eficiência de convergência; no entanto, a sua exigência de atualizações holísticas entra em conflito com a fragmentação de tensores em estruturas distribuídas como a Megatron. As soluções existentes são subótimas: as abordagens síncronas sofrem com redundância computacional, enquanto o particionamento por camadas não consegue reconciliar este conflito sem violar as restrições geométricas dos primitivos de comunicação eficientes. Para preencher esta lacuna, propomos a Canzona, uma estrutura Unificada, Assíncrona e com Balanceamento de Carga que desacopla a atribuição lógica do otimizador da distribuição física dos parâmetros. Para o Paralelismo de Dados, introduzimos uma estratégia de Particionamento Estático Alpha-Balanceado que respeita a atomicidade enquanto neutraliza o desequilíbrio de carga. Para o Paralelismo de Tensores, concebemos um pipeline de Computação Assíncrona que utiliza o Agendamento por Micro-Grupos para agrupar atualizações fragmentadas e ocultar a sobrecarga de reconstrução. Avaliações abrangentes na família de modelos Qwen3 (até 32 mil milhões de parâmetros) em 256 GPUs demonstram que a nossa abordagem preserva a eficiência das arquiteturas paralelas estabelecidas, alcançando uma aceleração de 1,57x no tempo de iteração de ponta a ponta e reduzindo a latência do passo do otimizador em 5,8x em comparação com a linha de base.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como um paradigma indispensável para aprimorar o raciocínio em Modelos de Linguagem de Grande Porte (LLMs). No entanto, métodos padrão de otimização de políticas, como a Otimização de Política Relativa de Grupo (GRPO), frequentemente convergem para políticas de baixa entropia, resultando em colapso modal severo e diversidade limitada de saída. Analisamos essa questão pela perspectiva da dinâmica de probabilidade de amostragem, identificando que o objetivo padrão reforça desproporcionalmente os caminhos de maior probabilidade, suprimindo assim cadeias de raciocínio alternativas válidas. Para resolver isso, propomos um novo Mecanismo de Reponderação de Vantagem (ARM) projetado para equilibrar os níveis de confiança em todas as respostas corretas. Ao incorporar a Perplexidade do Prompt e a Confiança da Resposta na estimativa de vantagem, nosso método remodela dinamicamente o sinal de recompensa para atenuar as atualizações de gradiente de caminhos de raciocínio superconfiantes, enquanto redistribui a massa de probabilidade para soluções corretas subexploradas. Resultados empíricos demonstram que nossa abordagem aumenta significativamente a diversidade gerativa e a entropia da resposta, mantendo uma precisão competitiva, alcançando efetivamente um equilíbrio superior entre exploração e exploração em tarefas de raciocínio. Resultados empíricos nos modelos Qwen2.5 e DeepSeek em benchmarks matemáticos e de codificação mostram que o ProGRPO mitiga significativamente o colapso de entropia. Especificamente, no Qwen2.5-7B, nosso método supera o GRPO em 5,7% no Pass@1 e, notavelmente, em 13,9% no Pass@32, destacando sua capacidade superior em gerar diversos caminhos de raciocínio corretos.
Os grandes modelos de raciocínio alcançam forte desempenho através da escalagem da cadeia de pensamento (chain-of-thought) em tempo de inferência, mas este paradigma sofre com custo quadrático, limites de contexto e degradação do raciocínio devido a efeitos de "perdido-no-meio". O raciocínio iterativo mitiga estes problemas através da sumarização periódica de pensamentos intermédios, contudo os métodos existentes dependem de aprendizagem supervisionada ou heurísticas fixas, falhando em otimizar quando sumarizar, o que preservar e como retomar o raciocínio. Propomos o InftyThink+, uma estrutura de aprendizagem por reforço de ponta a ponta que otimiza toda a trajetória de raciocínio iterativo, baseando-se em limites de iteração controlados pelo modelo e sumarização explícita. O InftyThink+ adota um esquema de treino em duas fases com início a frio supervisionado seguido de aprendizagem por reforço a nível de trajetória, permitindo que o modelo aprenda decisões estratégicas de sumarização e continuação. Experiências no DeepSeek-R1-Distill-Qwen-1.5B mostram que o InftyThink+ melhora a precisão em 21% no AIME24 e supera a aprendizagem por reforço convencional de cadeia longa de pensamento por uma margem clara, ao mesmo tempo que generaliza melhor para benchmarks fora da distribuição. Além disso, o InftyThink+ reduz significativamente a latência de inferência e acelera o treino de aprendizagem por reforço, demonstrando eficiência de raciocínio melhorada juntamente com um desempenho mais forte.
Os atuais benchmarks para agentes de GUI móveis falham sistematicamente em avaliar capacidades de memória, apresentando apenas 5,2-11,8% de tarefas relacionadas à memória e nenhuma avaliação de aprendizagem entre sessões. Apresentamos o MemGUI-Bench, um benchmark abrangente centrado na memória com avaliação pass@k e avaliação escalonada por LLM-como-juiz. Nossas contribuições incluem: (1) uma taxonomia sistemática de memória analisando 11 agentes em 5 arquiteturas; (2) 128 tarefas em 26 aplicações onde 89,8% desafiam a memória através de retenção cross-temporal e cross-espacial; (3) MemGUI-Eval, um pipeline automatizado com Escrutínio Progressivo e 7 métricas hierárquicas; e (4) avaliação baseada em questões de pesquisa de 11 agentes state-of-the-art. Nossos experimentos revelam deficits significativos de memória em todos os sistemas avaliados, identificam 5 modos de falha distintos e sintetizam 5 implicações de projeto acionáveis. Todos os recursos, incluindo código, benchmark e resultados de avaliação, serão \textit{completamente open-source e continuamente mantidos} em https://lgy0404.github.io/MemGUI-Bench/.
A compreensão de vídeos egocêntricos desempenha um papel vital para a inteligência incorporada. Os recentes modelos de linguagem de grande porte multimodais (MLLMs) podem aceitar entradas visuais e auditivas. No entanto, devido ao desafio de obter rótulos de texto com informações conjuntas de modalidade coerentes, a capacidade dos MLLMs de compreender conjuntamente ambas as modalidades em vídeos egocêntricos permanece pouco explorada. Para resolver este problema, introduzimos o EgoAVU, um mecanismo de dados escalável para gerar automaticamente narrações, perguntas e respostas audiovisuais egocêntricas. O EgoAVU enriquece as narrações humanas com contexto multimodal e gera narrações audiovisuais através da modelagem de correlação cross-modal. A filtragem de vídeos baseada em tokens e a curadoria modular baseada em grafos garantem tanto a diversidade quanto a qualidade dos dados. Aproveitando o EgoAVU, construímos o EgoAVU-Instruct, um conjunto de dados de treinamento em larga escala com 3M de amostras, e o EgoAVU-Bench, uma divisão de avaliação verificada manualmente que abrange diversas tarefas. O EgoAVU-Bench revela claramente as limitações dos MLLMs existentes: eles apresentam um forte viés em direção a sinais visuais, frequentemente negligenciando pistas auditivas ou falhando em correlacionar o áudio com a fonte visual. O ajuste fino de MLLMs no EgoAVU-Instruct aborda efetivamente esta questão, permitindo uma melhoria de desempenho de até 113% no EgoAVU-Bench. Tais benefícios também se transferem para outras referências, como EgoTempo e EgoIllusion, alcançando um ganho de desempenho relativo de até 28%. O código será disponibilizado para a comunidade.
Os Modelos Generativos de Recompensa (GenRMs) e a abordagem LLM-como-Juiz exibem um alinhamento enganoso ao produzirem julgamentos corretos por razões incorretas, uma vez que são treinados e avaliados para priorizar a Precisão do Resultado, o que prejudica sua capacidade de generalização durante o RLHF. Introduzimos a Consistência da Fundamentação, uma métrica refinada que quantifica o alinhamento entre o processo de raciocínio do modelo e o julgamento humano. Nossa avaliação de modelos de fronteira revela que a consistência da fundamentação discrimina efetivamente entre os modelos state-of-the-art e detecta o alinhamento enganoso, enquanto a precisão do resultado se mostra insuficiente em ambos os aspectos. Para mitigar esta lacuna, introduzimos um sinal híbrido que combina a consistência da fundamentação com a precisão do resultado para o treinamento de GenRMs. Nosso método de treinamento atinge desempenho state-of-the-art no RM-Bench (87,1%) e no JudgeBench (82%), superando as linhas de base baseadas apenas no resultado em uma média de 5%. Ao utilizar o RM durante o RLHF, nosso método melhora efetivamente o desempenho, como demonstrado no Arena Hard v2, com um notável aumento de 7% em tarefas de escrita criativa. Análises adicionais confirmam que nosso método escapa da armadilha do alinhamento enganoso, revertendo efetivamente o declínio na consistência da fundamentação observado no treinamento baseado apenas no resultado.
As arquiteturas Mixture-of-Experts (MoE) estão evoluindo para uma granularidade mais fina para melhorar a eficiência de parâmetros. No entanto, os projetos de MoE existentes enfrentam um trade-off inerente entre a granularidade da especialização dos especialistas e a eficiência de execução em hardware. Propomos o OmniMoE, uma estrutura de co-projeto sistema-algoritmo que leva a granularidade dos especialistas ao seu extremo lógico. O OmniMoE introduz Especialistas Atômicos em nível vetorial, permitindo roteamento e execução escaláveis dentro de uma única camada MoE, enquanto mantém um ramo denso compartilhado de MLP para processamento de propósito geral. Embora este design atômico maximize a capacidade, ele impõe sérios desafios para a complexidade de roteamento e o acesso à memória. Para resolver isso, o OmniMoE adota um co-projeto sistema-algoritmo: (i) um Roteador de Produto Cartesiano que decompõe o espaço massivo de índices para reduzir a complexidade de roteamento de O(N) para O(√N); e (ii) um Escalonamento Centrado no Especialista que inverte a ordem de execução para transformar consultas espalhadas e limitadas por memória em operações eficientes de matriz densa. Validado em sete benchmarks, o OmniMoE (com 1,7B de parâmetros ativos) alcança 50,9% de precisão zero-shot nos sete benchmarks, superando as linhas de base de granularidade grossa (ex: DeepSeekMoE) e granularidade fina (ex: PEER). Crucialmente, o OmniMoE reduz a latência de inferência de 73ms para 6,7ms (uma aceleração de 10,9 vezes) em comparação com o PEER, demonstrando que MoE de granularidade fina em larga escala pode ser rápido e preciso. Nosso código é de código aberto em https://github.com/flash-algo/omni-moe.
Embora os seres humanos percebam o mundo por meio de modalidades diversas que operam sinergicamente para sustentar uma compreensão holística do seu entorno, os modelos omnivídeo existentes ainda enfrentam desafios substanciais em tarefas de compreensão áudio-visual. Neste artigo, propomos o OmniVideo-R1, uma nova estrutura reforçada que aprimora o raciocínio de multimodalidade mista. O OmniVideo-R1 capacita os modelos a "pensar com pistas omnimodais" por meio de duas estratégias principais: (1) fundamentação intensiva em consultas baseada em paradigmas de aprendizagem auto-supervisionada; e (2) fusão atenta à modalidade construída sobre paradigmas de aprendizagem contrastiva. Experimentos extensivos em múltiplos benchmarks demonstram que o OmniVideo-R1 supera consistentemente linhas de base robustas, destacando sua eficácia e capacidades de generalização robustas.
Os Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades de raciocínio notáveis, alcançando resultados impressionantes numa vasta gama de tarefas. Apesar destes avanços, falhas significativas de raciocínio persistem, ocorrendo mesmo em cenários aparentemente simples. Para compreender e abordar sistematicamente estas limitações, apresentamos o primeiro levantamento abrangente dedicado a falhas de raciocínio em LLMs. Introduzimos um novo quadro de categorização que distingue o raciocínio em tipos incorporado e não-incorporado, sendo este último subdividido em raciocínio informal (intuitivo) e formal (lógico). Em paralelo, classificamos as falhas de raciocínio ao longo de um eixo complementar em três tipos: falhas fundamentais, intrínsecas às arquiteturas dos LLMs, que afetam amplamente tarefas subsequentes; limitações específicas de aplicação que se manifestam em domínios particulares; e problemas de robustez caracterizados por desempenho inconsistente perante pequenas variações. Para cada falha de raciocínio, fornecemos uma definição clara, analisamos estudos existentes, exploramos causas profundas e apresentamos estratégias de mitigação. Ao unificar esforços de pesquisa fragmentados, o nosso levantamento oferece uma perspetiva estruturada sobre as fraquezas sistémicas no raciocínio dos LLMs, fornecendo informações valiosas e orientando pesquisas futuras no sentido de construir capacidades de raciocínio mais fortes, confiáveis e robustas. Adicionalmente, disponibilizamos uma coleção abrangente de trabalhos de pesquisa sobre falhas de raciocínio em LLMs, como um repositório GitHub em https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, para fornecer um ponto de entrada fácil para esta área.
Agentes de autoaperfeiçoamento de ciclo aberto podem modificar autonomamente seus próprios projetos estruturais para avançar suas capacidades e superar os limites de arquiteturas predefinidas, reduzindo assim a dependência de intervenção humana. Apresentamos os Agentes de Evolução em Grupo (GEA), um novo paradigma para autoaperfeiçoamento de ciclo aberto que trata um grupo de agentes como unidade evolutiva fundamental, permitindo o compartilhamento e reutilização explícita de experiências dentro do grupo ao longo da evolução. Diferente dos paradigmas de auto-evolução de ciclo aberto existentes que adotam evolução em estrutura arbórea, o GEA supera a limitação da utilização ineficiente da diversidade exploratória causada por ramos evolutivos isolados. Avaliamos o GEA em benchmarks desafiadores de codificação, onde ele supera significativamente os métodos de auto-evolução state-of-the-art (71,0% vs. 56,7% no SWE-bench Verified, 88,3% vs. 68,3% no Polyglot) e iguala ou excede os melhores frameworks de agentes projetados por humanos (71,8% e 52,0% em dois benchmarks, respectivamente). A análise revela que o GEA converte mais efetivamente a diversidade exploratória inicial em progresso sustentado de longo prazo, alcançando desempenho superior com o mesmo número de agentes evoluídos. Além disso, o GEA exibe transferibilidade consistente entre diferentes modelos de codificação e maior robustez, corrigindo bugs em nível de framework em 1,4 iterações em média, contra 5 dos métodos de auto-evolução.
A quantização apenas de pesos é importante para a compressão de Modelos de Língua de Grande Porte (LLMs). Inspirados pelo princípio da poda clássica por magnitude, investigamos se a magnitude das atualizações de peso durante o fine-tuning voltado para raciocínio pode fornecer sinais valiosos para a quantização de Modelos de Raciocínio de Grande Porte (LRMs). Nossa hipótese é que as menores e maiores atualizações de peso durante o fine-tuning são mais importantes do que aquelas de magnitude intermediária, um fenômeno que denominamos "proteção de ambos os extremos". Após a validação da hipótese, introduzimos o QuantLRM, que significa quantização de pesos de LRMs por meio de sinais de fine-tuning. Ajustamos funções quadráticas restritas simples nas atualizações de peso para proteger ambos os extremos. Multiplicando os valores quadráticos médios pela contagem de atualizações de peso zero dos canais, calculamos a importância do canal, que se mostra mais eficaz do que o uso de informações de ativação ou de segunda ordem. Executamos o QuantLRM para quantizar vários modelos ajustados (incluindo fine-tuning supervisionado, de otimização de preferência direta e por aprendizagem por reforço) em quatro benchmarks de raciocínio (AIME-120, FOLIO, sequências temporais e GPQA-Diamond) e verificamos empiricamente que o QuantLRM proporciona uma melhoria consistente para a quantização de LRMs, com uma melhoria média de 6,55% em um modelo ajustado por aprendizagem por reforço. Suportando também LRMs não ajustados, o QuantLRM coleta sinais eficazes por meio de pseudo-fine-tuning, o que amplia significativamente sua aplicabilidade.
A implantação eficiente de grandes modelos de linguagem (LLMs) requer quantização extrema, forçando uma troca crítica entre a eficiência de baixo bit e o desempenho. A binarização residual permite inferência amigável ao *hardware* e livre de multiplicação de matrizes (*matmul*) através do empilhamento de camadas binárias (±1), mas é prejudicada pela co-adaptação patológica de características. Identificamos um modo de falha fundamental, que denominamos **adaptação inter-caminhos**: durante o treino consciente da quantização (*Quantization-Aware Training - QAT*), os caminhos binários residuais paralelos aprendem características redundantes, degradando a estrutura de compensação de erro e limitando a capacidade expressiva do modelo. Enquanto trabalhos anteriores dependem de soluções heurísticas (por exemplo, congelação de caminhos) que restringem o espaço de soluções, propomos o **RaBiT**, uma nova estrutura de quantização que resolve a co-adaptação através da imposição algorítmica de uma hierarquia residual. O seu mecanismo central deriva sequencialmente cada caminho binário a partir de um único peso de precisão completa partilhado, o que garante que cada caminho corrija o erro do anterior. Este processo é estabilizado por uma inicialização robusta que prioriza a preservação funcional em detrimento da mera aproximação de pesos. O RaBiT redefine a fronteira de precisão-eficiência de 2 bits: atua um desempenho de última geração, rivaliza mesmo com métodos de Quantização Vetorial (VQ) intensivos em *hardware* e proporciona uma aceleração de inferência de 4.49x em relação a modelos de precisão completa numa RTX 4090.
Os Grandes Modelos de Linguagem (LLMs) frequentemente apresentam desempenho reduzido, alinhamento cultural e robustez de segurança inferiores em idiomas não ingleses, em parte porque o inglês domina tanto os dados de pré-treinamento quanto os conjuntos de dados de alinhamento de preferências humanas. Métodos de treinamento como Aprendizado por Reforço com Feedback Humano (RLHF) e Otimização Direta de Preferências (DPO) exigem dados de preferência humana, que permanecem escassos e em grande parte não públicos para muitos idiomas além do inglês. Para preencher esta lacuna, apresentamos o compar:IA, um serviço público digital de código aberto desenvolvido no interior do governo francês e projetado para coletar dados de preferência humana em larga escala de um público geral predominantemente francófono. A plataforma utiliza uma interface de comparação pareada cega para capturar instruções (prompts) do mundo real, sem restrições, e os julgamentos dos usuários em uma variedade de modelos de linguagem, mantendo baixo atrito de participação e filtragem automática que preserva a privacidade. Em 07 de fevereiro de 2026, o compar:IA coletou mais de 600.000 instruções de forma livre e 250.000 votos de preferência, com aproximadamente 89% dos dados em francês. Disponibilizamos três conjuntos de dados complementares — conversas, votos e reações — sob licenças abertas e apresentamos análises iniciais, incluindo um ranking (leaderboard) de modelos para a língua francesa e padrões de interação do usuário. Para além do contexto francês, o compar:IA está a evoluir para um bem público digital internacional, oferecendo infraestrutura reutilizável para o treinamento e avaliação de modelos multilingues e para o estudo da interação humano-IA.
Estudamos um modo persistente de falha no alinhamento multiobjetivo para grandes modelos de linguagem (LLMs): o treinamento melhora o desempenho apenas em um subconjunto de objetivos, ao mesmo tempo que causa a degradação de outros. Formalizamos este fenômeno como **interferência entre objetivos** e conduzimos o primeiro estudo sistemático através de algoritmos clássicos de scalarização, mostrando que a interferência é generalizada e exibe forte dependência do modelo. Para explicar este fenômeno, derivamos uma **lei de covariância local** que mostra que um objetivo melhora em primeira ordem quando sua recompensa exibe covariância positiva com a pontuação scalarizada. Estendemos esta análise para as funções objetivo substitutas (*surrogate*) com recorte (*clipping*) usadas no alinhamento moderno, demonstrando que a lei da covariância permanece válida sob condições suaves, apesar do recorte. Com base nesta análise, propomos a **Adaptação de Peso Direcionada por Covariância (CTWA)**, um método *plug-and-play* que mantém uma covariância positiva entre as recompensas dos objetivos e o sinal de treinamento para mitigar eficazmente a interferência entre objetivos. Por fim, complementamos estas condições locais de melhoria com uma análise de **convergência global** sob a condição de Polyak-Łojasiewicz, estabelecendo quando a otimização scalarizada não convexa atinge convergência global e como a interferência entre objetivos depende de propriedades geométricas específicas do modelo.
Os jailbreaks multirrodada capturam o modelo de ameaça real para chatbots alinhados com segurança, onde os ataques de rodada única são apenas um caso especial. No entanto, as abordagens existentes falham devido à complexidade de exploração e ao desvio de intenção. Propomos o SEMA, uma estrutura simples, porém eficaz, que treina um atacante multirrodada sem depender de estratégias existentes ou dados externos. O SEMA compreende dois estágios. O autodimensionamento de preenchimento prévio permite rollouts utilizáveis através do ajuste fino em prompts adversariais multirrodada, auto-gerados com um prefixo mínimo, bem estruturados e sem recusas, estabilizando assim a aprendizagem subsequente. O aprendizado por reforço com recompensa consciente do desvio de intenção treina o atacante para eliciar prompts adversariais multirrodada válidos, mantendo o mesmo objetivo malicioso. Ancoramos a intenção maliciosa em jailbreaks multirrodada por meio de uma recompensa consciente do desvio de intenção que combina alinhamento de intenção, risco de conformidade e nível de detalhe. Nosso regime de ataque de malha aberta evita a dependência do feedback da vítima, unifica configurações de rodada única e múltipla e reduz a complexidade de exploração. Em vários conjuntos de dados, modelos de vítima e juízes de jailbreak, nosso método alcança taxas de sucesso de ataque (ASR) state-of-the-art (SOTA), superando todas as linhas de base de rodada única, linhas de base multirrodada com script manual e baseadas em modelo, bem como nossas variantes SFT (Supervised Fine-Tuning) e DPO (Direct Preference Optimization). Por exemplo, o SEMA executa uma ASR@1 média de 80,1% em três modelos de vítima de código fechado e aberto no AdvBench, 33,9% acima do SOTA. A abordagem é compacta, reproduzível e transferível entre alvos, fornecendo um teste de estresse mais forte e realista para a segurança de modelos de linguagem grande (LLM) e permitindo o redteam automático para expor e localizar modos de falha. Nosso código está disponível em: https://github.com/fmmarkmq/SEMA.
O aprendizado por reforço (RL) emergiu como o paradigma predominante para treinar agentes de IA baseados em modelos de linguagem grandes (LLMs). No entanto, os algoritmos de RL fundamentais existentes carecem de garantias de convergência verificadas em cenários agentivos, especialmente em configurações multi-turno, o que pode levar à instabilidade do treinamento e à falha em convergir para políticas ótimas. Neste artigo, analisamos sistematicamente como diferentes combinações de mecanismos de atualização de política e métodos de estimativa de vantagem afetam as propriedades de convergência em cenários de turno único/múltiplo. Descobrimos que REINFORCE com Estimativa de Vantagem Relativa de Grupo (GRAE) pode convergir para o ótimo global em condições não descontadas, mas a combinação de PPO e GRAE quebra a propriedade original de melhoria monotônica do PPO. Além disso, demonstramos que os principais algoritmos de RL fundamentais não podem alcançar simultaneamente a ausência de crítico (critic-free) e garantias de convergência em cenários multi-turno. Para resolver isso, propomos o SeeUPO (Sequence-level Sequential Update Policy Optimization), uma abordagem sem crítico com garantias de convergência para interações multi-turno. O SeeUPO modela a interação multi-turno como problemas de bandido multi-agente executados sequencialmente. Por meio de atualizações de política sequenciais turno a turno na ordem de execução reversa, ele garante melhoria monotônica e convergência para a solução ótima global via indução reversa. Experimentações no AppWorld e BFCL v4 demonstram melhorias substanciais do SeeUPO sobre os algoritmos fundamentais existentes: ganhos relativos de 43,3%-54,6% no Qwen3-14B e 24,1%-41,9% no Qwen2.5-14B (média entre benchmarks), juntamente com estabilidade de treinamento superior.
Os pipelines padrão de treinamento para grandes modelos de linguagem (LLMs) são tipicamente unidirecionais, progredindo do pré-treinamento para o pós-treinamento. No entanto, o potencial de um processo bidirecional – onde insights do pós-treinamento retroativamente melhoram a base pré-treinada – permanece inexplorado. Nosso objetivo é estabelecer um *flywheel* autorreforçador: um ciclo no qual o modelo ajustado por aprendizagem por reforço (RL) fortalece o modelo base, que por sua vez melhora o desempenho subsequente no pós-treinamento, sem exigir um modelo professor ou de referência especialmente treinado. Para concretizar isso, analisamos a dinâmica do treinamento e identificamos a fase de meio do treinamento (*annealing*) como um ponto de virada crítico para as capacidades do modelo. Esta fase ocorre tipicamente no final do pré-treinamento, utilizando corpora de alta qualidade sob uma taxa de aprendizagem em rápida decadência. Com base nessa percepção, introduzimos o ReMiT (*Reinforcement Learning-Guided Mid-Training*). Especificamente, o ReMiT aproveita os *priors* de raciocínio de modelos ajustados por RL para reponderar dinamicamente os *tokens* durante a fase de meio do treinamento, priorizando aqueles fundamentais para o raciocínio. Empiricamente, o ReMiT alcança uma melhoria média de 3% em 10 *benchmarks* de pré-treinamento, abrangendo matemática, código e raciocínio geral, e mantém esses ganhos acima de 2% ao longo do *pipeline* de pós-treinamento. Esses resultados validam um ciclo de *feedback* iterativo, permitindo uma evolução contínua e autorreforçadora dos LLMs.
Os modelos multimodais unificados (UMMs) demonstraram capacidades impressionantes na geração de imagens naturais e no apoio ao raciocínio multimodal. No entanto, o seu potencial para apoiar tarefas de planeamento de uso computacional, que estão intimamente relacionadas com as nossas vidas, permanece pouco explorado. A geração e edição de imagens em tarefas de uso computacional exigem capacidades como o raciocínio espacial e a compreensão procedural, sendo ainda desconhecido se os UMMs possuem essas capacidades para concluir estas tarefas. Por conseguinte, propomos o PlanViz, um novo benchmark concebido para avaliar a geração e edição de imagens para tarefas de uso computacional. Para alcançar o objetivo da nossa avaliação, focamo-nos em subtarefas que frequentemente envolvem a vida quotidiana e exigem etapas de planeamento. Especificamente, são concebidas três novas subtarefas: planeamento de rotas, diagramação de trabalho e exibição web e de interface de utilizador (UI). Abordamos os desafios na garantia da qualidade dos dados através da curadoria de questões anotadas manualmente e imagens de referência, e de um processo de controlo de qualidade. Para os desafios de uma avaliação abrangente e exata, é proposta uma pontuação adaptativa à tarefa, o PlanScore. Esta pontuação ajuda a compreender a correção, a qualidade visual e a eficiência das imagens geradas. Através de experiências, destacamos limitações fundamentais e oportunidades para investigação futura sobre este tema.
A suavidade da arquitetura transformer tem sido amplamente estudada no contexto de generalização, estabilidade do treinamento e robustez adversarial. No entanto, o seu papel na aprendizagem por transferência permanece pouco compreendido. Neste artigo, analisamos a capacidade dos componentes da vision transformer de adaptarem as suas saídas a mudanças nas entradas ou, por outras palavras, a sua plasticidade. Definida como uma taxa média de mudança, esta capta a sensibilidade a perturbações na entrada; em particular, uma alta plasticidade implica baixa suavidade. Demonstramos através de análise teórica e experiências abrangentes que esta perspetiva fornece orientação fundamentada na escolha dos componentes a priorizar durante a adaptação. Uma conclusão chave para os profissionais é que a alta plasticidade dos módulos de atenção e das camadas *feedforward* conduz consistentemente a um melhor desempenho no ajuste fino (*finetuning*). As nossas descobertas afastam-se da pressuposição predominante de que a suavidade é desejável, oferecendo uma nova perspetiva sobre as propriedades funcionais dos *transformers*. O código está disponível em https://github.com/ambroiseodt/vit-plasticity.
Os modelos de linguagem Transformer densos têm seguido amplamente um formato arquitetônico consistente: cada camada consiste em um módulo de atenção seguido por uma rede feed-forward (FFN) com um MLP estreito-largo-estreito, alocando a maioria dos parâmetros ao MLP com taxas de expansão entre 2 e 4. Motivados por resultados recentes que mostram que MLPs residuais largo-estreito-largo (formato ampulheta) oferecem capacidades superiores de aproximação de funções, revisitamos a convenção de formato de MLP de longa data no Transformer, questionando a necessidade do projeto estreito-largo-estreito. Para estudar isso, desenvolvemos uma variante do Transformer que substitui a FFN convencional por uma FFN mais profunda em formato de ampulheta, compreendendo uma pilha de sub-MLPs em ampulheta conectados por caminhos residuais. Postulamos que uma FFN em ampulheta mais profunda, porém mais leve, pode servir como uma alternativa competitiva à FFN convencional, e que os parâmetros economizados ao usar uma FFN em ampulheta mais leve podem ser utilizados de forma mais eficaz, como ampliando as dimensões ocultas do modelo sob orçamentos fixos. Confirmamos isso por meio de validações empíricas em várias escalas de modelo: FFNs em ampulheta superam as FFNs convencionais até 400M e alcançam desempenho comparável em escalas maiores até 1B de parâmetros; variantes de FFN em ampulheta com FFN reduzida e parâmetros de atenção aumentados mostram melhorias consistentes em relação às configurações convencionais com orçamentos equivalentes. Juntos, esses resultados trazem nova luz a trabalhos recentes e incentivam uma repensar da convenção do MLP estreito-largo-estreito e do equilíbrio entre atenção e FFN em direção a modelos de linguagem modernos eficientes e expressivos.
O pré-processamento de imagens de lâmina completa (WSI), tipicamente composto por detecção de tecido seguida de extração de patches, é fundamental para os fluxos de trabalho de patologia computacional orientada por IA. Este processo continua a ser um grande gargalo computacional, pois as ferramentas existentes ou dependem de limiarização heurística imprecisa para detecção de tecido, ou adotam abordagens baseadas em IA treinadas em dados de diversidade limitada que operam ao nível do patch, incorrendo em substancial complexidade computacional. Apresentamos o AtlasPatch, uma estrutura de pré-processamento de lâminas eficiente e escalável para detecção precisa de tecido e extração de patches de alto rendimento com sobrecarga computacional mínima. O módulo de detecção de tecido do AtlasPatch é treinado num conjunto de dados heterogéneo e semimanualmente anotado de ~30.000 miniaturas de WSI, utilizando *fine-tuning* eficiente do modelo Segment Anything. A ferramenta extrapola as máscaras de tecido das miniaturas para lâminas em resolução completa para extrair coordenadas de patches em ampliações especificadas pelo utilizador, com opções para transmitir os patches diretamente para codificadores de imagem comuns para *embedding* ou armazenar as imagens dos patches, tudo eficientemente paralelizado através de CPUs e GPUs. Avaliamos o AtlasPatch em termos de precisão de segmentação, complexidade computacional e aprendizagem de múltiplas instâncias (*multiple-instance learning*) subsequente, equiparando o desempenho de última geração enquanto opera a uma fração do seu custo computacional. O AtlasPatch é de código aberto e está disponível em https://github.com/AtlasAnalyticsLab/AtlasPatch.
Os Grandes Modelos de Linguagem demonstraram capacidades notáveis em diálogos de domínio aberto. No entanto, os métodos atuais apresentam desempenho abaixo do ideal em diálogos de serviço, uma vez que dependem de dados de conversação humana ruidosos e de baixa qualidade. Esta limitação surge da escassez de dados e da dificuldade em simular comportamentos autênticos e orientados a objetivos do utilizador. Para resolver estas questões, propomos o SEAD (Agente de Auto-Evolução para Diálogo de Serviço), uma estrutura que permite aos agentes aprender estratégias eficazes sem anotações humanas em larga escala. O SEAD desacopla a modelagem do utilizador em dois componentes: um Controlador de Perfil que gera estados de utilizador diversos para gerir o currículo de treino, e um Modelo de Simulação de Papel do Utilizador que se foca na representação realista de papéis. Este projeto garante que o ambiente fornece cenários de treino adaptativos em vez de atuar como um adversário injusto. Experiências demonstram que o SEAD supera significativamente os Modelos de Base de Código Aberto e os Modelos Comerciais de Código Fechado, melhorando a taxa de conclusão de tarefas em 17,6% e a eficiência do diálogo em 11,1%. O código está disponível em: https://github.com/Da1yuqin/SEAD.
Apesar dos sucessos recentes, o escalonamento durante o teste - ou seja, expandir dinamicamente o orçamento de tokens durante a inferência conforme necessário - permanece frágil para modelos de visão e linguagem (VLMs): cadeias de pensamento não estruturadas sobre imagens emaranham a percepção e o raciocínio, levando a contextos longos e desorganizados onde pequenos erros perceptuais podem se propagar em cascata para respostas completamente erradas. Além disso, é necessário um caro aprendizado por reforço com recompensas manuais para alcançar um bom desempenho. Aqui, introduzimos o SPARC (Separating Perception And Reasoning Circuits), uma estrutura modular que desacopla explicitamente a percepção visual do raciocínio. Inspirado pelo processamento sequencial sensório-cognitivo no cérebro, o SPARC implementa um pipeline de dois estágios no qual o modelo primeiro realiza uma busca visual explícita para localizar regiões relevantes para a pergunta e, em seguida, condiciona seu raciocínio nessas regiões para produzir a resposta final. Essa separação permite um escalonamento independente durante o teste com alocação assimétrica de computação (por exemplo, priorizando o processamento perceptual sob mudança de distribuição), suporta otimização seletiva (por exemplo, melhorando apenas o estágio perceptual quando este é o gargalo para o desempenho end-to-end) e acomoda contextos comprimidos ao executar a busca global em resoluções de imagem mais baixas e alocar processamento de alta resolução apenas para regiões selecionadas, reduzindo assim a contagem total de tokens visuais e a computação. Em benchmarks desafiadores de raciocínio visual, o SPARC supera as linhas de base monolíticas e as abordagens robustas de ancoragem visual. Por exemplo, o SPARC melhora a precisão do Qwen3VL-4B no benchmark VQA V^* em 6,7 pontos percentuais e supera o "pensar com imagens" em 4,6 pontos em uma tarefa desafiadora de OOD (Fora da Distribuição), apesar de exigir um orçamento de tokens 200 vezes menor.
As abordagens existentes para analisar ativações de redes neurais, como PCA e autoencoders esparsos, dependem de fortes pressupostos estruturais. Os modelos generativos oferecem uma alternativa: podem revelar estrutura sem tais pressupostos e atuar como priores que melhoram a fidelidade de intervenções. Exploramos esta direção treinando modelos de difusão em um bilhão de ativações do fluxo residual, criando "metamodelos" que aprendem a distribuição dos estados internos de uma rede. Descobrimos que a perda por difusão diminui suavemente com o poder computacional e prevê de forma confiável a utilidade downstream. Em particular, aplicar o prior aprendido pelo metamodelo a intervenções de direcionamento melhora a fluência, com ganhos maiores à medida que a perda diminui. Além disso, os neurônios do metamodelo isolam progressivamente conceitos em unidades individuais, com escores de sondagem esparsa que escalam conforme a perda diminui. Estes resultados sugerem que metamodelos generativos oferecem um caminho escalável para interpretabilidade sem pressupostos estruturais restritivos. Página do projeto: https://generative-latent-prior.github.io.
Os agentes atuais de Busca de Informação (InfoSeeking) lutam para manter o foco e a coerência durante a exploração de longo horizonte, uma vez que o rastreamento dos estados de busca – incluindo o procedimento de planeamento e os resultados massivos da pesquisa – dentro de um único contexto de texto simples é inerentemente frágil. Para resolver isso, introduzimos o Table-as-Search (TaS), uma estrutura de planeamento estruturado que reformula a tarefa de InfoSeeking como uma tarefa de Preenchimento de Tabela. O TaS mapeia cada consulta num esquema de tabela estruturado mantido numa base de dados externa, onde as linhas representam candidatos de busca e as colunas denotam restrições ou informações necessárias. Esta tabela gere precisamente os estados de busca: as células preenchidas registam rigorosamente o histórico e os resultados da pesquisa, enquanto as células vazias funcionam como um plano de busca explícito. Crucialmente, o TaS unifica três tarefas distintas de InfoSeeking: Busca Profunda (Deep Search), Busca Ampla (Wide Search) e a desafiadora Busca Profunda e Ampla (DeepWide Search). Experiências extensivas demonstram que o TaS supera significativamente inúmeras baselines state-of-the-art em três tipos de benchmarks, incluindo estruturas multiagente e sistemas comerciais. Além disso, a nossa análise valida a robustez superior do TaS em InfoSeeking de longo horizonte, juntamente com a sua eficiência, escalabilidade e flexibilidade. O código e os conjuntos de dados estão publicamente disponíveis em https://github.com/AIDC-AI/Marco-Search-Agent.
A segmentação baseada em linguagem tem sido um tópico popular na visão computacional. Embora os avanços recentes em modelos de linguagem grandes multimodais (MLLMs) tenham dotado os sistemas de segmentação com capacidades de raciocínio, esses esforços permanecem confinados pelo conhecimento interno congelado dos MLLMs, o que limita seu potencial para cenários do mundo real que envolvem informações atualizadas ou conceitos específicos de domínio. Neste trabalho, propomos o Seg-ReSearch, um novo paradigma de segmentação que supera o gargalo de conhecimento das abordagens existentes. Ao permitir raciocínio intercalado e busca externa, o Seg-ReSearch capacita os sistemas de segmentação para lidar com consultas dinâmicas e de mundo aberto que se estendem além do conhecimento congelado dos MLLMs. Para treinar eficazmente essa capacidade, introduzimos um design de recompensa hierárquica que harmoniza orientação inicial com incentivos progressivos, mitigando o dilema entre sinais esparsos de resultado e supervisão rígida passo a passo. Para avaliação, construímos o OK-VOS, um benchmark desafiador que exige explicitamente conhecimento externo para segmentação de objetos em vídeo. Experimentos no OK-VOS e em dois benchmarks existentes de segmentação por raciocínio demonstram que nosso Seg-ReSearch melhora as abordagens state-of-the-art por uma margem substancial. Código e dados serão disponibilizados em https://github.com/iSEE-Laboratory/Seg-ReSearch.
A destilação de conhecimento emergiu como uma técnica fundamental para transferir conhecimento de modelos de linguagem grandes (LLMs) mais robustos para modelos menores e mais eficientes. No entanto, as abordagens tradicionais de destilação enfrentam desafios relacionados a conflitos de conhecimento e altas demandas de recursos, especialmente quando se utilizam múltiplos modelos professores. Neste artigo, introduzimos o conceito de Purificação de Conhecimento, que consolida as racionalidades de múltiplos LLMs professores em uma única racionalidade, mitigando assim conflitos e aumentando a eficiência. Para investigar a eficácia da purificação de conhecimento, propomos ainda cinco métodos de purificação a partir de várias perspectivas. Nossos experimentos demonstram que esses métodos não apenas melhoram o desempenho do modelo destilado, mas também aliviam efetivamente os conflitos de conhecimento. Além disso, os métodos baseados em roteadores exibem capacidades de generalização robustas, ressaltando o potencial de técnicas inovadoras de purificação na otimização da destilação multi-professor e na facilitação da implantação prática de modelos poderosos e leves.
A verdadeira auto-evolução exige que os agentes atuem como aprendizes ao longo da vida que internalizam experiências novas para resolver problemas futuros. No entanto, a medição rigorosa dessa capacidade fundamental é dificultada por dois obstáculos: o entrelaçamento do conhecimento prévio, onde um conhecimento "novo" pode aparecer nos dados de pré-treinamento, e o entrelaçamento da complexidade do raciocínio, onde as falhas podem decorrer da dificuldade do problema, e não de uma incapacidade de recordar o conhecimento aprendido. Apresentamos o SE-Bench, um ambiente de diagnóstico que ofusca a biblioteca NumPy e sua documentação de API num pacote pseudo-novo com identificadores randomizados. Os agentes são treinados para internalizar este pacote e avaliados em tarefas simples de codificação sem acesso à documentação, resultando num cenário limpo onde as tarefas são triviais com a nova documentação da API, mas impossíveis para os modelos base sem ela. A nossa investigação revela três conclusões: (1) o Paradoxo do Livro Aberto, onde o treino com documentação de referência inibe a retenção, exigindo "Treino de Livro Fechado" para forçar a compressão do conhecimento nos pesos; (2) o Hiato do RL (Aprendizagem por Reforço), onde o RL padrão falha em internalizar completamente o novo conhecimento devido ao *clipping* do PPO e a gradientes negativos; e (3) a viabilidade do *Self-Play* para internalização, provando que os modelos podem aprender a partir de tarefas ruidosas auto-geradas quando combinadas com SFT (*Supervised Fine-Tuning*), mas não com RL. No geral, o SE-Bench estabelece uma plataforma de diagnóstico rigorosa para a auto-evolução com internalização de conhecimento. O nosso código e conjunto de dados podem ser encontrados em https://github.com/thunlp/SE-Bench.
Camadas diferenciáveis de correspondência e paradigmas de conexão residual, frequentemente implementados via Transporte Ótimo (TO) com regularização de entropia, servem como mecanismos críticos em previsão estrutural e escalonamento arquitetural. No entanto, a recuperação de permutações discretas ou a manutenção de mapeamentos de identidade através do resfriamento de ε para 0 é notoriamente instável. Neste trabalho, identificamos um mecanismo fundamental para essa falha: o Colapso Prematuro de Modos. Ao analisar a dinâmica não normal do mapa de ponto fixo de Sinkhorn, revelamos um limite teórico de velocidade termodinâmica: o resfriamento exponencial padrão supera a taxa de contração do operador de inferência, que se degrada como O(1/ε). Para enfrentar isso, propomos o Controle Adaptativo de Estabilidade Híbrido por Partes Eficiente (EPH-ASC), um algoritmo de escalonamento adaptativo que monitora a estabilidade do processo de inferência. Demonstramos que o EPH-ASC é essencial para estabilizar Conexões Hiper-Restritas a Varietyades (mHC) durante o treinamento em larga escala no conjunto de dados FineWeb-Edu, prevenindo efetivamente explosões de gradiente em estágios avançados através da imposição de uma lei de estabilidade linear.
Os riscos climáticos perturbam cada vez mais as operações de transporte urbano e de resposta a emergências, danificando o parque habitacional, degradando a infraestrutura e reduzindo a acessibilidade da rede. Este artigo apresenta o Skjold-DiT, uma arquitetura baseada em transformadores e difusão que integra dados urbanos espaço-temporais heterogéneos para prever indicadores de risco climático a nível de edificação, incorporando explicitamente a estrutura da rede de transporte e sinais de acessibilidade relevantes para veículos inteligentes (por exemplo, alcance de emergência e restrições de rotas de evacuação). Concretamente, o Skjold-DiT permite restrições de roteamento condicionadas por perigos através da produção de camadas de acessibilidade calibradas e conscientes da incerteza (alcance, inflação do tempo de viagem e redundância de rotas) que podem ser utilizadas por sistemas de roteamento de veículos inteligentes e despacho de emergência. O Skjold-DiT combina: (1) Fjell-Prompt, uma interface de condicionamento baseada em *prompts* concebida para suportar transferência entre cidades; (2) Norrland-Fusion, um mecanismo de atenção cross-modal que unifica mapas/imagens de perigos, atributos de edificação, dados demográficos e infraestrutura de transporte numa representação latente partilhada; e (3) Valkyrie-Forecast, um simulador contrafactual para gerar trajetórias de risco probabilísticas sob *prompts* de intervenção. Apresentamos o conjunto de dados Baltic-Caspian Urban Resilience (BCUR) com 847.392 observações a nível de edificação em seis cidades, incluindo anotações de múltiplos perigos (por exemplo, indicadores de inundação e calor) e características de acessibilidade de transporte. Os experimentos avaliam a qualidade da previsão, a generalização entre cidades, a calibração e os resultados relevantes para o transporte a jusante, incluindo alcance e tempos de viagem condicionados por perigos sob intervenções contrafactuais.
A quantização pós-treinamento reduz o custo computacional de modelos de linguagem grandes, mas altera fundamentalmente os seus vieses sociais de maneiras que as métricas agregadas não conseguem capturar. Apresentamos o primeiro estudo em larga escala de 50 modelos quantizados avaliados no PostTrainingBiasBench, um benchmark unificado de 13 conjuntos de dados de viés de tarefas abertas e fechadas. Identificamos um fenómeno que denominamos de inversão do viés mascarada induzida por quantização, no qual até 21% das respostas alternam entre estados tendenciosos e não tendenciosos após a quantização, apesar de não mostrarem alteração nas pontuações agregadas de viés. Estas inversões são fortemente impulsionadas pela incerteza do modelo, sendo as respostas com alta incerteza 3 a 11 vezes mais propensas a mudar do que as respostas confiantes. A intensidade da quantização amplifica este efeito, com modelos quantizados em 4 bits exibindo 4 a 6 vezes mais mudanças comportamentais do que modelos quantizados em 8 bits. Criticalmente, estas mudanças criam impactos assimétricos entre grupos demográficos, onde o viés pode piorar até 18,6% para alguns grupos enquanto melhora até 14,1% para outros, produzindo resultados agregados enganadoramente neutros. Modelos maiores não mostram uma vantagem de robustez consistente, e as mudanças específicas por grupo variam de forma imprevisível entre famílias de modelos. As nossas descobertas demonstram que a compressão altera fundamentalmente os padrões de viés, exigindo uma avaliação e intervenções cruciais pós-quantização para garantir a fiabilidade na prática.