Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos de linguagem de grande porte para código recentes alcançaram progressos notáveis em tarefas gerais de programação. No entanto, seu desempenho degrada-se significativamente em cenários industriais que exigem raciocínio sobre semântica de hardware, construções de linguagem especializadas e restrições rigorosas de recursos. Para enfrentar esses desafios, apresentamos o InCoder-32B (Industrial-Coder-32B), o primeiro modelo de base para código com 32 bilhões de parâmetros que unifica a inteligência de código através do design de chips, otimização de kernels GPU, sistemas embarcados, otimização de compiladores e modelagem 3D. Ao adotar uma arquitetura eficiente, treinamos o InCoder-32B a partir do zero com pré-treinamento geral em código, recozimento com código industrial selecionado, treinamento intermediário que estende progressivamente o contexto de 8K para 128K tokens com dados sintéticos de raciocínio industrial, e pós-treinamento com verificação fundamentada na execução. Realizamos uma avaliação extensiva em 14 benchmarks gerais de código principais e 9 benchmarks industriais abrangendo 4 domínios especializados. Os resultados mostram que o InCoder-32B alcança um desempenho altamente competitivo em tarefas gerais, estabelecendo ao mesmo tempo fortes linhas de base de código aberto em diversos domínios industriais.
Apresentamos o MiroThinker-1.7, um novo agente de pesquisa projetado para tarefas complexas de raciocínio de longo horizonte. Com base nessa fundação, introduzimos ainda o MiroThinker-H1, que estende o agente com capacidades de raciocínio robustas para uma resolução de problemas em múltiplas etapas mais confiável. Especificamente, o MiroThinker-1.7 melhora a confiabilidade de cada etapa de interação por meio de uma fase de mid-training agentiva que enfatiza o planejamento estruturado, o raciocínio contextual e a interação com ferramentas. Isso permite uma interação multi-etapa mais eficaz e um raciocínio sustentado em tarefas complexas. O MiroThinker-H1 incorpora ainda a verificação diretamente no processo de raciocínio, tanto em níveis locais quanto globais. Decisões de raciocínio intermediárias podem ser avaliadas e refinadas durante a inferência, enquanto a trajetória geral de raciocínio é auditada para garantir que as respostas finais sejam respaldadas por cadeias coerentes de evidências. Em benchmarks que abrangem pesquisa na web aberta, raciocínio científico e análise financeira, o MiroThinker-H1 alcança desempenho state-of-the-art em tarefas de pesquisa aprofundada, mantendo ao mesmo tempo resultados sólidos em domínios especializados. Também disponibilizamos o MiroThinker-1.7 e o MiroThinker-1.7-mini como modelos de código aberto, oferecendo capacidades competitivas de agente de pesquisa com eficiência significativamente melhorada.
Apresentamos o Qianfan-OCR, um modelo de visão e linguagem de 4 bilhões de parâmetros de ponta a ponta que unifica a análise de documentos, a análise de layout e a compreensão de documentos em uma única arquitetura. Ele realiza conversão direta de imagem para Markdown e suporta diversas tarefas orientadas por instruções, incluindo extração de tabelas, compreensão de gráficos, Q&A de documentos e extração de informações-chave. Para resolver a perda da análise de layout explícita no OCR de ponta a ponta, propomos o Layout-as-Thought, uma fase de pensamento opcional acionada por *tokens* especiais de "pensar" que gera representações de layout estruturado — caixas delimitadoras, tipos de elemento e ordem de leitura — antes de produzir as saídas finais, recuperando capacidades de fundamentação de layout enquanto melhora a precisão em layouts complexos. O Qianfan-OCR ocupa a primeira posição entre os modelos de ponta a ponta no OmniDocBench v1.5 (93.12) e no OlmOCR Bench (79.8), alcança resultados competitivos no OCRBench, CCOCR, DocVQA e ChartQA em comparação com VLMs gerais de escala comparável, e atinge a pontuação média mais alta em benchmarks públicos de extração de informações-chave, superando o Gemini-3.1-Pro, Seed-2.0 e Qwen3-VL-235B. O modelo está publicamente acessível através da plataforma Qianfan do Baidu AI Cloud.
Avanços recentes na geração de vídeo revelaram um fenômeno inesperado: modelos de vídeo baseados em difusão exibem capacidades de raciocínio não triviais. Trabalhos anteriores atribuem isso a um mecanismo de Cadeia de Frames (CoF), onde assume-se que o raciocínio se desenrola sequencialmente através dos frames do vídeo. Neste trabalho, desafiamos essa suposição e descobrimos um mecanismo fundamentalmente diferente. Mostramos que o raciocínio em modelos de vídeo emerge principalmente ao longo das etapas de desruído da difusão. Através de análise qualitativa e experimentos de sondagem direcionados, descobrimos que os modelos exploram múltiplas soluções candidatas nas primeiras etapas de desruído e convergem progressivamente para uma resposta final, um processo que denominamos Cadeia de Etapas (CoS). Além deste mecanismo central, identificamos vários comportamentos de raciocínio emergentes críticos para o desempenho do modelo: (1) memória de trabalho, permitindo referência persistente; (2) autocorreção e aprimoramento, permitindo a recuperação de soluções intermediárias incorretas; e (3) percepção antes da ação, onde as etapas iniciais estabelecem uma base semântica e as etapas posteriores realizam manipulação estruturada. Durante uma etapa de difusão, descobrimos ainda uma especialização funcional auto-evoluída dentro dos Transformadores de Difusão, onde as camadas iniciais codificam estrutura perceptual densa, as camadas intermediárias executam o raciocínio e as camadas posteriores consolidam as representações latentes. Motivados por essas percepções, apresentamos uma estratégia simples sem necessidade de treinamento como prova de conceito, demonstrando como o raciocínio pode ser melhorado através do *ensembling* de trajetórias latentes de modelos idênticos com diferentes sementes aleatórias. No geral, nosso trabalho fornece uma compreensão sistemática de como o raciocínio emerge em modelos de geração de vídeo, oferecendo uma base para orientar pesquisas futuras na melhor exploração da dinâmica de raciocínio inerente dos modelos de vídeo como um novo substrato para a inteligência.
Os recentes avanços nos modelos multimodais de raciocínio de grande escala (MLRMs) melhoraram significativamente o desempenho na tarefa de resposta a perguntas visuais. No entanto, observamos que palavras de transição (por exemplo, porque, contudo e espere) estão intimamente associadas a alucinações e tendem a exibir estados de alta entropia. Argumentamos que informações adequadas de raciocínio contextual podem ser extraídas diretamente da distribuição de probabilidade dos tokens. Inspirados pela teoria da representação superposta, propomos aproveitar o raciocínio latente superposto para integrar múltiplas semânticas candidatas e manter trajetórias de raciocínio latentes. A hipótese é que a dependência de entradas textuais discretas pode conduzir o modelo para um raciocínio explícito sequencial, subutilizando pistas contextuais densas durante fases de raciocínio de alta entropia. Portanto, propomos a construção de representações semânticas ricas a partir das distribuições de probabilidade dos tokens para melhorar o raciocínio em contexto. Com este objetivo, apresentamos a Decodificação Sensível à Entropia Latente (LEAD), uma estratégia de decodificação eficiente do tipo "ligar e usar" que aproveita o contexto semântico para alcançar um raciocínio confiável. O cerne do nosso método reside na comutação do modo de raciocínio sensível à entropia. O modelo emprega embeddings contínuos ponderados por probabilidade sob estados de alta entropia e transita de volta para embeddings de tokens discretos à medida que a entropia diminui. Além disso, propomos uma estratégia de injeção de âncoras visuais guiada por prioridades que incentiva o modelo a focar-se na informação visual. Experimentos extensivos mostram que a LEAD mitiga eficazmente as alucinações em vários MLRMs em múltiplos benchmarks.
A simulação de interações robô-mundo é um pilar fundamental da Inteligência Artificial Corporificada (Embodied AI). Recentemente, alguns trabalhos mostraram potencial ao utilizar gerações de vídeo para transcender as rígidas restrições visuais/físicas dos simuladores tradicionais. No entanto, eles operam principalmente no espaço 2D ou são guiados por pistas ambientais estáticas, ignorando a realidade fundamental de que as interações robô-mundo são inerentemente eventos espaço-temporais 4D que exigem modelagem interativa precisa. Para restaurar essa essência 4D enquanto garante o controle preciso do robô, nós introduzimos o Kinema4D, um novo simulador robótico generativo 4D condicionado por ações que desacopla a interação robô-mundo em: i) Representação 4D precisa dos controles do robô: conduzimos um robô 3D baseado em URDF via cinemática, produzindo uma trajetória de controle robótico 4D precisa. ii) Modelagem generativa 4D das reações ambientais: projetamos a trajetória 4D do robô em um mapa de pontos como um sinal visual espaço-temporal, controlando o modelo generativo para sintetizar a dinâmica reativa de ambientes complexos em sequências sincronizadas de RGB/mapa de pontos. Para facilitar o treinamento, criamos um conjunto de dados em larga escala chamado Robo4D-200k, compreendendo 201.426 episódios de interação robótica com anotações 4D de alta qualidade. Experimentos extensivos demonstram que nosso método simula efetivamente interações fisicamente plausíveis, geometricamente consistentes e independentes da corporificação (embodiment-agnostic) que refletem fielmente diversas dinâmicas do mundo real. Pela primeira vez, ele mostra potencial de capacidade de transferência zero-shot, fornecendo uma base de alta fidelidade para o avanço da próxima geração de simulação corporificada.
Os recentes avanços em transformadores de difusão de vídeo permitiram a criação de modelos de mundo de jogos interativos que possibilitam aos usuários explorar ambientes gerados em horizontes temporais prolongados. No entanto, as abordagens existentes lutam com o controle preciso de ações e a consistência 3D de longo prazo. A maioria dos trabalhos anteriores trata as ações do usuário como sinais de condicionamento abstratos, negligenciando o acoplamento geométrico fundamental entre as ações e o mundo 3D, pelo qual as ações induzem movimentos relativos da câmera que se acumulam numa pose global da câmera dentro de um mundo 3D. Neste artigo, estabelecemos a pose da câmera como uma representação geométrica unificadora para fundamentar conjuntamente o controle de ação imediato e a consistência 3D de longo prazo. Primeiro, definimos um espaço de ação contínuo baseado na física e representamos as entradas do usuário na álgebra de Lie para derivar poses de câmera 6-DoF precisas, que são injetadas no modelo generativo via um incorporador de câmera para garantir um alinhamento preciso da ação. Segundo, usamos poses de câmera globais como índices espaciais para recuperar observações passadas relevantes, permitindo a revisitação geometricamente consistente de locais durante a navegação de longo prazo. Para apoiar esta pesquisa, introduzimos um conjunto de dados em larga escala composto por 3.000 minutos de jogabilidade humana autêntica, anotada com trajetórias de câmera e descrições textuais. Experimentos extensivos mostram que nossa abordagem supera substancialmente os modelos de mundo de jogos interativos state-of-the-art em controlabilidade de ações, qualidade visual de longo prazo e consistência espacial 3D.
A análise Text-to-SQL alcançou progressos notáveis sob a Premissa de Esquema Completo. No entanto, essa premissa falha em ambientes empresariais reais, onde as bases de dados contêm centenas de tabelas com metadados massivos e ruidosos. Em vez de injetar o esquema completo antecipadamente, um agente deve identificar e verificar ativamente apenas o subconjunto relevante, dando origem ao cenário de Esquema Desconhecido que estudamos neste trabalho. Para resolver isso, propomos o TRUST-SQL (Raciocínio Verídico com Esquema Desconhecido via Ferramentas). Formulamos a tarefa como um Processo de Decisão Markoviano Parcialmente Observável, onde nosso agente autónomo emprega um protocolo estruturado de quatro fases para fundamentar o raciocínio em metadados verificados. Crucialmente, este protocolo fornece um limite estrutural para a nossa nova estratégia GRPO de Dupla Via. Ao aplicar vantagens mascaradas a nível de token, esta estratégia isola as recompensas de exploração dos resultados de execução para resolver a atribuição de crédito, resultando numa melhoria relativa de 9,9% em relação ao GRPO padrão. Experiências extensas em cinco benchmarks demonstram que o TRUST-SQL alcança uma melhoria absoluta média de 30,6% e 16,6% para as variantes de 4B e 8B, respetivamente, em relação aos seus modelos base. Notavelmente, apesar de operar totalmente sem metadados pré-carregados, a nossa estrutura consistentemente iguala ou supera linhas de base fortes que dependem do pré-preenchimento de esquemas.
O paradigma predominante para melhorar modelos de linguagem grandes baseia-se no treinamento offline com anotações humanas ou ambientes simulados, deixando totalmente inexplorada a rica experiência acumulada durante a implantação no mundo real. Propomos a Aprendizagem Experiencial Online (OEL), uma estrutura que permite que os modelos de linguagem melhorem continuamente a partir de sua própria experiência de implantação. A OEL opera em duas etapas: primeiro, o conhecimento experiencial transferível é extraído e acumulado a partir de trajetórias de interação coletadas no lado do usuário; segundo, esse conhecimento é consolidado nos parâmetros do modelo por meio de destilação contextual on-policy, sem exigir acesso ao ambiente do lado do usuário. As duas etapas são iteradas para formar um ciclo de aprendizagem online, onde o modelo aprimorado coleta trajetórias de maior qualidade que produzem conhecimento experiencial mais rico para rodadas subsequentes. Avaliamos a OEL em ambientes de jogos baseados em texto em várias escalas de modelo e variantes com e sem raciocínio. A OEL alcança melhorias consistentes ao longo de iterações sucessivas, aumentando a precisão da tarefa e a eficiência de tokens, preservando ao mesmo tempo o desempenho fora da distribuição. Nossa análise mostra ainda que o conhecimento experiencial extraído é significativamente mais eficaz do que as trajetórias brutas e que a consistência on-policy entre a fonte de conhecimento e o modelo de política é crítica para uma aprendizagem eficaz.
A integração de Modelos de Linguagem de Grande Porte (LLMs) no domínio financeiro está impulsionando uma mudança de paradigma, da recuperação passiva de informação para uma interação dinâmica e agentiva. Embora a aprendizagem de ferramentas de propósito geral tenha testemunhado um aumento no desenvolvimento de benchmarks, o setor financeiro, caracterizado por altos riscos, conformidade rigorosa e volatilidade rápida dos dados, permanece criticamente subatendido. As avaliações financeiras existentes focam-se predominantemente na análise textual estática ou em QA baseado em documentos, ignorando a complexa realidade da execução de ferramentas. Por outro lado, os benchmarks gerais de ferramentas carecem do rigor específico de domínio necessário para as finanças, frequentemente baseando-se em ambientes simplificados ou num número negligenciável de APIs financeiras. Para colmatar esta lacuna, introduzimos o FinToolBench, o primeiro benchmark executável do mundo real dedicado a avaliar agentes de aprendizagem de ferramentas financeiras. Ao contrário de trabalhos anteriores limitados a um punhado de ferramentas simuladas, o FinToolBench estabelece um ecossistema realista que acopla 760 ferramentas financeiras executáveis com 295 consultas rigorosas que exigem o uso de ferramentas. Propomos um novo quadro de avaliação que vai além do sucesso binário de execução, avaliando os agentes em dimensões críticas para as finanças: pontualidade, tipo de intenção e alinhamento com o domínio regulamentar. Adicionalmente, apresentamos o FATR, uma linha de base para recuperação e raciocínio de ferramentas com consciência financeira que melhora a estabilidade e a conformidade. Ao fornecer o primeiro banco de testes para execução financeira agentiva e auditável, o FinToolBench estabelece um novo padrão para a IA confiável nas finanças. O manifesto das ferramentas, o ambiente de execução e o código de avaliação serão disponibilizados como código aberto para facilitar pesquisas futuras.
Os modelos de linguagem grandes omni-modais (OLMs) redefinem a interação homem-máquina ao integrar nativamente áudio, visão e texto. No entanto, os benchmarks existentes para OLMs permanecem ancorados em tarefas estáticas e centradas em precisão, deixando uma lacuna crítica na avaliação da interatividade social – a capacidade fundamental de navegar por pistas dinâmicas em diálogos naturais. Para isso, propomos o SocialOmni, um benchmark abrangente que operacionaliza a avaliação dessa interatividade conversacional em três dimensões principais: (i) separação e identificação de falantes (quem está falando), (ii) controle do momento de interrupção (quando interromper) e (iii) geração de interrupções naturais (como formular a interrupção). O SocialOmni apresenta 2.000 amostras de percepção e um conjunto diagnóstico de qualidade controlada com 209 instâncias de geração de interação com restrições temporais e contextuais rigorosas, complementado por cenários controlados de inconsistência áudio-visual para testar a robustez dos modelos. Avaliamos 12 OLMs líderes, o que revelou uma variação significativa em suas capacidades de interação social entre os modelos. Além disso, nossa análise revela um desacoplamento pronunciado entre a precisão perceptual de um modelo e sua capacidade de gerar interrupções contextualmente apropriadas, indicando que métricas centradas apenas na compreensão são insuficientes para caracterizar a competência social conversacional. De forma mais encorajadora, esses diagnósticos do SocialOmni produzem sinais acionáveis para preencher a divisão entre percepção e interação em futuros OLMs.
Embora os modelos recentes de Flow Matching evitem os gargalos de reconstrução dos autoencoders latentes ao operar diretamente no espaço de pixels, a falta de continuidade semântica no manifold de pixels entrelaça severamente os caminhos de transporte ótimo. Isso induz graves conflitos de trajetória perto de interseções, resultando em soluções subótimas. Em vez de contornar esse problema por meio de representações latentes com perda de informação, nós desembaraçamos diretamente as trajetórias no espaço de pixels propondo os Waypoint Diffusion Transformers (WiT). O WiT fatoriza o campo vetorial contínuo por meio de waypoints semânticos intermediários projetados a partir de modelos de visão pré-treinados. Ele desembaraça efetivamente as trajetórias de geração ao dividir o transporte ótimo em segmentos prior-para-waypoint e waypoint-para-pixel. Especificamente, durante o processo iterativo de remoção de ruído, um gerador leve infere dinamicamente esses waypoints intermediários a partir do estado ruidoso atual. Eles então condicionam continuamente o transformer de difusão principal por meio do mecanismo Just-Pixel AdaLN, direcionando a evolução para o próximo estado e, por fim, produzindo os pixels RGB finais. Avaliado no ImageNet 256x256, o WiT supera fortes baselines do espaço de pixels, acelerando a convergência do treinamento JiT em 2,2x. O código será disponibilizado publicamente em https://github.com/hainuo-wang/WiT.git.
Os Modelos Multimodais Unificados (UMMs) são frequentemente limitados pelo pré-treinamento dos seus componentes de geração visual, que normalmente depende de paradigmas ineficientes e de dados escassos e de alta qualidade de pares texto-imagem. Neste artigo, analisamos sistematicamente as abordagens de pré-treinamento para a geração visual em UMMs e identificamos estes dois problemas como os principais estrangulamentos. Para resolvê-los, propomos o Treinamento Exclusivo com Imagens para UMMs (IOMM), uma estrutura de treinamento em duas fases eficiente no uso de dados. A primeira fase pré-treina o componente gerativo visual exclusivamente com dados abundantes e não rotulados de apenas imagens, eliminando assim a dependência de dados pareados nesta fase custosa. A segunda fase ajusta o modelo usando uma mistura de imagens não rotuladas e um pequeno conjunto curado de pares texto-imagem, resultando em um melhor alinhamento instrucional e qualidade gerativa. Extensos experimentos mostram que o IOMM não apenas melhora a eficiência do treinamento, mas também atinge um desempenho de última geração (state-of-the-art, SOTA). Por exemplo, nosso modelo IOMM-B (3.6B) foi treinado do zero usando apenas aproximadamente 1050 horas de GPU H800 (sendo a vasta maioria, 1000 horas, dedicada à eficiente fase de pré-treinamento apenas com imagens). Ele alcança 0.89 no GenEval e 0.55 no WISE—superando bases fortes como BAGEL-7B (0.82 & 0.55) e BLIP3-o-4B (0.84 & 0.50). O código está disponível em https://github.com/LINs-lab/IOMM.
Muitas aplicações de modelos de linguagem de grande porte exigem o condicionamento em contextos longos. Os Transformers normalmente suportam isso armazenando um grande cache KV por camada de ativações passadas, o que incorre em uma sobrecarga substancial de memória. Uma alternativa desejável é a memória compressiva: ler um contexto uma vez, armazená-lo em um estado compacto e responder a muitas consultas a partir desse estado. Estudamos isso em um cenário de remoção de contexto, onde o modelo deve gerar uma resposta sem acesso ao contexto original no momento da inferência. Apresentamos o GradMem, que grava o contexto na memória por meio de uma otimização por amostra em tempo de teste. Dado um contexto, o GradMem executa algumas etapas de descida de gradiente em um pequeno conjunto de tokens de memória de prefixo, mantendo os pesos do modelo congelados. O GradMem otimiza explicitamente uma perda de reconstrução de contexto auto supervisionada a nível de modelo, resultando em uma operação de gravação orientada por perda com correção iterativa de erros, diferentemente dos métodos de apenas propagação direta (forward-only). Na recuperação associativa de chave-valor, o GradMem supera escritores de memória de apenas propagação direta com o mesmo tamanho de memória, e etapas adicionais de gradiente escalam a capacidade de forma muito mais eficaz do que gravações diretas repetidas. Mostramos ainda que o GradMem se transfere para além de benchmarks sintéticos: com modelos de linguagem pré-treinados, ele obtém resultados competitivos em tarefas de linguagem natural, incluindo variantes do bAbI e do SQuAD, dependendo apenas das informações codificadas na memória.
As avaliações de jogos com LLMs multi-turn e multiagente frequentemente exibem uma variação substancial entre execuções. Em interações de longo horizonte, pequenos desvios iniciais se acumulam ao longo das turnos e são amplificados pelo acoplamento multiagente. Isso tendencia as estimativas de taxa de vitória e torna as classificações pouco confiáveis em torneios repetidos. A escolha do prompt agrava ainda mais este problema ao produzir políticas efetivas diferentes. Abordamos tanto a instabilidade quanto o baixo desempenho com o MEMO (MOdel context optimization aumentado por Memória), uma estrutura de auto-jogo que otimiza o contexto no momento da inferência ao acoplar retenção e exploração. A retenção mantém um banco de memória persistente que armazena *insights* estruturados das trajetórias de auto-jogo e os injeta como *priors* durante jogos posteriores. A exploração executa uma evolução de prompts no estilo torneio com seleção consciente da incerteza via TrueSkill, e usa *replay* priorizado para revisitar estados raros e decisivos. Em cinco jogos baseados em texto, o MEMO aumenta a taxa média de vitória de 25.1% para 49.5% para o GPT-4o-mini e de 20.9% para 44.3% para o Qwen-2.5-7B-Instruct, usando 2.000 jogos de auto-jogo por tarefa. A variação entre execuções também diminui, fornecendo classificações mais estáveis entre variações de prompt. Estes resultados sugerem que o desempenho e a robustez de jogos multiagente com LLMs têm espaço substancial para melhoria através da otimização de contexto. O MEMO obtém os maiores ganhos em jogos de negociação e de informação imperfeita, enquanto o RL (Aprendizado por Reforço) permanece mais eficaz em ambientes de informação perfeita.
Embora os Modelos de Linguagem de Grande Porte (LLMs) tenham evoluído para agentes que utilizam ferramentas, eles permanecem frágeis em interações de longo prazo. Diferente do raciocínio matemático, onde os erros são frequentemente corrigíveis por meio de retrocesso, falhas no uso de ferramentas frequentemente induzem efeitos colaterais irreversíveis, tornando a verificação precisa a nível de etapa crítica. No entanto, os benchmarks existentes a nível de processo estão predominantemente confinados a domínios matemáticos de mundo fechado, falhando em capturar a natureza dinâmica e aberta da execução de ferramentas. Para preencher esta lacuna, introduzimos o AgentProcessBench, o primeiro benchmark dedicado a avaliar a eficácia a nível de etapa em trajetórias realistas aumentadas por ferramentas. O benchmark compreende 1.000 trajetórias diversas e 8.509 anotações de etapa rotuladas manualmente, com 89,1% de concordância entre anotadores. Ele apresenta um esquema de rotulagem ternária para capturar a exploração e uma regra de propagação de erro para reduzir a ambiguidade de rotulagem. Experimentos extensivos revelam insights-chave: (1) modelos de política mais fracos exibem proporções infladas de etapas corretas devido à terminação precoce; (2) distinguir ações neutras e errôneas permanece um desafio significativo para os modelos atuais; e (3) sinais derivados do processo fornecem valor complementar à supervisão por resultado, melhorando significativamente a escalabilidade em tempo de teste. Esperamos que o AgentProcessBench possa fomentar pesquisas futuras em modelos de recompensa e pavimentar o caminho para agentes gerais. O código e os dados estão disponíveis em https://github.com/RUCBM/AgentProcessBench.
Apresentamos o SegviGen, uma estrutura que reaproveita modelos generativos 3D nativos para segmentação de partes 3D. Os *pipelines* existentes ou elevam *priors* 2D robustos para 3D através de destilação ou agregação de máscaras multi-visão, frequentemente sofrendo com inconsistência entre vistas e limites desfocados, ou exploram a segmentação discriminativa 3D nativa, que tipicamente requer dados 3D anotados em grande escala e recursos de treinamento substanciais. Em contraste, o SegviGen aproveita os *priors* estruturados codificados em modelos generativos 3D pré-treinados para induzir a segmentação através de colorização distintiva de partes, estabelecendo uma estrutura nova e eficiente para segmentação de partes. Especificamente, o SegviGen codifica um ativo 3D e prevê cores indicativas de partes nos *voxels* ativos de uma reconstrução alinhada geometricamente. Ele suporta segmentação interativa de partes, segmentação completa e segmentação completa com orientação 2D em uma estrutura unificada. Experimentos extensivos mostram que o SegviGen supera o estado da arte anterior em 40% na segmentação interativa de partes e em 15% na segmentação completa, enquanto utiliza apenas 0,32% dos dados de treinamento rotulados. Isso demonstra que *priors* generativos 3D pré-treinados transferem-se efetivamente para a segmentação de partes 3D, permitindo um desempenho robusto com supervisão limitada. Consulte nossa página do projeto em https://fenghora.github.io/SegviGen-Page/.
As habilidades de agentes, pacotes estruturados de conhecimento procedural injetados durante a inferência, são cada vez mais utilizados para aumentar as capacidades de agentes de LLM em tarefas de engenharia de software. No entanto, sua utilidade real em cenários de desenvolvimento de ponta a ponta permanece pouco clara. Apresentamos o SWE-Skills-Bench, o primeiro benchmark orientado a requisitos que isola a utilidade marginal das habilidades de agentes na engenharia de software (SWE) do mundo real. Ele emparelha 49 habilidades públicas de SWE com repositórios autênticos do GitHub fixados em *commits* específicos e documentos de requisitos com critérios de aceitação explícitos, resultando em aproximadamente 565 instâncias de tarefas em seis subdomínios de SWE. Introduzimos uma estrutura de verificação determinística que mapeia os critérios de aceitação de cada tarefa para testes baseados em execução, permitindo uma avaliação pareada controlada com e sem a habilidade. Nossos resultados mostram que os benefícios da injeção de habilidades são muito mais limitados do que a rápida adoção sugere: 39 das 49 habilidades não produziram nenhuma melhoria na taxa de sucesso, e o ganho médio é de apenas +1,2%. A sobrecarga de *tokens* varia de economias modestas a um aumento de 451%, enquanto as taxas de sucesso permanecem inalteradas. Apenas sete habilidades especializadas produzem ganhos significativos (até +30%), enquanto três degradam o desempenho (até -10%) devido a orientações com incompatibilidade de versão que conflitam com o contexto do projeto. Essas descobertas sugerem que as habilidades de agentes são uma intervenção restrita, cuja utilidade depende fortemente do ajuste ao domínio, do nível de abstração e da compatibilidade contextual. O SWE-Skills-Bench fornece um banco de testes para avaliar o projeto, a seleção e a implantação de habilidades em agentes de engenharia de software. O SWE-Skills-Bench está disponível em https://github.com/GeniusHTX/SWE-Skills-Bench.
Modelos de linguagem de grande escala (LLMs) com raciocínio em cadeia de pensamento alcançam desempenho de ponta em tarefas complexas de resolução de problemas. No entanto, seus rastros de raciocínio verbosos e grandes requisitos de contexto tornam-nos impraticáveis para implantação em dispositivos de borda. Esses desafios incluem altos custos de geração de tokens, grandes pegadas de cache KV e ineficiências ao destilar capacidades de raciocínio em modelos menores para dispositivos móveis. As abordagens existentes frequentemente dependem da destilação de rastros de raciocínio de modelos maiores para modelos menores, que são verbosos e estilisticamente redundantes, sendo indesejáveis para inferência no dispositivo. Neste trabalho, propomos uma abordagem leve para habilitar o raciocínio em pequenos LLMs usando adaptadores LoRA combinados com ajuste fino supervisionado. Introduzimos ainda o *budget forcing* via aprendizado por reforço nesses adaptadores, reduzindo significativamente o comprimento da resposta com perda mínima de precisão. Para abordar a decodificação limitada por memória, exploramos o dimensionamento paralelo em tempo de teste, melhorando a precisão com um pequeno aumento de latência. Finalmente, apresentamos um mecanismo dinâmico de comutação de adaptadores que ativa o raciocínio apenas quando necessário e uma estratégia de compartilhamento de cache KV durante a codificação do *prompt*, reduzindo o tempo para o primeiro token na inferência no dispositivo. Experimentos no Qwen2.5-7B demonstram que nosso método alcança raciocínio eficiente e preciso sob restrições rigorosas de recursos, tornando o raciocínio de LLMs prático para cenários móveis. Vídeos demonstrando nossa solução em execução em dispositivos móveis estão disponíveis em nossa página do projeto.
Apresentamos uma formalização completa no Lean 4 da caracterização de equilíbrio no sistema Vlasov-Maxwell-Landau (VML), que descreve o movimento de plasma carregado. O projeto demonstra o ciclo completo de pesquisa matemática assistida por IA: um modelo de raciocínio de IA (Gemini DeepThink) gerou a prova a partir de uma conjectura, uma ferramenta de codificação agentiva (Claude Code) a traduziu para o Lean a partir de instruções em linguagem natural, um provador especializado (Aristotle) fechou 111 lemas, e o kernel do Lean verificou o resultado. Um único matemático supervisionou o processo ao longo de 10 dias a um custo de US$ 200, sem escrever uma única linha de código. Todo o processo de desenvolvimento é público: todas as 229 instruções humanas e 213 *commits* do git estão arquivados no repositório. Relatamos lições detalhadas sobre os modos de falha da IA – como a deriva hipotética, *bugs* de alinhamento de definições e comportamentos de evitação do agente – e sobre o que funcionou: a divisão entre prova abstrata/concreta, a autorrevisão adversarial e o papel crucial da revisão humana de definições-chave e enunciados de teoremas. Notavelmente, a formalização foi concluída antes do rascunho final do artigo matemático correspondente estar terminado.
A Super-Resolução de Vídeo (VSR) tem como objetivo restaurar frames de vídeo de alta qualidade a partir de estimativas de baixa resolução (LR). No entanto, a maioria das abordagens de VSR existentes comporta-se como caixas pretas no momento da inferência: os utilizadores não podem corrigir de forma confiável artefactos inesperados, tendo de aceitar o que quer que o modelo produza. Neste artigo, propomos uma nova estrutura interativa de VSR, denominada SparkVSR, que torna os *keyframes* esparsos um sinal de controlo simples e expressivo. Especificamente, os utilizadores podem primeiro aplicar super-resolução a um pequeno conjunto de *keyframes* (opcionalmente) usando qualquer modelo de super-resolução de imagem (ISR) disponível; em seguida, o SparkVSR propaga os *priors* dos *keyframes* para toda a sequência de vídeo, mantendo-se ancorado pelo movimento original do vídeo LR. Concretamente, introduzimos um *pipeline* de treino de dois estágios (latente-pixel) condicionado por *keyframes* que funde as latências do vídeo LR com as latências codificadas esparsamente dos *keyframes* de alta resolução (HR) para aprender uma propagação robusta entre espaços e refinar detalhes percetivos. No tempo de inferência, o SparkVSR suporta uma seleção flexível de *keyframes* (especificação manual, extração de I-frames do *codec* ou amostragem aleatória) e um mecanismo de orientação sem referência que equilibra continuamente a aderência aos *keyframes* e a restauração cega, garantindo um desempenho robusto mesmo quando os *keyframes* de referência estão ausentes ou são imperfeitos. Experiências em múltiplos *benchmarks* de VSR demonstram uma consistência temporal melhorada e uma forte qualidade de restauração, superando as *baselines* em até 24,6%, 21,8% e 5,6% no CLIP-IQA, DOVER e MUSIQ, respetivamente, permitindo uma super-resolução de vídeo controlável e orientada por *keyframes*. Além disso, demonstramos que o SparkVSR é uma estrutura genérica de processamento de vídeo interativa e condicionada por *keyframes*, pois pode ser aplicada diretamente a tarefas não vistas, como a restauração de filmes antigos e a transferência de estilo de vídeo. A nossa página do projeto está disponível em: https://sparkvsr.github.io/
A avaliação confiável é essencial para o desenvolvimento e implementação de grandes modelos de linguagem, mas, na prática, frequentemente exige um esforço manual substancial: os profissionais devem identificar benchmarks apropriados, reproduzir codebases de avaliação heterogéneas, configurar mapeamentos de esquemas de conjuntos de dados e interpretar métricas agregadas. Para enfrentar estes desafios, apresentamos o One-Eval, um sistema de avaliação agentivo que converte pedidos de avaliação em linguagem natural em fluxos de trabalho de avaliação executáveis, rastreáveis e personalizáveis. O One-Eval integra (i) o NL2Bench para estruturação de intenções e planeamento personalizado de benchmarks, (ii) o BenchResolve para resolução de benchmarks, aquisição automática de conjuntos de dados e normalização de esquemas para garantir a executabilidade, e (iii) Métricas e Relatórios para seleção de métricas conscientes da tarefa e relatórios orientados para decisão que vão além de pontuações escalares. O sistema incorpora ainda pontos de verificação com intervenção humana para revisão, edição e reversão, preservando trilhos de evidências de amostras para depuração e auditabilidade. Experiências mostram que o One-Eval pode executar avaliações de ponta a ponta a partir de diversos pedidos em linguagem natural com esforço mínimo do utilizador, suportando uma avaliação mais eficiente e reproduzível em contextos industriais. A nossa estrutura está publicamente disponível em https://github.com/OpenDCAI/One-Eval.
A reconstrução em tempo real a partir de vídeo monocular não calibrado continua a ser um desafio, pois requer uma estimativa de pose de alta precisão e um refinamento online computacionalmente eficiente em ambientes dinâmicos. Embora o acoplamento de modelos de base 3D com estruturas SLAM seja um paradigma promissor, um estrangulamento crítico persiste: a maioria dos modelos de base multivisa estima poses de forma direta (feed-forward), produzindo correspondências ao nível do pixel que carecem da precisão necessária para uma otimização geométrica rigorosa. Para resolver isto, apresentamos o M³, que aumenta o modelo de base Multivisa com um cabeçalho de Correspondência dedicado para facilitar correspondências densas de granularidade fina e o integra num sistema SLAM robusto baseado em Monocular Gaussian Splatting. O M³ melhora ainda mais a estabilidade do rastreamento através da incorporação de supressão de área dinâmica e alinhamento intrínseco por inferência cruzada. Experiências extensas em vários benchmarks de interiores e exteriores demonstram uma precisão de ponta tanto na estimativa de pose como na reconstrução da cena. Notavelmente, o M³ reduz o RMSE do ATE em 64,3% em comparação com o VGGT-SLAM 2.0 e supera o ARTDECO em 2,11 dB no PSNR no conjunto de dados ScanNet++.
A tradução automática (TA) de alta qualidade pode ser dimensionada para centenas de idiomas, estabelecendo um padrão elevado para sistemas multilíngues. No entanto, em comparação com as 7.000 línguas do mundo, os sistemas atuais ainda oferecem uma cobertura limitada: cerca de 200 idiomas no lado do destino e, talvez, algumas centenas a mais no lado da fonte, suportadas devido à transferência cross-lingual. E mesmo esses números têm sido difíceis de avaliar devido à falta de benchmarks e métricas confiáveis. Apresentamos a Tradução Automática Omnilingue (OMT), o primeiro sistema de TA a suportar mais de 1.600 idiomas. Esta escala é possibilitada por uma estratégia abrangente de dados que integra grandes corpora multilíngues públicos com conjuntos de dados recém-criados, incluindo o *bitext* MeDLEY, curado manualmente. Exploramos duas formas de especializar um Modelo de Linguagem de Grande Escala (LLM) para tradução automática: como um modelo *decoder-only* (OMT-LLaMA) ou como um módulo numa arquitetura *encoder-decoder* (OMT-NLLB). Notavelmente, todos os nossos modelos com 1B a 8B de parâmetros igualam ou superam o desempenho em TA de uma linha de base de LLM de 70B, revelando uma clara vantagem de especialização e permitindo uma forte qualidade de tradução em ambientes de baixo poder computacional. Além disso, a nossa avaliação de traduções do inglês para 1.600 idiomas mostra ainda que, embora os modelos de base possam interpretar línguas com suporte insuficiente, falham frequentemente em gerá-las com uma fidelidade significativa; os modelos OMT-LLaMA expandem substancialmente o conjunto de línguas para as quais a geração coerente é viável. Adicionalmente, os modelos OMT melhoram na transferência cross-lingual, estando próximos de resolver a parte da "compreensão" do quebra-cabeças na TA para os 1.600 idiomas avaliados. O nosso *leaderboard* e os principais conjuntos de dados de avaliação criados por humanos (BOUQuET e Met-BOUQuET) estão a evoluir dinamicamente para a Omnilingualidade e estão livremente disponíveis.
Com o rápido avanço dos modelos visão-linguagem, um número crescente de estudos tem explorado seu potencial para tarefas de geração de SVG. Embora as abordagens existentes melhorem o desempenho através da construção de grandes conjuntos de dados SVG e da introdução de tokens específicos para SVG, elas ainda sofrem com generalização limitada, caminhos redundantes nas saídas de código e falta de raciocínio explícito. Neste trabalho, apresentamos o CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), uma estrutura unificada que introduz um mecanismo de cadeia de pensamento para expor explicitamente o processo de raciocínio do modelo durante a geração de SVG. Para suportar este raciocínio estruturado, construímos o SVG-Sophia, um conjunto de dados de alta qualidade contendo 145 mil amostras abrangendo tarefas de refinamento de código SVG, Texto-para-SVG e Imagem-para-SVG. Ao treinar o modelo para gerar código SVG estruturado em nível de grupo, o CTRL-S melhora significativamente a coerência estrutural e a fidelidade visual. Além disso, adotamos o algoritmo GRPO e projetamos uma estrutura de otimização multi-recompensa, incorporando recompensas de DINO, similaridade imagem-texto, formato e eficiência de código. Através da otimização conjunta multi-recompensa e do treinamento multitarefa, nossa abordagem aprimora sistematicamente as capacidades gerais de geração. Experimentos extensivos mostram que o CTRL-S supera os métodos existentes, alcançando taxas de sucesso de tarefa mais altas, qualidade superior do código SVG e fidelidade visual excepcional.
Os modelos generativos nativos 3D alcançaram notável fidelidade e velocidade, mas sofrem de uma limitação crítica: a incapacidade de prescrever articulações estruturais precisas, onde o controle estrutural preciso dentro do espaço 3D nativo permanece pouco explorado. Este artigo propõe o SK-Adapter, uma estrutura simples e altamente eficiente e eficaz que desbloqueia a manipulação esquelética precisa para geração 3D nativa. Indo além de prompts de texto ou imagem, que podem ser ambíguos para estruturas precisas, tratamos o esqueleto 3D como um sinal de controle de primeira classe. O SK-Adapter é uma rede adaptadora estrutural leve que codifica coordenadas e topologia de articulações em tokens aprendíveis, que são injetados no backbone de geração 3D congelado via atenção cruzada. Este design inteligente permite que o modelo não apenas "atenda" efetivamente a restrições estruturais 3D específicas, mas também preserve seus priors generativos originais. Para preencher a lacuna de dados, contribuímos com o conjunto de dados Objaverse-TMS, um conjunto de dados em larga escala de 24 mil pares texto-malha-esqueleto. Experimentos extensivos confirmam que nosso método alcança controle estrutural robusto enquanto preserva a geometria e qualidade de textura do modelo base, superando significativamente as linhas de base existentes. Além disso, estendemos essa capacidade para edição local 3D, permitindo a edição específica por região de ativos existentes com orientação esquelética, o que é inatingível por métodos anteriores. Página do Projeto: https://sk-adapter.github.io/
A amostragem de uma distribuição categórica é matematicamente simples, mas na decodificação de vocabulário extenso, frequentemente desencadeia tráfego adicional de memória e kernels extras após o cabeçalho do modelo de linguagem. Apresentamos o FlashSampling, um primitivo de amostragem exata que funde a amostragem na multiplicação de matrizes do cabeçalho do modelo e nunca materializa o tensor de *logits* na memória de alto desempenho. O método é simples: calcula os *logits* bloco a bloco no *chip*, adiciona ruído de Gumbel, mantém apenas um maximizador por linha e por bloco de vocabulário, e finaliza com uma pequena redução sobre os blocos. O *kernel* fusionado em blocos é exato porque o *argmax* se decompõe sobre uma partição; variantes agrupadas para configurações *online* e de paralelismo de tensores são exatas pela fatoração hierárquica da distribuição categórica. Através dos GPUs H100, H200, B200 e B300, o FlashSampling acelera cargas de trabalho de decodificação a nível de *kernel*, e em experiências *end-to-end* com vLLM, reduz o tempo por *token* de saída em até 19% nos modelos que testamos. Estes resultados mostram que a amostragem exata, sem aproximação, pode ser integrada na própria multiplicação de matrizes, transformando uma etapa de pós-processamento limitada por largura de banda num epílogo leve. Página do Projeto: https://github.com/FlashSampling/FlashSampling.
A supervisão precisa do processo continua a ser um desafio crítico para a manipulação robótica de longo horizonte. Um gargalo principal é que os atuais MLLMs de vídeo, treinados principalmente sob um paradigma de Ajuste Fino Supervisionado (SFT), funcionam como "Observadores" passivos que reconhecem eventos em curso, em vez de avaliar o estado atual em relação ao objetivo final da tarefa. Neste artigo, apresentamos o PRIMO R1 (Process Reasoning Induced Monitoring), uma estrutura de 7B que transforma MLLMs de vídeo em "Críticos" ativos. Aproveitamos o Aprendizado por Reforço baseado em resultado para incentivar a geração explícita de Cadeia de Pensamento para estimativa de progresso. Além disso, a nossa arquitetura constrói uma entrada temporal estruturada, ancorando explicitamente a sequência de vídeo entre imagens do estado inicial e do estado atual. Suportado pelo conjunto de dados e benchmark PRIMO propostos, extensos experimentos em diversos ambientes intra-domínio e cenários de humanoides do mundo real fora do domínio demonstram que o PRIMO R1 atinge um desempenho de ponta. Quantitativamente, o nosso modelo de 7B alcança uma redução de 50% no erro absoluto médio das linhas de base de raciocínio especializadas, demonstrando melhorias significativas de precisão relativa em relação a MLLMs gerais de escala 72B. Além disso, o PRIMO R1 exibe uma forte generalização zero-shot em tarefas difíceis de deteção de falhas. Estabelecemos um desempenho de ponta no benchmark RoboFail com 67,0% de precisão, superando modelos proprietários como o OpenAI o1 em 6,0%.
O processamento de contexto longo continua a ser um desafio central para os modelos de linguagem: mesmo com janelas de contexto estendidas, os modelos frequentemente falham em extrair, raciocinar e utilizar informações de forma confiável em contextos extensos. Trabalhos recentes, como os Modelos de Linguagem Recursiva (RLM), abordaram esse desafio de forma agentiva, decompondo contextos longos em subchamadas recursivas por meio de interação programática durante a inferência. Embora promissor, o sucesso do RLM depende criticamente de como esses programas de interação com o contexto são selecionados, um aspecto que permaneceu largamente inexplorado. Neste artigo, estudamos esse problema e introduzimos o SRLM, uma estrutura que amplia a interação programática com o contexto por meio da Auto-reflexão consciente da incerteza. O SRLM aproveita três sinais intrínsecos: autoconsistência, extensão do raciocínio e confiança verbalizada. Estes servem como indicadores complementares da incerteza interna do modelo, que os utiliza para avaliar e comparar programas candidatos de interação com o contexto. Experimentos extensos em diversos conjuntos de dados de referência, comprimentos de contexto e modelos base mostram que o SRLM supera consistentemente os baseline state-of-the-art, alcançando uma melhoria de até 22% em relação ao RLM sob o mesmo orçamento de tempo. Nossas descobertas mostram que a recursão em si não é o principal impulsionador de desempenho no RLM, e uma simples busca programática autorreflexiva pode igualar ou superar o RLM sem exigir mecanismos de autoconsulta ou recursão explícita. Verificamos que, para comprimentos de contexto dentro da janela do modelo, os RLMs com recursão frequentemente degradam o desempenho em relação ao modelo base, enquanto o SRLM produz ganhos consistentes em contextos curtos e longos. Também constatamos que o RLM é menos eficaz em tarefas de natureza semanticamente intensiva, onde a busca programática heurística é insuficiente e uma compreensão contextual mais ampla é necessária, enquanto a autorreflexão no SRLM fornece um sinal semântico que melhor direciona o raciocínio nesses cenários.
A difusão no espaço de pixels ressurgiu recentemente como uma forte alternativa à difusão latente, permitindo geração de alta qualidade sem autoencoders pré-treinados. No entanto, os modelos padrão de difusão no espaço de pixels recebem supervisão semântica relativamente fraca e não são explicitamente projetados para capturar estrutura visual de alto nível. Métodos recentes de alinhamento de representações (ex: REPA) sugerem que características visuais pré-treinadas podem melhorar substancialmente o treinamento de difusão, e a co-desnificação visual emergiu como uma direção promissora para incorporar tais características no processo generativo. Contudo, abordagens existentes de co-desnificação frequentemente envolvem múltiplas escolhas de projeto, tornando incerto quais escolhas são verdadeiramente essenciais. Portanto, apresentamos o V-Co, um estudo sistemático de co-desnificação visual numa estrutura unificada baseada em JiT. Este ambiente controlado permite-nos isolar os ingredientes que tornam a co-desnificação visual eficaz. Nosso estudo revela quatro ingredientes-chave para uma co-desnificação visual eficaz. Primeiro, preservar computação específica de características enquanto permite interação flexível entre fluxos motiva uma arquitetura totalmente de fluxo dual. Segundo, uma orientação eficaz sem classificador (CFG) requer uma previsão incondicional estruturalmente definida. Terceiro, supervisão semântica mais forte é melhor fornecida por uma perda híbrida de deriva perceptual. Quarto, co-desnificação estável requer ainda uma calibração adequada entre fluxos, que realizamos através de reescalonamento de características baseado em RMS. Juntas, estas descobertas produzem uma receita simples para co-desnificação visual. Experimentos no ImageNet-256 mostram que, em tamanhos de modelo comparáveis, o V-Co supera a linha de base de difusão no espaço de pixels subjacente e métodos prévios fortes de difusão em pixels, usando menos épocas de treinamento, oferecendo orientação prática para futuros modelos generativos alinhados por representação.
Uma visão predominante na aprendizagem de robôs é que a simulação por si só não é suficiente; acredita-se amplamente que uma transferência eficaz do simulado para o real requer pelo menos alguma coleta de dados do mundo real ou ajuste fino específico da tarefa para preencher a lacuna entre ambientes simulados e físicos. Nós contestamos essa suposição. Com dados de treinamento sintéticos simulados suficientemente grandes e diversificados, mostramos que a transferência *zero-shot* para o mundo real não só é possível, mas também eficaz para manipulação estática e móvel. Apresentamos o MolmoBot-Engine, um *pipeline* totalmente de código aberto para geração procedural de dados em robôs, tarefas e diversos ambientes simulados no MolmoSpaces. Com ele, lançamos o MolmoBot-Data, um conjunto de dados com 1,8 milhão de trajetórias especializadas para manipulação de objetos articulados e tarefas de *pick-and-place*. Treinamos três classes de política: MolmoBot, um modelo de visão e linguagem baseado no Molmo2 com múltiplos quadros e um cabeçalho de ação por *flow matching*; MolmoBot-Pi0, que replica a arquitetura π₀ para permitir comparação direta; e MolmoBot-SPOC, uma política leve adequada para implantação em *edge* e passível de ajuste fino por RL. Avaliamos em duas plataformas robóticas: a Franka FR3 para tarefas de manipulação em mesa e a manipuladora móvel Rainbow Robotics RB-Y1 para abertura de portas, manipulação de gavetas, interação com armários e *pick-and-place* móvel. Sem qualquer ajuste fino no mundo real, nossas políticas alcançam transferência *zero-shot* para objetos e ambientes não vistos. No *pick-and-place* em mesa, o MolmoBot atinge uma taxa de sucesso de 79,2% em avaliações no mundo real em 4 configurações, superando o π₀.₅ em 39,2%. Nossos resultados demonstram que a geração procedural de ambientes combinada com ativos articulados diversificados pode produzir políticas de manipulação robustas que generalizam amplamente para o mundo real. Blog Técnico: https://allenai.org/blog/molmobot-robot-manipulation
Os modelos de base visuais (VFMs) baseados em Vision Transformers (ViTs) alcançaram desempenho notável em diversas tarefas visuais, mas sofrem com complexidade quadrática que limita a escalabilidade para sequências longas. As abordagens de atenção linear existentes para ViTs são tipicamente treinadas do zero, exigindo recursos computacionais substanciais, enquanto métodos baseados em linearização desenvolvidos para decodificadores de modelos de linguagem grandes não se transferem bem para ViTs. Para enfrentar esses desafios, propomos o ViT-AdaLA, uma estrutura nova para adaptar e transferir efetivamente conhecimento prévio de VFMs para ViTs com atenção linear. O ViT-AdaLA consiste em três estágios: alinhamento de atenção, alinhamento de características e ajuste fino supervisionado. No estágio de alinhamento de atenção, alinhamos a atenção linear padrão com a atenção original baseada em softmax em cada bloco para aproximar o comportamento da atenção softmax. No entanto, erros de aproximação residuais acumulam-se inevitavelmente entre as camadas. Mitigamos isso ajustando finamente o ViT linearizado para alinhar suas características da camada final com um professor VFM softmax congelado. Finalmente, o conhecimento prévio adaptado é transferido para tarefas subsequentes através de ajuste fino supervisionado. Experimentos extensos em tarefas de classificação e segmentação demonstram a eficácia e generalidade do ViT-AdaLA sobre várias contrapartes de atenção linear estado da arte.
Apesar de a investigação interdisciplinar conduzir a um impacto maior e de longo prazo, a maior parte do trabalho permanece confinada a silos académicos de domínio único. Abordagens recentes para a descoberta científica baseadas em IA mostram potencial para a investigação interdisciplinar, mas muitas priorizam a conceção rápida de experiências e soluções, contornando os processos exploratórios e de raciocínio colaborativo que impulsionam avanços interdisciplinares criativos. Consequentemente, esforços anteriores priorizam largamente a automatização da descoberta científica em vez de aumentar os processos de raciocínio que estão na base da disrupção científica. Apresentamos o Idea-Catalyst, uma estrutura nova que identifica sistematicamente perspetivas interdisciplinares para apoiar o raciocínio criativo tanto em humanos como em modelos de linguagem de grande escala. Partindo de um objetivo de investigação abstrato, o Idea-Catalyst foi concebido para auxiliar a fase de *brainstorming*, evitando explicitamente a ancoragem prematura em soluções específicas. A estrutura incorpora características metacognitivas fundamentais do raciocínio interdisciplinar: (a) definir e avaliar objetivos de investigação, (b) consciência das oportunidades e desafios por resolver de um domínio, e (c) exploração estratégica de ideias interdisciplinares com base no potencial de impacto. Concretamente, o Idea-Catalyst decompõe um objetivo abstrato (por exemplo, melhorar a colaboração humano-IA) em questões de investigação centrais do domínio-alvo que orientam a análise do progresso e dos desafios em aberto dentro desse domínio. Estes desafios são reformulados como problemas conceptuais independentes do domínio, permitindo a recuperação de disciplinas externas (por exemplo, Psicologia, Sociologia) que abordam questões análogas. Ao sintetizar e recontextualizar perspetivas destes domínios de volta para o domínio-alvo, o Idea-Catalyst classifica os domínios de origem pelo seu potencial interdisciplinar. Empiricamente, esta integração direcionada melhora a novidade média em 21% e a perspicácia em 16%, mantendo-se simultaneamente fundamentada no problema de investigação original.
A estilização baseada em difusão avançou significativamente, mas os métodos existentes limitam-se a transformações orientadas por cor, negligenciando semânticas complexas e detalhes materiais. Apresentamos o StyleExpert, uma estrutura semântica baseada na Mistura de Especialistas (MoE). Nossa estrutura emprega um codificador de estilo unificado, treinado em nosso conjunto de dados em larga escala de triplas conteúdo-estilo-estilizado, para incorporar diversos estilos em um espaço latente consistente. Essa incorporação é então usada para condicionar um mecanismo de gateamento com consciência de similaridade, que roteia dinamicamente os estilos para especialistas específicos dentro da arquitetura MoE. Aproveitando esta arquitetura MoE, nosso método lida habilmente com diversos estilos abrangendo múltiplos níveis semânticos, desde texturas superficiais até semânticas profundas. Experimentos extensivos mostram que o StyleExpert supera as abordagens existentes na preservação de semânticas e detalhes materiais, enquanto generaliza para estilos não vistos. Nosso código e imagens coletadas estão disponíveis na página do projeto: https://hh-lg.github.io/StyleExpert-Page/.
Trabalhos recentes deixaram claro que o caminho residual não é mera infraestrutura de otimização; ele é parte da maquinaria representacional do modelo. Nós concordamos, mas argumentamos que a forma mais clara de organizar este espaço de projeto é através de uma visão de dois eixos do Transformer. Um decodificador evolui a informação ao longo de duas dimensões ordenadas: a posição na sequência e a profundidade da camada. A auto-atenção já fornece uma combinação adaptativa ao longo do eixo da sequência, enquanto o fluxo residual normalmente realiza uma adição fixa ao longo do eixo de profundidade. Se fixarmos uma posição de token e tratarmos o índice da camada como a variável ordenada, então uma leitura de atenção residual causal em profundidade é exatamente o mesmo operador local que a atenção causal por janela deslizante curta (ShortSWA), exceto por ser escrita sobre a profundidade em vez de sobre a sequência. Esta é a dualidade central do fluxo residual por trás do Transformer^2. Esta perspectiva também esclarece a literatura recente. ELC-BERT e DenseFormer já mostram que a agregação aprendida sobre a profundidade pode superar o acúmulo residual uniforme, enquanto Vertical Attention, DeepCrossAttention (DCA), MUDDFormer e Attention Residuals avançam ainda mais em direção a um roteamento explícito baseado em atenção sobre camadas anteriores. O ponto-chave, no entanto, é que a dualidade a nível de operador não implica simetria a nível de sistema. Para modelos autoregressivos de grande escala, o ShortSWA no eixo da sequência é geralmente a posição mais amigável ao *hardware*, pois reutiliza *kernels* de janela deslizante no lado do *token*, layouts de *KV-cache* e execução em blocos. Se o objetivo, em vez disso, é alterar o próprio atalho, a Aprendizagem Delta Profunda (DDL) é a intervenção mais limpa porque modifica o operador residual diretamente, em vez de adicionar um caminho de recuperação entre camadas separado. Nossa recomendação é, portanto, simples: use DDL quando o atalho é o objeto de interesse, e use o ShortSWA no eixo da sequência quando o objetivo é uma combinação adaptativa local.
Apresentamos uma caracterização teórica completa dos Fatores Posteriores Latentes (LPF), uma estrutura fundamentada para agregar múltiplos itens de evidência heterogéneos em tarefas de previsão probabilística. O raciocínio com múltiplas evidências surge de forma ubíqua em domínios de alto risco, incluindo diagnóstico médico, avaliação de risco financeiro, análise de casos jurídicos e conformidade regulatória. No entanto, as abordagens existentes ou carecem de garantias formais ou falham arquitetonicamente em lidar com cenários de múltiplas evidências. O LPF codifica cada item de evidência num posterior latente Gaussiano através de um *variational autoencoder*, converte os posteriores em fatores suaves por meio de marginalização de Monte Carlo, e agrega os fatores através de inferência exata em Rede Soma-Produto (LPF-SPN) ou por meio de um agregador neural aprendido (LPF-Learned). Demonstramos sete garantias formais que abrangem os desideratos fundamentais para IA confiável: Preservação de Calibração (ECE <= epsilon + C/sqrt(K_eff)); Erro de Monte Carlo decaindo como O(1/sqrt(M)); um limite de PAC-Bayes não vacuo com um gap treino-teste de 0,0085 em N=4200; operação dentro de 1,12x do limite inferior teórico da informação; degradação graciosa como O(epsilon*delta*sqrt(K)) sob corrupção, mantendo 88% do desempenho com metade da evidência substituída adversariamente; decaimento de calibração de O(1/sqrt(K)) com R²=0,849; e uma decomposição exata de incerteza epistêmica-aleatória com erro abaixo de 0,002%. Todos os teoremas são validados empiricamente em conjuntos de dados controlados abrangendo até 4.200 exemplos de treino. O nosso quadro teórico estabelece o LPF como uma base para IA confiável com múltiplas evidências em aplicações de segurança crítica.
Apresentamos a família Polyglot-Lion, um conjunto de modelos compactos de reconhecimento automático de fala (ASR) multilíngue, desenvolvidos para o panorama linguístico de Singapura, abrangendo Inglês, Mandarim, Tâmil e Malaio. Os nossos modelos foram obtidos através do ajuste fino dos modelos Qwen3-ASR-0.6B e Qwen3-ASR-1.7B exclusivamente em corpora de fala publicamente disponíveis, utilizando uma estratégia de amostragem equilibrada que iguala o número de enunciados de treino por idioma e que deliberadamente omite a condicionamento por etiqueta de idioma, para que o modelo aprenda a identificar os idiomas implicitamente a partir do áudio. Em 12 benchmarks que abrangem os quatro idiomas-alvo, o Polyglot-Lion-1.7B alcança uma taxa média de erro de 14.85, um resultado competitivo com o MERaLiON-2-10B-ASR (14.32) – um modelo 6 vezes maior – enquanto incorre num custo de treino de \81 numa única GPU RTX PRO 6000, em comparação com 18.862 para a linha de base de 128 GPUs. O débito de inferência é aproximadamente 20 vezes mais rápido do que o do MERaLiON, com 0.10 s/amostra contra 2.02 s/amostra. Estes resultados demonstram que o ajuste fino linguisticamente equilibrado de modelos pré-treinados de escala moderada pode produzir ASR multilíngue pronto para implantação a uma fração do custo de sistemas especializados de maior dimensão.
A compreensão de seres humanos a partir de nuvens de pontos LiDAR é uma das tarefas mais críticas na condução autónoma devido à sua estreita relação com a segurança dos peões, mas continua a ser um desafio na presença de diversas interações humano-objeto e fundos desordenados. No entanto, os métodos existentes ignoram largamente o potencial de aproveitar as interações humano-objeto para construir estruturas robustas de estimativa de pose humana 3D. Existem dois grandes desafios que motivam a incorporação da interação humano-objeto. Primeiro, as interações humano-objeto introduzem ambiguidade espacial entre os pontos humanos e os pontos do objeto, o que frequentemente leva a previsões erróneas de pontos-chave humanos 3D nas regiões de interação. Segundo, existe um grave desequilíbrio de classes no número de pontos entre partes do corpo em interação e não interação, sendo as regiões de interação frequente, como mãos e pés, esparsamente observadas nos dados LiDAR. Para enfrentar estes desafios, propomos uma estrutura de Aprendizagem de Interação Humano-Objeto (HOIL) para uma estimativa robusta da pose humana 3D a partir de nuvens de pontos LiDAR. Para mitigar o problema da ambiguidade espacial, apresentamos uma aprendizagem contrastiva consciente da interação humano-objeto (HOICL) que melhora eficazmente a discriminação de características entre pontos humanos e do objeto, particularmente nas regiões de interação. Para aliviar o problema do desequilíbrio de classes, introduzimos um *pooling* guiado por partes e consciente do contacto (CPPool) que realoca adaptativamente a capacidade representacional, comprimindo pontos sobrerrepresentados enquanto preserva pontos informativos das partes do corpo em interação. Adicionalmente, apresentamos um refinamento temporal opcional baseado em contacto que refina estimativas erróneas de pontos-chave por *frame* usando pistas de contacto ao longo do tempo. Como resultado, a nossa HOIL aproveita eficazmente a interação humano-objeto para resolver a ambiguidade espacial e o desequilíbrio de classes nas regiões de interação. Os códigos serão disponibilizados.
Os métodos existentes de geração de cenas 3D baseados em difusão operam principalmente em espaços latentes de imagem/vídeo 2D, o que torna inerentemente desafiador manter a consistência geométrica e de aparência entre vistas. Para preencher esta lacuna, apresentamos o OneWorld, uma estrutura que executa difusão diretamente dentro de um espaço de representação 3D coerente. O cerne de nossa abordagem é o Autoencoder de Representação Unificada 3D (3D-URAE); ele aproveita modelos de fundação 3D pré-treinados e aumenta sua natureza centrada na geometria, injetando aparência e destilando semântica em um espaço latente 3D unificado. Além disso, introduzimos uma perda de consistência de Correspondência Cruzada de Vista (CVC) em nível de *token* para impor explicitamente o alinhamento estrutural entre vistas, e propomos o Forçamento de Deriva de Variedade (MDF) para mitigar o viés de exposição treino-inferência e moldar uma variedade 3D robusta através da mistura de representações derivadas e originais. Experimentos abrangentes demonstram que o OneWorld gera cenas 3D de alta qualidade com consistência entre vistas superior em comparação com métodos state-of-the-art baseados em 2D. Nosso código estará disponível em https://github.com/SensenGao/OneWorld.
A memória persistente é uma capacidade central para agentes de IA, no entanto, os fundamentos matemáticos da recuperação de memória, gestão do ciclo de vida e consistência permanecem inexplorados. Os sistemas atuais empregam similaridade de cosseno para recuperação, decadência heurística para saliência e não fornecem deteção formal de contradições. Estabelecemos fundamentos informação-geométricos através de três contribuições. Primeiro, uma métrica de recuperação derivada da estrutura de informação de Fisher de famílias Gaussianas diagonais, satisfazendo os axiomas de métrica Riemanniana, invariante sob estatísticas suficientes e computável em tempo O(d). Segundo, o ciclo de vida da memória formulado como dinâmica de Langevin Riemanniana com existência e unicidade comprovadas da distribuição estacionária via a equação de Fokker-Planck, substituindo a decadência manualmente ajustada por garantias de convergência fundamentadas. Terceiro, um modelo de feixe celular onde as classes de primeira cohomologia não triviais correspondem precisamente a contradições irreconciliáveis entre contextos de memória. No benchmark LoCoMo, as camadas matemáticas produzem +12,7 pontos percentuais sobre as linhas de base de engenharia em seis conversas, atingindo +19,9 pp nos diálogos mais desafiadores. Uma arquitetura de recuperação de quatro canais atinge 75% de precisão sem dependência da nuvem. Resultados aumentados por computação em nuvem atingem 87,7%. Uma configuração zero-LLM satisfaz os requisitos de soberania de dados do Ato de IA da UE por design arquitetónico. Até onde sabemos, este é o primeiro trabalho a estabelecer fundamentos informação-geométricos, feixe-teóricos e estocástico-dinâmicos para sistemas de memória de agentes de IA.
Avanços recentes em agentes multimodais melhoraram a interação com computadores e o uso de ferramentas, porém a maioria dos sistemas existentes permanece reativa, otimizando ações de forma isolada sem raciocinar sobre estados futuros ou objetivos de longo prazo. Isso limita a coerência do planejamento e impede que os agentes resolvam de forma confiável tarefas complexas e multi-etapas. Apresentamos o TraceR1, uma estrutura de aprendizagem por reforço em dois estágios que treina explicitamente o raciocínio antecipatório através da previsão de trajetórias de curto prazo antes da execução. O primeiro estágio realiza aprendizagem por reforço a nível de trajetória com recompensas que impõem consistência global entre sequências de ações previstas. O segundo estágio aplica ajuste fino por reforço fundamentado, utilizando feedback de execução de agentes de ferramentas congelados para refinar a precisão e executabilidade a nível de etapa. O TraceR1 é avaliado em sete benchmarks, abrangendo uso de computador online, benchmarks de uso offline de computador e tarefas de raciocínio com uso multimodal de ferramentas, onde alcança melhorias substanciais em estabilidade de planejamento, robustez de execução e generalização sobre abordagens reativas e de estágio único. Estes resultados demonstram que o raciocínio antecipatório de trajetórias é um princípio fundamental para construir agentes multimodais que podem raciocinar, planejar e agir eficazmente em ambientes complexos do mundo real.
A tomada de decisão no mundo real, desde a avaliação de conformidade fiscal até o diagnóstico médico, requer a agregação de múltiplas fontes de evidências ruidosas e potencialmente contraditórias. As abordagens existentes ou carecem de quantificação explícita de incerteza (métodos de agregação neurais) ou dependem de predicados discretos manualmente elaborados (estruturas de lógica probabilística), limitando a escalabilidade para dados não estruturados. Apresentamos os Fatores Posteriores Latentes (LPF), uma estrutura que transforma as posteriores latentes do *Variational Autoencoder* (VAE) em fatores de verossimilhança suaves para inferência em *Sum-Product Network* (SPN), permitindo um raciocínio probabilístico tratável sobre evidências não estruturadas, preservando estimativas de incerteza calibradas. Instanciamos o LPF como LPF-SPN (inferência estruturada baseada em fatores) e LPF-Learned (agregação aprendida de ponta a ponta), permitindo uma comparação fundamentada entre o raciocínio probabilístico explícito e a agregação aprendida sob uma representação de incerteza compartilhada. Em oito domínios (sete sintéticos e o benchmark FEVER), o LPF-SPN alcança alta precisão (até 97,8%), baixo erro de calibração (ECE 1,4%) e forte ajuste probabilístico, superando substancialmente a aprendizagem profunda evidencial, LLMs e *baselines* baseados em grafos ao longo de 15 sementes aleatórias. Contribuições: (1) Uma estrutura que liga representações de incerteza latente com raciocínio probabilístico estruturado. (2) Arquiteturas duais que permitem a comparação controlada de paradigmas de raciocínio. (3) Metodologia de treinamento reproduzível com seleção de sementes. (4) Avaliação contra *baselines* de EDL, BERT, R-GCN e modelos de linguagem grandes. (5) Validação transversal de domínios. (6) Garantias formais em um artigo complementar.
A resolução de problemas através do uso de ferramentas sob restrições explícitas constitui um cenário altamente desafiador, mas inevitável, para os grandes modelos de linguagem (LLMs), exigindo capacidades como chamada de funções, seguimento de instruções e autorrefinamento. No entanto, o progresso tem sido dificultado pela ausência de avaliações dedicadas. Para resolver esta lacuna, apresentamos o CCTU, um benchmark para avaliar o uso de ferramentas por LLMs sob restrições complexas. O CCTU é baseado numa taxonomia de 12 categorias de restrições que abrangem quatro dimensões (ou seja, recurso, comportamento, conjunto de ferramentas e resposta). O benchmark compreende 200 casos de teste criteriosamente curados e desafiadores, abrangendo diversos cenários de uso de ferramentas, cada um envolvendo uma média de sete tipos de restrição e um comprimento médio de prompt superior a 4.700 tokens. Para permitir uma avaliação confiável, desenvolvemos um módulo executável de validação de restrições que realiza uma validação a nível de etapa e impõe a conformidade durante interações multi-turno entre os modelos e os seus ambientes. Avaliamos nove LLMs state-of-the-art em modos de pensamento e sem pensamento. Os resultados indicam que, quando é exigida uma adesão estrita a todas as restrições, nenhum modelo atinge uma taxa de conclusão de tarefas superior a 20%. Uma análise mais aprofundada revela que os modelos violam restrições em mais de 50% dos casos, particularmente nas dimensões de recurso e resposta. Além disso, os LLMs demonstram uma capacidade limitada de autorrefinamento mesmo após receberem feedback detalhado sobre violações de restrições, destacando um gargalo crítico no desenvolvimento de agentes robustos de uso de ferramentas. Para facilitar pesquisas futuras, disponibilizamos os dados e o código.
Embora os Modelos de Linguagem Multimodais de Grande Porte (MLLMs) demonstrem desempenho promissor na interpretação automatizada de eletrocardiogramas, permanece incerto se eles realmente realizam um raciocínio passo a passo genuíno ou se apenas dependem de pistas visuais superficiais. Para investigar isso, apresentamos o *ECG-Reasoning-Benchmark*, uma nova estrutura de avaliação multi-turn que compreende mais de 6.400 amostras para avaliar sistematicamente o raciocínio passo a passo em 17 diagnósticos centrais de ECG. Nossa avaliação abrangente dos modelos state-of-the-art revela uma falha crítica na execução da dedução lógica multi-etapas. Embora os modelos possuam o conhecimento médico para recuperar critérios clínicos para um diagnóstico, eles exibem taxas de sucesso próximas de zero (6% de Conclusão) em manter uma cadeia de raciocínio completa, falhando principalmente em fundamentar os achados de ECG correspondentes na evidência visual real do sinal de ECG. Esses resultados demonstram que os MLLMs atuais contornam a interpretação visual real, expondo uma falha crítica nos paradigmas de treinamento existentes e ressaltando a necessidade de uma IA médica robusta e centrada no raciocínio. O código e os dados estão disponíveis em https://github.com/Jwoo5/ecg-reasoning-benchmark.
Os sistemas de Geração Aumentada por Recuperação (RAG) enfrentam desafios com perguntas complexas e de múltiplos saltos, e estruturas agentes como o Search-R1 (Jin et al., 2025), que opera de forma iterativa, foram propostas para abordar essas complexidades. No entanto, tais abordagens podem introduzir ineficiências, incluindo a recuperação repetitiva de informações previamente processadas e desafios na contextualização eficaz dos resultados recuperados dentro do prompt de geração atual. Tais problemas podem levar a turnos de recuperação desnecessários, raciocínio subótimo, respostas imprecisas e aumento no consumo de *tokens*. Neste artigo, investigamos modificações em tempo de teste no *pipeline* do Search-R1 para mitigar essas deficiências identificadas. Especificamente, exploramos a integração de dois componentes e sua combinação: um módulo de contextualização para integrar melhor informações relevantes de documentos recuperados no raciocínio, e um módulo de deduplicação que substitui documentos previamente recuperados pelos próximos mais relevantes. Avaliamos nossas abordagens usando os conjuntos de dados HotpotQA (Yang et al., 2018) e Natural Questions (Kwiatkowski et al., 2019), relatando a pontuação de correspondência exata (EM), uma avaliação de correção da resposta usando LLM-como-Juiz, e o número médio de turnos. Nossa variante de melhor desempenho, que utiliza o GPT-4.1-mini para contextualização, alcança um aumento de 5,6% na pontuação EM e reduz o número de turnos em 10,5% em comparação com a linha de base do Search-R1, demonstrando uma precisão de resposta e eficiência de recuperação aprimoradas.
Apresentamos o VAREX (VARied-schema EXtraction), um *benchmark* para avaliar modelos de fundo multimodais na extração de dados estruturados de formulários governamentais. O VAREX emprega um *pipeline* de Anotação Reversa que preenche programaticamente modelos de PDF com valores sintéticos, produzindo uma *ground truth* determinística validada por uma garantia de qualidade trifásica. O *benchmark* compreende 1.777 documentos com 1.771 esquemas únicos, distribuídos em três categorias estruturais, cada um fornecido em quatro modalidades de entrada: texto simples, texto com preservação de layout (alinhado por espaços em branco para aproximar posições de coluna), imagem do documento, ou ambos texto e imagem combinados. Diferente de *benchmarks* existentes que avaliam a partir de uma única representação de entrada, o VAREX fornece quatro modalidades controladas por documento, permitindo uma ablação sistemática de como o formato de entrada afeta a precisão da extração — uma capacidade ausente em *benchmarks* anteriores. Avaliamos 20 modelos, desde modelos proprietários de ponta até pequenos modelos abertos, com atenção especial a modelos <=4B de parâmetros adequados para implantação sensível a custos e com restrições de latência. Os resultados revelam que (1) abaixo de 4B de parâmetros, a conformidade com a saída estruturada — e não a capacidade de extração — é um gargalo dominante; em particular, o eco de esquema (modelos que produzem estrutura conforme o esquema em vez dos valores extraídos) reduz as pontuações em 45-65 pp (pontos percentuais) nos modelos afetados; (2) o *fine-tuning* específico para extração em modelos de 2B produz ganhos de +81 pp, demonstrando que o déficit no seguimento de instruções é solucionável sem escala; (3) o texto com preservação de layout proporciona o maior ganho de precisão (+3-18 pp), superando pistas visuais a nível de pixel; e (4) o *benchmark* discrimina os modelos com mais eficácia na faixa de 60-95% de precisão. O conjunto de dados e o código de avaliação estão publicamente disponíveis.
Os modelos de linguagem química (CLMs) emergiram como concorrentes promissores aos populares modelos clássicos de aprendizagem de máquina para tarefas de predição de propriedades moleculares (MPP). No entanto, um número crescente de estudos tem relatado resultados inconsistentes e contraditórios sobre o desempenho dos CLMs em várias tarefas de benchmark de MPP. Neste estudo, conduzimos e analisamos centenas de experimentos meticulosamente controlados para investigar sistematicamente os efeitos de vários fatores, como tamanho do conjunto de dados, tamanho do modelo e padronização, no desempenho de pré-treinamento e ajuste fino dos CLMs para MPP. Na ausência de leis de escala bem estabelecidas para modelos de linguagem mascarada com apenas codificador, nosso objetivo é fornecer evidências numéricas abrangentes e uma compreensão mais profunda dos mecanismos subjacentes que afetam o desempenho dos CLMs em tarefas de MPP, alguns dos quais parecem ser completamente negligenciados na literatura.
Os modelos de difusão operam num modo reflexivo do Sistema 1, limitados por uma programação de amostragem fixa e independente do conteúdo. Esta rigidez surge da maldição da dimensionalidade de estado, onde a explosão combinatória de estados possíveis na variedade de ruído de alta dimensão torna a planificação explícita de trajetórias intratável e leva a uma má alocação computacional sistemática. Para resolver isto, introduzimos a Cadeia de Trajetórias (CoTj), uma estrutura livre de treino que permite a planificação deliberativa do Sistema 2. Central ao CoTj está o ADN de Difusão, uma assinatura de baixa dimensão que quantifica a dificuldade de remoção de ruído por fase e serve como um proxy para o espaço de estados de alta dimensão, permitindo-nos reformular a amostragem como planificação de grafos num grafo acíclico dirigido. Através de um paradigma Prever-Planificar-Executar, o CoTj aloca dinamicamente o esforço computacional para as fases generativas mais desafiadoras. Experiências com vários modelos generativos demonstram que o CoTj descobre trajetórias conscientes do contexto, melhorando a qualidade e estabilidade da saída enquanto reduz a computação redundante. Este trabalho estabelece uma nova base para a modelação de difusão baseada em planificação e consciente dos recursos. O código está disponível em https://github.com/UnicomAI/CoTj.
Apresentamos o HistoAtlas, um atlas computacional pan-cancro que extrai 38 características histómicas interpretáveis de 6.745 lâminas diagnósticas de H&E em 21 tipos de cancro do TCGA e vincula sistematicamente cada característica à sobrevivência, expressão génica, mutações somáticas e subtipos imunes. Todas as associações são ajustadas para covariáveis, corrigidas para testes múltiplos e classificadas em níveis de força de evidência. O atlas recupera biologia conhecida, desde infiltração imune e prognóstico até proliferação e sinalização por cinases, ao mesmo tempo que revela sinais imunes específicos de compartimento e subtipos morfológicos com desfechos divergentes. Cada resultado é espacialmente rastreável até compartimentos teciduais e células individuais, estatisticamente calibrado e consultável abertamente. O HistoAtlas permite a descoberta sistemática e em larga escala de biomarcadores a partir de H&E de rotina, sem coloração especializada ou sequenciação. Os dados e um atlas web interativo estão disponíveis gratuitamente em https://histoatlas.com.
Os modelos de difusão mascarada (MDM) exibem generalização superior quando aprendidos usando um esquema de mascaramento parcial (Prime). Esta abordagem converte tokens em sub-tokens e modela o processo de difusão ao nível do sub-token. Identificamos duas limitações da estrutura MDM-Prime. Primeiro, carecemos de ferramentas para orientar a escolha do hiperparâmetro da granularidade do token no sub-tokenizador. Segundo, descobrimos que a forma funcional do sub-tokenizador degrada significativamente a estimativa de verosimilhança quando emparelhada com tokenizadores Byte-Pair-Encoding (BPE) comumente usados. Para resolver estas limitações, estudamos o rigor do limite variacional no MDM-Prime e desenvolvemos o MDM-Prime-v2, um modelo de linguagem de difusão mascarada que incorpora Codificação Binária e Embaralhamento de Índices. A nossa análise de escalabilidade revela que o MDM-Prime-v2 é 21,8 vezes mais eficiente em termos computacionais do que os modelos autoregressivos (ARM). Em comparações computacionalmente ótimas, o MDM-Prime-v2 atinge 7,77 de perplexidade no OpenWebText, superando o ARM (12,99), o MDM (18,94) e o MDM-Prime (13,41). Ao estender o tamanho do modelo para 1,1 mil milhões de parâmetros, o nosso modelo demonstra ainda uma precisão zero-shot superior em várias tarefas de raciocínio de senso comum.
O paradigma dominante para melhorar o raciocínio matemático em modelos de linguagem baseia-se no Aprendizado por Reforço com recompensas verificáveis. No entanto, os métodos existentes tratam cada instância do problema de forma isolada, sem aproveitar as estratégias reutilizáveis que emergem e se acumulam durante o treinamento. Para isso, introduzimos o ARISE (Raciocínio do Agente via Evolução de Habilidades Intrínsecas), um framework hierárquico de aprendizado por reforço, no qual uma política compartilhada atua tanto para gerenciar habilidades em alto nível quanto para gerar respostas em baixo nível (denominadas Gestor de Habilidades e Trabalhador, respectivamente). O Gestor mantém uma biblioteca de habilidades hierárquica por meio de um *rollout* dedicado à geração de habilidades que realiza uma sumarização estruturada de traços de solução bem-sucedidos (após a execução), enquanto emprega um mecanismo de seleção guiado por política para recuperar habilidades relevantes e condicionar *rollouts* futuros (antes da execução). Um projeto de recompensa hierárquico guia a coevolução da capacidade de raciocínio e da qualidade da biblioteca. Experimentos em dois modelos base e sete benchmarks abrangendo matemática competitiva e Omni-MATH mostram que o ARISE supera consistentemente algoritmos da família GRPO e baselines com aumento de memória, com ganhos particularmente notáveis em tarefas fora da distribuição. Estudos de ablação confirmam que cada componente contribui para as melhorias observadas e que a qualidade da biblioteca e o desempenho do raciocínio melhoram em conjunto durante todo o treinamento. O código está disponível em https://github.com/Skylanding/ARISE.
O cercamento de larga escala de terras para megaprojetos de desenvolvimento especulativo constitui um processo espacial de não equilíbrio cuja velocidade, topologia e irreversibilidade permanecem pouco quantificadas. Estudamos o megaprojeto costeiro Pantai Indah Kapuk 2 (PIK2), ao norte de Jacarta, Indonésia, utilizando oito anos (2017-2024) de dados de uso e cobertura da terra (Uso e Cobertura do Solo - UCS) do Sentinel-2 com resolução de 10 metros. A paisagem é projetada em um simplex de probabilidade marxiano que particiona os pixels terrestres em frações de Comuns, Agrária e Capital. As distâncias geodésicas de Fisher-Rao (FR) neste simplex identificam um pulso de transformação de 0,405 rad/ano durante 2019-2020, coincidindo com a principal atividade de construção. A análise de cadeias de Markov absorventes produz tempos médios de absorção no ambiente construído de 46,0 anos para terras agrícolas e 38,1 anos para cobertura arbórea, com uma taxa de autorretenção agregada da área construída de 96,4%. A análise de percolação revela que um componente gigante conectado, contendo 89-95% de todos os pixels construídos, persiste em probabilidades de ocupação p no intervalo [0,096, 0,162], muito abaixo do limiar de percolação aleatória p_c ≈ 0,593, indicando um crescimento espacial planejado e não estocástico. A dimensão fractal de contagem de caixas da fronteira urbana aumenta de d_f = 1,316 para 1,397, consistente com uma expansão de fronteira cada vez mais irregular. Estes resultados sugerem que ferramentas da geometria da informação e da mecânica estatística podem caracterizar com precisão quantitativa as assinaturas cinemáticas e topológicas da acumulação espacial capitalista.