Artigos de pesquisa em IA selecionados diariamente com traduções
A descoberta científica autônoma com agentes baseados em modelos de linguagem de grande escala (LLM) tem progredido substancialmente recentemente, demonstrando a capacidade de automatizar fluxos de trabalho de pesquisa de ponta a ponta. No entanto, os sistemas existentes dependem amplamente de paradigmas de execução centrados em tempo de execução, relendo, resumindo e raciocinando repetidamente sobre grandes volumes de literatura científica online. Esta estratégia de computação sob demanda acarreta alto custo computacional, sofre com limitações de janela de contexto e frequentemente leva a raciocínios frágeis e alucinações. Propomos o Idea2Story, uma estrutura orientada por pré-computação para descoberta científica autônoma que desloca a compreensão da literatura do raciocínio online para a construção de conhecimento offline. O Idea2Story coleta continuamente artigos revisados por pares juntamente com seus feedbacks de revisão, extrai unidades metodológicas centrais, compõe padrões de pesquisa reutilizáveis e os organiza em um grafo de conhecimento metodológico estruturado. Durante a execução, intenções de pesquisa subespecificadas pelo usuário são alinhadas a paradigmas de pesquisa estabelecidos, permitindo a recuperação eficiente e a reutilização de padrões de pesquisa de alta qualidade em vez de geração aberta e tentativa e erro. Ao fundamentar o planejamento e a execução da pesquisa em um grafo de conhecimento pré-construído, o Idea2Story alivia o gargalo da janela de contexto dos LLMs e reduz substancialmente o raciocínio repetitivo sobre a literatura durante a execução. Realizamos análises qualitativas e estudos empíricos preliminares demonstrando que o Idea2Story pode gerar padrões de pesquisa coerentes, metodologicamente fundamentados e inovadores, e pode produzir várias demonstrações de pesquisa de alta qualidade em um ambiente de ponta a ponta. Estes resultados sugerem que a construção de conhecimento offline fornece uma base prática e escalável para uma descoberta científica autônoma confiável.
Os modelos de texto-para-imagem (T2I) alcançaram um sucesso notável na geração de imagens de alta fidelidade, mas frequentemente falham ao lidar com relações espaciais complexas, por exemplo, perceção espacial, raciocínio ou interação. Estes aspetos críticos são largamente negligenciados pelos *benchmarks* atuais devido ao seu design de *prompts* curtos ou com pouca informação. Neste artigo, apresentamos o SpatialGenEval, um novo *benchmark* concebido para avaliar sistematicamente a inteligência espacial dos modelos T2I, abrangendo dois aspetos principais: (1) O SpatialGenEval envolve 1.230 *prompts* longos e densos em informação, abrangendo 25 cenários do mundo real. Cada *prompt* integra 10 subdomínios espaciais e os correspondentes 10 pares de perguntas-resposta de escolha múltipla, variando desde a posição e disposição de objetos até oclusão e causalidade. A nossa avaliação extensiva de 21 modelos de última geração revela que o raciocínio espacial de ordem superior permanece um estrangulamento primário. (2) Para demonstrar que a utilidade do nosso design denso em informação vai além de uma simples avaliação, também construímos o conjunto de dados SpatialT2I. Este contém 15.400 pares texto-imagem com *prompts* reescritos para garantir a consistência da imagem, preservando simultaneamente a densidade de informação. Os resultados do *fine-tuning* em modelos base atuais (ou seja, Stable Diffusion-XL, Uniworld-V1, OmniGen2) produzem ganhos de desempenho consistentes (+4,2%, +5,7%, +4,4%) e efeitos mais realistas nas relações espaciais, destacando um paradigma centrado em dados para alcançar inteligência espacial em modelos T2I.
Embora as arquiteturas de Mistura de Especialistas (MoE) tenham se tornado o padrão para escalonamento de esparsidade em modelos de linguagem grandes, elas enfrentam crescentemente retornos decrescentes e gargalos em nível de sistema. Neste trabalho, exploramos o escalonamento de embeddings como uma dimensão ortogonal e potente para escalonar a esparsidade. Por meio de uma análise abrangente e experimentos, identificamos regimes específicos onde o escalonamento de embeddings alcança uma fronteira de Pareto superior em comparação com o escalonamento de especialistas. Caracterizamos sistematicamente os fatores arquiteturais críticos que governam essa eficácia – desde o orçamento de parâmetros até a interação com a largura e profundidade do modelo. Além disso, ao integrar otimizações de sistema personalizadas e decodificação especulativa, convertemos efetivamente essa esparsidade em acelerações tangíveis de inferência. Guiados por esses insights, introduzimos o LongCat-Flash-Lite, um modelo de 68,5B de parâmetros com ~3B ativados, treinado do zero. Apesar de alocar mais de 30B de parâmetros para embeddings, o LongCat-Flash-Lite não apenas supera linhas de base MoE equivalentes em parâmetros, mas também exibe competitividade excepcional contra modelos existentes de escala comparável, particularmente em domínios de agentes e codificação.
A manipulação de objetos dinâmicos continua a ser um desafio em aberto para os modelos Visão-Linguagem-Ação (VLA), que, apesar de uma forte generalização na manipulação estática, têm dificuldades em cenários dinâmicos que exigem perceção rápida, antecipação temporal e controlo contínuo. Apresentamos o DynamicVLA, uma estrutura para manipulação de objetos dinâmicos que integra o raciocínio temporal e a adaptação em ciclo fechado através de três conceitos-chave: 1) um VLA compacto de 0,4 mil milhões de parâmetros que utiliza um codificador de visão convolucional para uma codificação espacialmente eficiente e estruturalmente fiel, permitindo uma inferência multimodal rápida; 2) a Inferência Contínua, que permite a sobreposição de raciocínio e execução para uma menor latência e uma adaptação atempada ao movimento do objeto; e 3) o *Streaming* de Ações com Consciência do *Latent*, que colmata a lacuna entre perceção e execução, impondo uma execução de ações temporalmente alinhada. Para preencher a lacuna de dados fundamentais sobre manipulação dinâmica, introduzimos o benchmark de Manipulação de Objetos Dinâmicos (DOM), construído de raiz com um *pipeline* de recolha automática de dados que recolhe eficientemente 200 mil episódios sintéticos em 2,8 mil cenas e 206 objetos, e permite a recolha rápida de 2 mil episódios do mundo real sem teleoperação. Avaliações extensivas demonstram melhorias notáveis na velocidade de resposta, perceção e generalização, posicionando o DynamicVLA como uma estrutura unificada para a manipulação geral de objetos dinâmicos em diferentes implementações.
Os recentes avanços nos Modelos de Linguagem Visual (VLMs) têm impulsionado progressos significativos no raciocínio visual. No entanto, os VLMs de código aberto ainda ficam atrás dos sistemas proprietários, em grande parte devido à falta de dados de raciocínio de alta qualidade. Os conjuntos de dados existentes oferecem cobertura limitada de domínios desafiadores, como diagramas de STEM e quebra-cabeças visuais, e carecem de anotações consistentes e de longo prazo do tipo Cadeia de Pensamento (CoT), essenciais para eliciar fortes capacidades de raciocínio. Para preencher esta lacuna, introduzimos o MMFineReason, um conjunto de dados de raciocínio multimodal em larga escala composto por 1,8 milhão de amostras e 5,1 mil milhões de tokens de solução, apresentando anotações de raciocínio de alta qualidade destiladas do Qwen3-VL-235B-A22B-Thinking. O conjunto de dados é estabelecido através de um *pipeline* sistemático de três estágios: (1) recolha e padronização de dados em larga escala, (2) geração de racional CoT, e (3) seleção abrangente baseada na qualidade do raciocínio e na consciência da dificuldade. O conjunto de dados resultante abrange problemas de STEM, quebra-cabeças visuais, jogos e diagramas complexos, com cada amostra anotada com traços de raciocínio visualmente fundamentados. Ajustamos finamente o Qwen3-VL-Instruct no MMFineReason para desenvolver as versões MMFineReason-2B/4B/8B. Os nossos modelos estabelecem novos resultados state-of-the-art para a sua classe de tamanho. Notavelmente, o MMFineReason-4B supera com sucesso o Qwen3-VL-8B-Thinking, e o MMFineReason-8B supera mesmo o Qwen3-VL-30B-A3B-Thinking enquanto se aproxima do Qwen3-VL-32B-Thinking, demonstrando uma notável eficiência de parâmetros. Crucialmente, descobrimos um fenómeno de "menos é mais" através da nossa estratégia de filtragem com consciência da dificuldade: um subconjunto de apenas 7% (123 mil amostras) atinge um desempenho comparável ao conjunto de dados completo. De forma notável, revelamos um efeito sinérgico em que a composição de dados orientada para o raciocínio impulsiona simultaneamente as capacidades gerais.
O desenvolvimento de grandes modelos de linguagem visual impulsiona a demanda pelo gerenciamento e aplicação de quantidades massivas de dados multimodais, tornando a tecnologia OCR, que extrai informações de imagens visuais, cada vez mais popular. No entanto, os métodos OCR existentes concentram-se principalmente no reconhecimento de elementos textuais a partir de imagens ou documentos digitalizados (OCR centrado em texto), negligenciando a identificação de elementos visuais a partir de fontes de imagem visualmente ricas em informação (OCR centrado em visão), como gráficos, páginas da web e ilustrações científicas. Na realidade, essas imagens visualmente densas em informação são amplamente difundidas na internet e possuem significativo valor de aplicação no mundo real, como na visualização de dados e análise de páginas web. Neste relatório técnico, propomos o OCRVerse, o primeiro método OCR holístico de forma end-to-end que permite a unificação do OCR centrado em texto e do OCR centrado em visão. Para isso, construímos uma engenharia de dados abrangente para cobrir uma ampla gama de documentos centrados em texto, como jornais, revistas e livros, bem como composições renderizadas centradas em visão, incluindo gráficos, páginas web e ilustrações científicas. Além disso, propomos um método de treinamento multi-domínio em duas etapas SFT-RL para o OCRVerse. O SFT mistura diretamente dados de múltiplos domínios para treinar e estabelecer conhecimento inicial do domínio, enquanto o RL foca em projetar estratégias de recompensa personalizadas para as características de cada domínio. Especificamente, uma vez que diferentes domínios exigem vários formatos de saída e resultados esperados, proporcionamos flexibilidade suficiente na fase de RL para personalizar sinais de recompensa flexíveis para cada domínio, melhorando assim a fusão entre domínios e evitando conflitos de dados. Resultados experimentais demonstram a eficácia do OCRVerse, alcançando resultados competitivos em tipos de dados centrados em texto e visão, comparáveis até mesmo a modelos de código aberto e proprietários em larga escala.
Os modelos de linguagem de grande escala alocam computação uniformemente em todos os tokens, ignorando que algumas sequências são trivialmente previsíveis enquanto outras exigem raciocínio profundo. Apresentamos o ConceptMoE, que funde dinamicamente tokens semanticamente semelhantes em representações conceituais, realizando uma alocação implícita de computação a nível de token. Um módulo de segmentação aprendível identifica os limites ideais medindo a similaridade inter-tokens, comprimindo as sequências por uma razão alvo R antes de entrarem no modelo conceptual computacionalmente intensivo. Crucialmente, a arquitetura MoE permite avaliação controlada: realocamos a computação poupada para igualar os FLOPs ativados da baseline (excluindo o cálculo da matriz de atenção) e o total de parâmetros, isolando os benefícios arquitetónicos genuínos. Sob estas condições, o ConceptMoE supera consistentemente o MoE padrão em tarefas de linguagem e visão-linguagem, alcançando +0,9 pontos no pré-treinamento linguístico, +2,3 pontos na compreensão de contexto longo e +0,6 pontos em benchmarks multimodais. Ao converter MoE pré-treinados durante o treino contínuo com *layer looping*, os ganhos atingem +5,5 pontos, demonstrando aplicabilidade prática. Para além do desempenho, o ConceptMoE reduz o cálculo de atenção até R² vezes e a cache KV em R vezes. Com R=2, medições empíricas mostram acelerações no preenchimento (*prefill*) até 175% e acelerações na descodificação até 117% em sequências longas. As modificações arquitetónicas mínimas permitem uma integração direta em MoE existentes, demonstrando que o processamento adaptativo a nível conceptual melhora fundamentalmente tanto a eficácia como a eficiência dos modelos de linguagem de grande escala.
Neste relatório, apresentamos a família Qwen3-ASR, que inclui dois poderosos modelos de reconhecimento de fala "all-in-one" e um novo modelo não-autorregressivo de alinhamento forçado de fala. Qwen3-ASR-1.7B e Qwen3-ASR-0.6B são modelos de ASR que suportam identificação de idioma e reconhecimento de fala para 52 idiomas e dialetos. Ambos aproveitam dados de treinamento de fala em larga escala e a forte capacidade de compreensão de áudio do seu modelo base, o Qwen3-Omni. Realizamos uma avaliação interna abrangente, além dos benchmarks de código aberto, pois os modelos de ASR podem diferir pouco nas pontuações dos benchmarks públicos, mas exibir diferenças significativas de qualidade em cenários do mundo real. Os experimentos revelam que a versão de 1.7B atinge desempenho SOTA entre os modelos de ASR de código aberto e é competitiva com as APIs proprietárias mais fortes, enquanto a versão de 0.6B oferece o melhor equilíbrio entre precisão e eficiência. O Qwen3-ASR-0.6B pode alcançar um TTFT médio tão baixo quanto 92ms e transcrever 2000 segundos de fala em 1 segundo com uma concorrência de 128. O Qwen3-ForcedAligner-0.6B é um preditor de timestamp baseado em LLM e NAR capaz de alinhar pares texto-fala em 11 idiomas. Experimentos de precisão de timestamp mostram que o modelo proposto supera os três modelos de alinhamento forçado mais fortes e apresenta mais vantagens em eficiência e versatilidade. Para acelerar ainda mais a pesquisa comunitária em ASR e compreensão de áudio, disponibilizamos estes modelos sob a licença Apache 2.0.
As abordagens atuais para reduzir capacidades indesejadas em modelos de linguagem são largamente *post hoc* e, portanto, podem ser facilmente contornadas por adversários. Uma alternativa natural é moldar as capacidades durante o próprio pré-treinamento. Na tarefa substituta de remover capacidades médicas, mostramos que a simples intervenção de filtrar os dados de pré-treinamento é altamente eficaz, robusta e de baixo custo em escala. Inspirados por trabalhos sobre atribuição de dados, mostramos que filtrar *tokens* é mais eficaz do que filtrar documentos, alcançando o mesmo impacto nas capacidades indesejadas a um custo menor para as capacidades benignas. Treinando modelos que abrangem duas ordens de magnitude, demonstramos então que a filtragem se torna mais eficaz com a escala: para os nossos maiores modelos, a filtragem de *tokens* resulta numa desaceleração computacional de 7000x no domínio a ser esquecido. Também mostramos que os modelos treinados com filtragem de *tokens* ainda podem ser alinhados no domínio a ser esquecido. Ao longo do caminho, introduzimos uma metodologia para rotular *tokens* com *autoencoders* esparsos e destilar classificadores de baixo custo e alta qualidade. Também demonstramos que a filtragem pode ser robusta a rótulos ruidosos com poder computacional de pré-treinamento suficiente.
O Aprendizado por Reforço Agêntico (Agentic RL) tem alcançado sucesso notável em capacitar agentes a realizar raciocínio complexo e uso de ferramentas. No entanto, a maioria dos métodos ainda depende de recompensas esparsas baseadas em resultados para o treinamento. Esse feedback não consegue diferenciar a qualidade do raciocínio intermediário, levando a resultados de treinamento subótimos. Neste artigo, introduzimos o Modelo de Recompensa de Raciocínio do Agente (Agent-RRM), um modelo de recompensa multifacetado que produz feedback estruturado para trajetórias agênticas, incluindo (1) um traço de raciocínio explícito, (2) uma crítica focada que fornece orientação de refinamento ao destacar falhas de raciocínio, e (3) uma pontuação geral que avalia o desempenho do processo. Aproveitando esses sinais, investigamos sistematicamente três estratégias de integração: Reagent-C (refinamento com aumento de texto), Reagent-R (orientação com aumento de recompensa) e Reagent-U (integração unificada de feedback). Avaliações extensas em 12 benchmarks diversos demonstram que o Reagent-U produz saltos substanciais de desempenho, alcançando 43,7% no GAIA e 46,2% no WebWalkerQA, validando a eficácia de nosso modelo de recompensa de raciocínio e esquemas de treinamento. Códigos, modelos e conjuntos de dados são todos liberados para facilitar pesquisas futuras.
Os repositórios públicos hospedam milhões de modelos afinados, mas o uso pela comunidade permanece desproporcionalmente concentrado em um pequeno número de *checkpoints* fundamentais. Investigamos se essa concentração reflete uma seleção eficiente de mercado ou se modelos superiores são sistematicamente negligenciados. Por meio de uma avaliação extensa de mais de 2.000 modelos, demonstramos a prevalência de "joias ocultas": modelos afinados impopulares que superam significativamente suas contrapartes populares. Notavelmente, na família Llama-3.1-8B, encontramos *checkpoints* pouco baixados que melhoram o desempenho em matemática de 83,2% para 96,0% sem aumentar os custos de inferência. No entanto, descobrir esses modelos por meio da avaliação exaustiva de cada modelo carregado é computacionalmente inviável. Portanto, formulamos a descoberta de modelos como um problema do Bandido Multiarmado e aceleramos o algoritmo de busca de Halving Sequencial usando conjuntos de consultas compartilhados e cronogramas de eliminação agressivos. Nosso método recupera os melhores modelos com apenas 50 consultas por candidato, acelerando a descoberta em mais de 50 vezes.
A reconstrução em fluxo contínuo a partir de sequências de imagens monoculares continua a ser um desafio, uma vez que os métodos existentes geralmente privilegiam ou a renderização de alta qualidade ou a geometria precisa, mas raramente ambos. Apresentamos o PLANING, uma estrutura de reconstrução eficiente e em tempo real, construída sobre uma representação híbrida que acopla de forma flexível primitivos geométricos explícitos com Gaussianas neurais, permitindo que a geometria e a aparência sejam modeladas de maneira desacoplada. Este desacoplamento suporta uma estratégia de inicialização e otimização online que separa as atualizações de geometria e aparência, produzindo uma reconstrução em fluxo estável com uma redução substancial da redundância estrutural. O PLANING melhora a métrica *Chamfer-L2* da malha densa em 18,52% em relação ao PGSR, supera o ARTDECO em 1,31 dB de PSNR e reconstrói cenas do ScanNetV2 em menos de 100 segundos, sendo mais de 5 vezes mais rápido do que o *2D Gaussian Splatting*, enquanto iguala a qualidade da otimização offline por cena. Para além da qualidade de reconstrução, a clareza estrutural e a eficiência computacional do PLANING tornam-no adequado para uma ampla gama de aplicações subsequentes, como a modelação de cenas em grande escala e a criação de ambientes prontos para simulação para IA corporizada. Página do projeto: https://city-super.github.io/PLANING/.
Os modelos de fundo de eletroencefalografia (EEG) emergiram recentemente como um paradigma promissor para interfaces cérebro-computador (BCIs), com o objetivo de aprender representações neurais transferíveis a partir de gravações heterogéneas em larga escala. Apesar dos rápidos progressos, faltam comparações justas e abrangentes dos modelos de fundo de EEG existentes, devido a objetivos de pré-treinamento inconsistentes, escolhas de pré-processamento e protocolos de avaliação a jusante. Este artigo preenche esta lacuna. Primeiro, revemos 50 modelos representativos e organizamos as suas escolhas de design numa estrutura taxonómica unificada, incluindo padronização de dados, arquiteturas de modelo e estratégias de pré-treinamento auto supervisionadas. Em seguida, avaliamos 12 modelos de fundo de código aberto e linhas de base de especialistas competitivas em 13 conjuntos de dados de EEG abrangendo nove paradigmas de BCI. Enfatizando implantações no mundo real, consideramos tanto a generalização entre sujeitos sob um protocolo leave-one-subject-out como a calibração rápida num cenário de poucos exemplos dentro do sujeito. Comparamos ainda o ajuste fino de parâmetros completos (fine-tuning) com a sonda linear (linear probing) para avaliar a capacidade de transferência das representações pré-treinadas e examinamos a relação entre a escala do modelo e o desempenho a jusante. Os nossos resultados indicam que: 1) a sonda linear é frequentemente insuficiente; 2) os modelos especialistas treinados a partir do zero permanecem competitivos em muitas tarefas; e 3) modelos de fundo maiores não necessariamente produzem melhor desempenho de generalização sob os regimes de dados atuais e práticas de treino.
A evolução dos Modelos de Linguagem de Grande Porte (LLMs) para agentes autónomos exige a gestão de contextos extensos e dinâmicos. No entanto, os benchmarks atuais permanecem maioritariamente estáticos, baseando-se em tarefas de recuperação passiva que não simulam as complexidades da interação agente-ambiente, como o raciocínio não linear e o feedback iterativo. Para colmatar esta lacuna, introduzimos o AgentLongBench, que avalia agentes através de simulações de ambiente baseadas em Puzzles de Pensamento Lateral. Esta estrutura gera trajetórias de interação rigorosas em cenários intensivos em conhecimento e livres de conhecimento. Experiências com modelos e sistemas de memória de última geração (32K a 4M de tokens) revelam uma fragilidade crítica: embora proficientes na recuperação estática, os agentes debatem-se com a síntese dinâmica de informação essencial para fluxos de trabalho. A nossa análise indica que esta degradação é impulsionada pelo número mínimo de tokens necessários para resolver uma consulta. Este fator explica por que a elevada densidade informática inerente a respostas massivas de ferramentas constitui um desafio significativamente maior do que a fragmentação de memória típica de diálogos longos.
Pesquisas recentes em geração de vídeos de longa duração migraram de modelos bidirecionais para abordagens autoregressivas, porém esses métodos frequentemente sofrem com acúmulo de erros e perda de coerência em longo prazo. Embora quadros de atenção fixa (attention sink frames) tenham sido introduzidos para mitigar essa degradação de desempenho, eles frequentemente induzem uma falha crítica que denominamos colapso de fixação (sink-collapse): o conteúdo gerado reverte repetidamente ao quadro de referência, resultando em reinícios abruptos de cena e padrões cíclicos de movimento. Nossa análise revela que o colapso de fixação origina-se de um conflito inerente entre a estrutura periódica do Rotary Position Embedding (RoPE) e os mecanismos de atenção multi-head predominantes nos modelos generativos atuais. Para resolver esse problema, propomos uma abordagem leve, livre de treinamento, que suprime efetivamente esse comportamento através da introdução de uma perturbação multi-head no RoPE (RoPE jitter), quebrando a homogeneização da atenção entre cabeças e mitigando o colapso em horizontes longos. Experimentos extensivos demonstram que nosso método alivia com sucesso o colapso de fixação enquanto preserva a qualidade da geração. Até onde sabemos, este trabalho alcança a primeira demonstração de geração de vídeo em tempo real, contínua e de duração infinita com mínima degradação de qualidade. Como ilustração dessa robustez, geramos vídeos contínuos de até 12 horas de duração, que, em nosso conhecimento, estão entre os resultados mais longos publicamente demonstrados em geração de vídeo contínuo.
Os modelos modernos baseados em difusão/fluxo para geração de imagens geralmente exibem duas características principais: (i) o uso de amostragem multi-etapas e (ii) a operação em um espaço latente. Avanços recentes têm feito progressos animadores em cada aspecto individualmente, pavimentando o caminho para a difusão/fluxo em uma única etapa sem latentes. Neste trabalho, damos um passo adiante em direção a este objetivo e propomos o "pixel MeanFlow" (pMF). Nossa diretriz central é formular o espaço de saída da rede e o espaço de perda separadamente. O alvo da rede é projetado para estar em uma variedade de imagens presumidamente de baixa dimensão (isto é, previsão-x), enquanto a perda é definida via MeanFlow no espaço de velocidade. Introduzimos uma transformação simples entre a variedade de imagens e o campo de velocidade médio. Em experimentos, o pMF alcança resultados sólidos para geração livre de latentes em uma única etapa no ImageNet com resolução de 256x256 (FID 2.22) e 512x512 (FID 2.48), preenchendo uma peça-chave ausente neste regime. Esperamos que nosso estudo avance ainda mais as fronteiras dos modelos generativos baseados em difusão/fluxo.
Embora os Modelos de Linguagem de Grande Porte (LLMs) se destaquem em tarefas agentivas baseadas em linguagem, sua aplicabilidade a ambientes não linguísticos não vistos (por exemplo, tarefas simbólicas ou espaciais) permanece limitada. Trabalhos anteriores atribuem essa lacuna de desempenho ao descompasso entre a distribuição de pré-treinamento e a distribuição de teste. Neste trabalho, demonstramos que o principal gargalo é o custo proibitivo da exploração: dominar essas tarefas requer extensivas tentativas e erros, o que é computacionalmente insustentável para LLMs com muitos parâmetros que operam em um espaço semântico de alta dimensionalidade. Para resolver isso, propomos o SCOUT (Colaboração em Subescala em Tarefas Não Vistas), uma estrutura inovadora que desacopla a exploração da exploração (exploitation). Empregamos "batedores" leves (por exemplo, pequenas MLPs) para sondar a dinâmica ambiental em uma velocidade e escala muito superiores às dos LLMs. As trajetórias coletadas são utilizadas para dar um impulso inicial (bootstrap) ao LLM via Ajuste Fino Supervisionado (SFT), seguido por Aprendizado por Reforço (RL) multi-turn para ativar seu conhecimento mundial latente. Empiricamente, o SCOUT permite que um modelo Qwen2.5-3B-Instruct atinja uma pontuação média de 0,86, superando significativamente modelos proprietários, incluindo o Gemini-2.5-Pro (0,60), enquanto economiza cerca de 60% do consumo de horas de GPU.
Garantir a segurança, veracidade e qualidade geral nas gerações de modelos de linguagem de grande porte é um desafio crítico, especialmente à medida que esses modelos são cada vez mais implantados em aplicações do mundo real. A abordagem predominante para lidar com essas questões envolve a coleta de conjuntos de dados caros e criteriosamente curados e a aplicação de múltiplos estágios de ajuste fino e alinhamento. No entanto, mesmo esse pipeline complexo não pode garantir a correção de padrões aprendidos durante o pré-treinamento. Portanto, abordar essas questões durante o pré-treinamento é crucial, pois ele molda os comportamentos centrais de um modelo e impede que saídas inseguras ou alucinadas se tornem profundamente arraigadas. Para enfrentar esse problema, introduzimos um novo método de pré-treinamento que transmite documentos em fluxo contínuo e usa aprendizado por reforço (RL) para melhorar os próximos K tokens gerados em cada etapa. Um modelo forte, pós-treinado, avalia as gerações candidatas – incluindo rollouts do modelo, o sufixo original e um sufixo reescrito – com base em qualidade, segurança e veracidade. No início do treinamento, o processo depende dos sufixos original e reescrito; à medida que o modelo melhora, o RL recompensa rollouts de alta qualidade. Essa abordagem constrói modelos de maior qualidade, mais seguros e factuais desde a base. Em experimentos, nosso método proporciona melhorias relativas de 36,2% e 18,5% em relação ao pré-treinamento padrão em termos de veracidade e segurança, e melhorias na taxa de vitória de até 86,3% na qualidade geral da geração.
A aprendizagem a partir de feedback humano normalmente depende de otimização de preferências que restringe atualizações da política por meio de regularização em nível de token. No entanto, a otimização de preferências para modelos de linguagem é particularmente desafiadora porque a similaridade no espaço de tokens não implica similaridade semântica ou comportamental. Para enfrentar esse desafio, aproveitamos a regularização no espaço latente para a otimização de preferências em modelos de linguagem. Introduzimos o GANPO, que alcança regularização no espaço latente penalizando a divergência entre as representações internas de um modelo de política e um modelo de referência. Dado que as representações latentes não estão associadas a densidades de probabilidade explícitas, adotamos uma abordagem adversarial inspirada em GANs para minimizar a divergência no espaço latente. Integramos o GANPO como um regularizador em objetivos existentes de otimização de preferências offline. Experimentos em várias arquiteturas de modelo e tarefas mostram melhorias consistentes provenientes da regularização no espaço latente. Além disso, ao comparar os vieses inferenciais induzidos pelo GANPO com aqueles da regularização em nível de token, descobrimos que o GANPO fornece feedback estrutural mais robusto sob mudança distribucional e ruído, mantendo desempenho downstream comparável com pequena sobrecarga computacional.
Apresentamos o Foundation-Sec-8B-Reasoning, o primeiro modelo de raciocínio nativo de código aberto para cibersegurança. Construído com base no nosso modelo base Foundation-Sec-8B previamente lançado (derivado do Llama-3.1-8B-Base), o modelo é treinado através de um processo de duas etapas que combina *fine-tuning* supervisionado (SFT) e aprendizado por reforço com recompensas verificáveis (RLVR). O nosso treinamento aproveita dados proprietários de raciocínio que abrangem análise de cibersegurança, seguimento de instruções e raciocínio matemático. A avaliação em 10 *benchmarks* de cibersegurança e 10 *benchmarks* de uso geral demonstra um desempenho competitivo com modelos significativamente maiores em tarefas de cibersegurança, mantendo ao mesmo tempo fortes capacidades gerais. O modelo mostra uma generalização eficaz em tarefas de raciocínio multi-etapas e um forte desempenho de segurança quando implantado com *prompts* de sistema e salvaguardas apropriados. Este trabalho demonstra que modelos de raciocínio especializados num domínio podem alcançar um desempenho sólido em tarefas especializadas, mantendo capacidades gerais abrangentes. Disponibilizamos o modelo publicamente em https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning.
O pós-treinamento por reforço (RL) é uma abordagem dominante para melhorar o desempenho de raciocínio de grandes modelos de linguagem (LLMs), no entanto, evidências crescentes sugerem que seus ganhos surgem principalmente do afiamento da distribuição, e não da aquisição de novas capacidades. Trabalhos recentes mostraram que amostrar da distribuição de potência de LLMs usando Cadeias de Markov Monte Carlo (MCMC) pode recuperar um desempenho comparável ao pós-treinamento por RL sem depender de recompensas externas; no entanto, o alto custo computacional do MCMC torna tais abordagens impraticáveis para uma adoção generalizada. Neste trabalho, propomos uma alternativa teoricamente fundamentada que elimina a necessidade do MCMC iterativo. Derivamos uma nova formulação que mostra que a distribuição de potência global pode ser aproximada por uma distribuição de baixa temperatura escalonada a nível de token, onde o fator de escala captura a qualidade da trajetória futura. Aproveitando esta perceção, introduzimos um algoritmo livre de treino e de verificador que afia a distribuição generativa do modelo base de forma autorregressiva. Empiricamente, avaliamos o nosso método em tarefas de matemática, Q&A e código em quatro LLMs, e mostramos que o nosso método iguala ou supera o GRPO de uma única tentativa sem depender de quaisquer recompensas externas, enquanto reduz a latência de inferência em mais de 10x em comparação com a amostragem baseada em MCMC.
As arquiteturas Transformer Híbridas, que combinam blocos de atenção softmax e redes neurais recorrentes (RNNs), têm demonstrado um equilíbrio desejável entre desempenho e taxa de transferência para modelagem de contexto longo. No entanto, sua adoção e estudos são dificultados pelo custo proibitivo do pré-treinamento em larga escala a partir do zero. Alguns estudos recentes mostraram que blocos de atenção softmax pré-treinados podem ser convertidos em blocos RNN por meio de transferência de parâmetros e destilação de conhecimento. Contudo, esses métodos de transferência exigem volumes substanciais de dados de treinamento (mais de 10 bilhões de tokens), e os modelos híbridos resultantes também apresentam desempenho inferior em contexto longo – justamente o cenário em que os modelos híbridos possuem acelerações significativas de inferência em comparação com modelos baseados em Transformer. Neste artigo, apresentamos o HALO (Hybrid Attention via Layer Optimization), um *pipeline* para destilar modelos Transformer em modelos híbridos de atenção-RNN. Em seguida, apresentamos o HypeNet, uma arquitetura híbrida com generalização de comprimento superior, possibilitada por um novo esquema de codificação posicional (denominado HyPE) e várias modificações arquiteturais. Convertemos a série Qwen3 em HypeNet usando o HALO, alcançando desempenho comparável aos modelos Transformer originais, ao mesmo tempo que usufruímos de desempenho e eficiência superiores em contexto longo. A conversão requer apenas 2,3 bilhões de tokens, menos de 0,01% dos seus dados de pré-treinamento.
Os modelos de linguagem de grande escala (LLMs) progrediram rapidamente; no entanto, a maioria dos modelos de última geração são treinados e avaliados principalmente em idiomas de alto recurso, como inglês e chinês, e são frequentemente desenvolvidos por um pequeno número de organizações com acesso a computação e dados em larga escala. Esta restrição cria uma barreira prática para contextos soberanos, nos quais uma instituição em escala regional ou nacional ou um proprietário de domínio deve manter o controle e a compreensão dos pesos do modelo, dos dados de treinamento e da implantação, enquanto opera com recursos limitados e sob rigorosas restrições de transparência. Para esse fim, identificamos dois requisitos centrais: (1) adotabilidade, a capacidade de transformar um modelo base em um assistente de propósito geral, e (2) capacidade soberana, a capacidade de executar tarefas de alto risco e específicas da região (por exemplo, raciocínio jurídico em idiomas locais e conhecimento cultural). Investigamos se esses requisitos podem ser alcançados sem dimensionar corpora de instruções massivas ou depender de pipelines complexos de ajuste de preferência e de ajuste fino por reforço em larga escala (RFT). Apresentamos o Typhoon S, uma receita de pós-treinamento mínima e aberta que combina ajuste fino supervisionado, destilação on-policy e RFT em pequena escala. Usando o tailandês como um estudo de caso representativo, demonstramos que nossa abordagem transforma tanto modelos base adaptados para soberania quanto modelos de propósito geral em modelos ajustados por instrução com forte desempenho geral. Mostramos ainda que o RFT em pequena escala com InK-GRPO – uma extensão do GRPO que aumenta a perda do GRPO com uma perda de previsão da próxima palavra – melhora o raciocínio jurídico em tailandês e o conhecimento específico do tailandês, preservando as capacidades gerais. Nossos resultados sugerem que uma estratégia de pós-treinamento cuidadosamente projetada pode reduzir a escala necessária de dados de instrução e computação, fornecendo um caminho prático para LLMs soberanos de alta qualidade com recursos em escala acadêmica.
Devido à escassez de dados supervisionados para treinamento, os grandes modelos de linguagem (LLMs) são normalmente pré-treinados por meio de um objetivo auto supervisionado de "prever a próxima palavra" em uma vasta quantidade de dados de texto não estruturados. Para tornar o modelo resultante útil aos usuários, ele é posteriormente treinado com uma quantidade muito menor de dados de "ajuste por instrução", compostos por exemplos de treinamento supervisionado de instruções e respostas. Para superar a quantidade limitada de dados supervisionados, propomos um procedimento que pode transformar o conhecimento contido em documentos de pré-treinamento em escala da internet em bilhões de pares de treinamento sintéticos de instrução e resposta. O conjunto de dados resultante, denominado FineInstructions, utiliza aproximadamente 18 milhões de modelos de instrução criados a partir de consultas e *prompts* escritos por usuários reais. Esses modelos de instrução são combinados e instanciados com documentos-fonte escritos por humanos, provenientes de corpora de pré-treinamento não estruturados. Com dados de treinamento sintéticos "supervisionados" gerados nessa escala, um LLM pode ser pré-treinado do zero apenas com o objetivo de ajuste por instrução, que está muito mais alinhado com a distribuição esperada do uso subsequente dos LLMs (responder a *prompts* do usuário). Realizamos experimentos controlados de treinamento token por token e descobrimos que o pré-treinamento com FineInstructions supera o pré-treinamento padrão e outras técnicas de pré-treinamento sintético propostas em *benchmarks* padrão que medem a qualidade de respostas em formato livre. Nossos recursos podem ser encontrados em https://huggingface.co/fineinstructions.
Apresentamos o DeepSearchQA, um benchmark de 900 instruções para avaliação de agentes em tarefas complexas e multiestapas de busca de informação em 17 áreas distintas. Diferentemente de benchmarks tradicionais focados na recuperação de respostas únicas ou na factualidade de amplo espectro, o DeepSearchQA apresenta um conjunto de tarefas desafiadoras, elaboradas manualmente para avaliar a capacidade de um agente executar planos de busca complexos e gerar listas de respostas exaustivas. Essa mudança de design testa explicitamente três capacidades críticas e subavaliadas: 1) a colação sistemática de informações fragmentadas de fontes diversas, 2) a desduplicação e resolução de entidades para garantir precisão, e 3) a capacidade de raciocinar sobre critérios de parada em um espaço de busca aberto. Cada tarefa é estruturada como uma cadeia causal, na qual a descoberta de informação em uma etapa depende da conclusão bem-sucedida da anterior, exigindo planejamento de longo horizonte e retenção de contexto. Todas as tarefas estão ancoradas na web aberta, com conjuntos de respostas objetivamente verificáveis. Nossa avaliação abrangente de arquiteturas de agentes state-of-the-art revela limitações significativas de desempenho: mesmo os modelos mais avançados lutam para equilibrar alta recuperação com precisão. Observamos modos de falha distintos, que vão desde paradas prematuras (sub-recuperação) até comportamentos de precaução, nos quais os agentes lançam uma rede excessivamente ampla de respostas com baixa confiança para aumentar artificialmente a recuperação. Esses achados destacam uma margem crítica de melhoria nos designs atuais de agentes e posicionam o DeepSearchQA como uma ferramenta de diagnóstico essencial para impulsionar pesquisas futuras rumo a capacidades de pesquisa profunda mais robustas.
Com o objectivo de alcançar um raciocínio de cadeia de pensamento (CoT) eficiente e denso, os métodos de raciocínio latente afinam modelos de linguagem de grande escala (LLMs) para substituir tokens linguísticos discretos por tokens latentes contínuos. Estes métodos consomem menos tokens em comparação com o raciocínio CoT linguístico convencional e têm o potencial de planear num espaço latente denso. No entanto, os tokens latentes atuais são geralmente supervisionados com base na imitação de etiquetas linguísticas. Considerando que pode haver múltiplas etiquetas CoT equivalentes mas diversas para uma pergunta, a imitação passiva de uma arbitrária pode levar a representações de tokens latentes e políticas de raciocínio latente inferiores, prejudicando a capacidade de planeamento potencial e resultando em lacunas claras entre o treino e o teste. Neste trabalho, enfatizamos a importância de um planeamento ativo sobre o espaço de representação dos tokens latentes para alcançar a política de raciocínio latente ótima. Assim, propomos o método de Planeamento Latente Ativo (ATP-Latent), que modela o processo de supervisão dos tokens latentes como um auto-codificador variacional (VAE) condicional para obter um espaço latente mais suave. Adicionalmente, para facilitar a política de raciocínio latente mais razoável, o ATP-Latent realiza aprendizagem por reforço (RL) com uma recompensa de coerência auxiliar, que é calculada com base na consistência entre os conteúdos descodificados pelo VAE dos tokens latentes, permitindo um processo de RL guiado. Em experiências com o LLaMA-1B, o ATP-Latent demonstra +4,1% de precisão e -3,3% de tokens em quatro benchmarks em comparação com linhas de base avançadas. Os códigos estão disponíveis em https://github.com/zz1358m/ATP-Latent-master.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) sofrem de alucinações cruzadas entre modalidades, nas quais uma modalidade influencia inapropriadamente a geração de conteúdo sobre outra, resultando em saídas fabricadas. Isso expõe uma deficiência mais fundamental no controle da intermodalidade. Para resolver isso, propomos a Decodagem Adaptativa de Modalidade (MAD), um método livre de treinamento que pondera adaptativamente ramos de decodagem específicos por modalidade com base nos requisitos da tarefa. O MAD aproveita a capacidade inerente do modelo de autoavaliar a relevância da modalidade consultando quais modalidades são necessárias para cada tarefa. As probabilidades de modalidade extraídas são então usadas para ponderar adaptativamente os ramos de decodagem contrastiva, permitindo que o modelo se concentre em informações relevantes enquanto suprime a interferência intermodal. Experimentos extensivos no CMM e AVHBench demonstram que o MAD reduz significativamente as alucinações cruzadas entre modalidades em vários modelos de linguagem audiovisual (melhorias de 7,8% e 2,0% para VideoLLaMA2-AV, 8,7% e 4,7% para Qwen2.5-Omni). Nossa abordagem demonstra que a consciência explícita da modalidade por meio da autoavaliação é crucial para o raciocínio multimodal robusto, oferecendo uma extensão fundamentada aos métodos existentes de decodagem contrastiva. Nosso código está disponível em https://github.com/top-yun/MAD.
Os Modelos de Fundação Audiovisuais, pré-treinados para gerar conjuntamente som e conteúdo visual, demonstraram recentemente uma capacidade sem precedentes para modelar geração e edição multimodal, abrindo novas oportunidades para tarefas subsequentes. Entre essas tarefas, a dublagem de vídeos poderia se beneficiar muito desses conhecimentos prévios, porém a maioria das soluções existentes ainda depende de pipelines complexos e específicos para cada tarefa, que enfrentam dificuldades em cenários do mundo real. Neste trabalho, introduzimos uma abordagem de modelo único que adapta um modelo de difusão áudio-vídeo fundamental para dublagem vídeo-a-vídeo por meio de um LoRA leve. O LoRA permite que o modelo se condicione em um áudio-vídeo de entrada enquanto gera conjuntamente áudio traduzido e movimento facial sincronizado. Para treinar este LoRA, aproveitamos o próprio modelo generativo para sintetizar vídeos multilíngues pareados do mesmo locutor. Especificamente, geramos vídeos multilíngues com trocas de idioma dentro de um único clipe e, em seguida, reconstituímos o rosto e o áudio em cada metade para corresponder ao idioma da outra metade. Ao aproveitar a riqueza do conhecimento prévio generativo do modelo audiovisual, nossa abordagem preserva a identidade do locutor e a sincronização labial, mantendo-se robusta para movimentos complexos e dinâmicas do mundo real. Demonstramos que nossa abordagem produz vídeos dublados de alta qualidade com fidelidade visual aprimorada, sincronização labial e robustez superiores em comparação com os pipelines de dublagem existentes.
O raciocínio de contexto longo tem capacitado significativamente os grandes modelos de linguagem (LLMs) para lidar com tarefas complexas, mas introduz sérios gargalos de eficiência devido à complexidade computacional. As abordagens eficientes existentes frequentemente dependem de treinamento adicional complexo ou de modelos externos para compressão, o que limita a escalabilidade e descarta informações refinadas críticas. Neste artigo, propomos o VTC-R1, um novo paradigma de raciocínio eficiente que integra a compressão visão-texto no processo de raciocínio. Em vez de processar longos traços textuais, o VTC-R1 converte segmentos intermediários de raciocínio em imagens compactas, que são iterativamente reinseridas em modelos de linguagem visual como "memória óptica". Construímos um conjunto de dados de treinamento baseado no OpenR1-Math-220K, alcançando uma compressão de 3,4x em tokens, e ajustamos finamente VLMs representativos - Glyph e Qwen3-VL. Experimentos extensivos em benchmarks como MATH500, AIME25, AMC23 e GPQA-D demonstram que o VTC-R1 supera consistentemente o raciocínio padrão de contexto longo. Além disso, nossa abordagem melhora significativamente a eficiência inferencial, alcançando uma aceleração de 2,7x na latência de ponta a ponta, destacando seu potencial como uma solução escalável para aplicações intensivas em raciocínio. Nosso código está disponível em https://github.com/w-yibo/VTC-R1.
O sucesso das Hiperconexões (HC) em redes neurais (RN) também destacou problemas relacionados à sua instabilidade no treinamento e escalabilidade limitada. As Hiperconexões com Restrição de Variedade (mHC) mitigam esses desafios projetando o espaço de conexão residual em um politopo de Birkhoff. No entanto, esta abordagem enfrenta dois problemas: 1) o seu algoritmo iterativo de Sinkhorn-Knopp (SK) nem sempre produz matrizes residuais duplamente estocásticas exatas; 2) a mHC incorre numa complexidade de parâmetros proibitiva de O(n³C), onde n é a largura do fluxo residual e C é a dimensão da característica. A recentemente proposta mHC-lite reparametriza a matriz residual via o teorema de Birkhoff-von Neumann para garantir a dupla estocasticidade, mas também enfrenta uma explosão fatorial na sua complexidade de parâmetros, O( nC · n! ). Para abordar ambos os desafios, propomos o KromHC, que usa os produtos de Kronecker de matrizes duplamente estocásticas menores para parametrizar a matriz residual na mHC. Ao impor restrições de variedade nas matrizes residuais fatoriais ao longo de cada modo do fluxo residual tensorizado, o KromHC garante a dupla estocasticidade exata das matrizes residuais enquanto reduz a complexidade de parâmetros para O(n²C). Experimentos abrangentes demonstram que o KromHC iguala ou mesmo supera as variantes de mHC state-of-the-art (SOTA), exigindo significativamente menos parâmetros treináveis. O código está disponível em https://github.com/wz1119/KromHC.
A quantização melhorou significativamente a eficiência computacional e de memória no treinamento de Grandes Modelos de Linguagem (LLMs). No entanto, as abordagens existentes ainda dependem da acumulação das suas atualizações em alta precisão: concretamente, as atualizações de gradiente devem ser aplicadas a um *buffer* de pesos de alta precisão, conhecidos como *master weights* (pesos mestres). Este *buffer* introduz uma sobrecarga substancial de memória, particularmente para modelos *Sparse Mixture of Experts* (SMoE - Mistura Esparsa de Especialistas), onde os parâmetros do modelo e os estados do otimizador dominam o uso de memória. Para resolver isto, introduzimos o *Error-Compensating Optimizer* (ECO - Otimizador com Compensação de Erro), que elimina os pesos mestres aplicando as atualizações diretamente aos parâmetros quantizados. O ECO quantiza os pesos após cada passo e injeta cuidadosamente o erro de quantização resultante no *momentum* do otimizador, formando um ciclo de retroalimentação de erro sem memória adicional. Provamos que, sob premissas padrão e uma taxa de aprendizagem decrescente, o ECO converge para uma vizinhança de raio constante do ótimo, enquanto a remoção ingênua dos pesos mestres pode incorrer num erro que é inversamente proporcional à taxa de aprendizagem. Apresentamos resultados empíricos para o pré-treino de pequenos *Transformers* (30-800M), um modelo Gemma-3 1B e um modelo SMoE de 2.1B de parâmetros com quantização FP8, e para o *fine-tuning* do DeepSeek-MoE-16B em precisão INT4. Em todos os casos, o ECO equipara-se às linhas de base que utilizam pesos mestres com uma precisão quase sem perdas, deslocando significativamente a fronteira de Pareto entre a memória estática e a perda de validação.
A escala tem impulsionado avanços recentes em modelos de fundação visuais, mas estender esse paradigma à estimativa métrica de profundidade permanece desafiador devido ao ruído heterogêneo de sensores, vieses dependentes da câmera e ambiguidade métrica em dados 3D multissource ruidosos. Apresentamos o Metric Anything, uma estrutura de pré-treinamento simples e escalável que aprende profundidade métrica a partir de fontes 3D diversas e ruidosas, sem *prompts* manualmente elaborados, modelagem específica da câmera ou arquiteturas específicas para tarefas. Central para nossa abordagem é o *Sparse Metric Prompt*, criado pela mascaramento aleatório de mapas de profundidade, que serve como uma interface universal que desacopla o raciocínio espacial dos vieses do sensor e da câmera. Usando cerca de 20 milhões de pares imagem-profundidade abrangendo dados 3D reconstruídos, capturados e renderizados de 10.000 modelos de câmera, demonstramos – pela primeira vez – uma tendência clara de escala na área de profundidade métrica. O modelo pré-treinado se destaca em tarefas orientadas por *prompts*, como preenchimento de profundidade, super-resolução e fusão Radar-câmera, enquanto seu estudante sem *prompt* destilado alcança resultados state-of-the-art em estimativa de profundidade monocular, recuperação de intrínsecos da câmera, reconstrução 3D métrica com visão única/múltipla e planejamento VLA. Também mostramos que usar um ViT pré-treinado do Metric Anything como codificador visual aumenta significativamente as capacidades de Modelos de Linguagem Multimodais de Grande Escala em inteligência espacial. Esses resultados mostram que a estimativa métrica de profundidade pode se beneficiar das mesmas leis de escala que impulsionam os modelos de fundação modernos, estabelecendo um novo caminho para a percepção métrica escalável e eficiente no mundo real. Disponibilizamos o MetricAnything como código aberto em http://metric-anything.github.io/metric-anything-io/ para apoiar a pesquisa comunitária.
Os Modelos Multimodais Unificados (UMMs) integram a compreensão e a geração visual num único quadro. A sua aspiração final é criar um ciclo em que a compreensão e a geração se reforçam mutuamente. Embora métodos recentes de pós-treinamento tenham utilizado com sucesso a compreensão para melhorar a geração, a direção inversa de utilizar a geração para melhorar a compreensão permanece largamente inexplorada. Neste trabalho, propomos o UniMRG (Geração Unificada de Múltiplas Representações), um método de pós-treinamento simples mas eficaz, independente da arquitetura. O UniMRG melhora as capacidades de compreensão dos UMMs através da incorporação de tarefas auxiliares de geração. Especificamente, treinamos os UMMs para gerar múltiplas representações intrínsecas de imagens de entrada, nomeadamente pixels (reconstrução), profundidade (geometria) e segmentação (estrutura), em conjunto com os objetivos padrão de compreensão visual. Ao sintetizar estas diversas representações, os UMMs capturam informação complementar sobre a aparência, as relações espaciais e o layout estrutural. Consequentemente, os UMMs desenvolvem uma compreensão mais profunda e abrangente dos inputs visuais. Experiências extensas em diversas arquiteturas de UMMs demonstram que o nosso método melhora notavelmente a perceção de detalhe fino, reduz alucinações e melhora a compreensão espacial, enquanto simultaneamente impulsiona as capacidades de geração.
Agentes baseados em modelos de linguagem que operam em horizontes interativos prolongados enfrentam desafios persistentes na preservação de informações temporalmente fundamentadas e na manutenção da consistência comportamental entre sessões, uma falha que denominamos erosão da alma. Apresentamos o BMAM (Memória Multi-Agente de Inspiração Cerebral), uma arquitetura de memória de propósito geral que modela a memória do agente como um conjunto de subsistemas funcionalmente especializados, em vez de um único armazenamento não estruturado. Inspirado pelos sistemas de memória cognitiva, o BMAM decompõe a memória em componentes episódicos, semânticos, conscientes da saliência e orientados ao controle, que operam em escalas de tempo complementares. Para suportar o raciocínio de longo horizonte, o BMAM organiza as memórias episódicas ao longo de linhas do tempo explícitas e recupera evidências fundindo múltiplos sinais complementares. Experimentos no benchmark LoCoMo mostram que o BMAM atinge 78,45% de precisão na configuração padrão de avaliação de longo horizonte, e análises de ablação confirmam que o subsistema de memória episódica inspirado no hipocampo desempenha um papel crítico no raciocínio temporal.
Propomos o FROST, um método consciente da atenção (*attention-aware*) para raciocínio eficiente. Diferente das abordagens tradicionais, o FROST aproveita os pesos de atenção para podar caminhos de raciocínio não críticos, resultando em trajetórias de raciocínio mais curtas e confiáveis. Metodologicamente, introduzimos o conceito de *outliers* de raciocínio e projetamos um mecanismo baseado em atenção para removê-los. Teoricamente, o FROST preserva e amplia a capacidade de raciocínio do modelo, ao mesmo tempo que elimina *outliers* ao nível da sentença. Empiricamente, validamos o FROST em quatro *benchmarks* utilizando dois modelos de raciocínio robustos (Phi-4-Reasoning e GPT-OSS-20B), superando métodos state-of-the-art como TALE e ThinkLess. Notavelmente, o FROST alcança uma redução média de 69,68% no uso de *tokens* e uma melhoria de 26,70% na precisão em relação ao modelo base. Adicionalmente, em avaliações de métricas de *outliers* de atenção, o FROST reduz a norma do infinito máxima em 15,97% e a curtose média em 91,09% comparado ao modelo base. O código está disponível em https://github.com/robinzixuan/FROST.
Embora a Interpretabilidade Mecanicista tenha identificado circuitos interpretáveis em LLMs, as suas origens causais nos dados de treinamento permanecem elusivas. Apresentamos a Atribuição de Dados Mecanicista (MDA), uma estrutura escalável que emprega Funções de Influência para rastrear unidades interpretáveis até amostras específicas de treinamento. Através de extensos experimentos na família Pythia, validamos causalmente que a intervenção direcionada – remover ou aumentar uma pequena fração de amostras de alta influência – modula significativamente a emergência de cabeças interpretáveis, enquanto intervenções aleatórias não mostram efeito. Nossa análise revela que dados estruturais repetitivos (por exemplo, LaTeX, XML) atuam como um catalisador mecanicista. Adicionalmente, observamos que intervenções que visam a formação de cabeças de indução induzem uma mudança concorrente na capacidade de aprendizado em contexto (ICL) do modelo. Isto fornece evidência causal direta para a hipótese de longa data sobre a ligação funcional entre cabeças de indução e ICL. Finalmente, propomos um pipeline de aumento de dados mecanicista que acelera consistentemente a convergência do circuito através de escalas de modelo, fornecendo uma metodologia fundamentada para direcionar as trajetórias de desenvolvimento dos LLMs.
A maioria dos métodos de aprendizagem por reforço (RL) para treinar grandes modelos de linguagem (LLMs) requer rótulos de verdade fundamental (ground-truth) ou verificadores específicos para cada tarefa, limitando a escalabilidade quando a correção é ambígua ou cara de se obter. Introduzimos a Aprendizagem por Reforço a partir de Meta-Avaliação (RLME), que otimiza um gerador usando recompensas derivadas das respostas de um avaliador a metaquestões em linguagem natural (por exemplo, "A resposta está correta?" ou "O raciocínio é logicamente consistente?"). O RLME trata a probabilidade de um julgamento positivo por parte do avaliador como uma recompensa e atualiza o gerador via otimização de política relativa ao grupo, permitindo o aprendizado sem rótulos. Em uma série de experimentos, mostramos que o RLME alcança precisão e eficiência amostral comparáveis ao treinamento baseado em rótulos, permite trade-offs controláveis entre múltiplos objetivos, direciona os modelos para padrões de raciocínio confiáveis em vez de racionalização post-hoc, e generaliza para configurações de domínio aberto onde rótulos de verdade fundamental não estão disponíveis, ampliando os domínios nos quais os LLMs podem ser treinados com RL.
A descoberta de estruturas extremais em matemática requer a navegação em paisagens vastas e não convexas, onde os métodos analíticos oferecem pouca orientação e a busca por força bruta torna-se intratável. Apresentamos o FlowBoost, uma estrutura gerativa de ciclo fechado que aprende a descobrir estruturas geométricas raras e extremais combinando três componentes: (i) um modelo de *flow-matching* condicional com consciência geométrica que aprende a amostrar configurações de alta qualidade, (ii) uma otimização de política guiada por recompensa com exploração de ação que otimiza diretamente o processo de geração em direção ao objetivo, mantendo a diversidade, e (iii) uma busca local estocástica para a geração de dados de treinamento e para o refinamento final. Diferentemente de abordagens anteriores de ciclo aberto, como o PatternBoost, que retreina com amostras discretas filtradas, ou o AlphaEvolve, que depende de Modelos de Linguagem de Grande Porte (LLMs) congelados como operadores de mutação evolutiva, o FlowBoost impõe a viabilidade geométrica durante a amostragem e propaga o sinal de recompensa diretamente no modelo gerativo, fechando o ciclo de otimização e exigindo conjuntos de treinamento muito menores e tempos de treinamento mais curtos, reduzindo as iterações do loop externo em ordens de grandeza, ao mesmo tempo que elimina a dependência de LLMs. Demonstramos a estrutura em quatro problemas de otimização geométrica: empacotamento de esferas em hipercubos, empacotamento de círculos que maximiza a soma dos raios, o problema do triângulo de Heilbronn e a minimização da discrepância estelar. Em vários casos, o FlowBoost descobre configurações que igualam ou superam os melhores resultados conhecidos. Para empacotamentos de círculos, melhoramos os melhores limites inferiores conhecidos, superando o sistema baseado em LLM AlphaEvolve enquanto utilizamos recursos computacionalmente substancialmente menores.
Os recentes avanços na aprendizagem por reforço para geração de código tornaram ambientes robustos essenciais para prevenir a manipulação de recompensas. À medida que os LLMs atuam cada vez mais como avaliadores no RL baseado em código, a sua capacidade de detetar a manipulação de recompensas permanece pouco estudada. Neste artigo, propomos uma nova taxonomia de explorações de recompensa abrangendo 54 categorias e introduzimos o TRACE (Testing Reward Anomalies in Code Environments), um benchmark sinteticamente curado e verificado por humanos, contendo 517 trajetórias de teste. Ao contrário de trabalhos anteriores que avaliam a deteção de manipulação de recompensas em cenários de classificação isolados, contrastamos essas avaliações com uma configuração mais realista de deteção de anomalias contrastivas no TRACE. As nossas experiências revelam que os modelos capturam manipulações de recompensa de forma mais eficaz em configurações contrastivas do que em configurações de classificação isoladas, com o GPT-5.2 no modo de raciocínio mais elevado a alcançar a melhor taxa de deteção em 63%, um aumento face aos 45% em configurações isoladas no TRACE. Com base nesta perceção, demonstramos que os modelos de última geração têm significativamente mais dificuldade com manipulações de recompensa semanticamente contextualizadas em comparação com as sintaticamente contextualizadas. Realizamos ainda análises qualitativas dos comportamentos dos modelos, bem como estudos de ablação que mostram que a proporção de trajetórias benignas para manipuladas e os tamanhos dos clusters de análise impactam substancialmente o desempenho da deteção. Disponibilizamos o benchmark e o conjunto de avaliação para permitir que a comunidade expanda o TRACE e avalie os seus modelos.
A impressão digital de áudio fornece uma representação identificável de sinais acústicos, que pode posteriormente ser utilizada em sistemas de identificação e recuperação. Para obter uma representação discriminativa, o áudio de entrada é geralmente segmentado em intervalos de tempo mais curtos, permitindo que características acústicas locais sejam extraídas e analisadas. As abordagens neurais modernas normalmente operam em segmentos de áudio curtos e de duração fixa, contudo, a escolha da duração do segmento é frequentemente feita de forma heurística e raramente examinada em profundidade. Neste artigo, estudamos como o comprimento do segmento afeta o desempenho da impressão digital de áudio. Estendemos uma arquitetura neural de impressão digital existente para adotar vários comprimentos de segmento e avaliamos a precisão da recuperação em diferentes comprimentos de segmento e durações de consulta. Nossos resultados mostram que comprimentos de segmento curtos (0,5 segundos) geralmente alcançam melhor desempenho. Além disso, avaliamos a capacidade de LLMs em recomendar o melhor comprimento de segmento, o que demonstra que o GPT-5-mini fornece consistentemente as melhores sugestões entre cinco considerações, entre três LLMs estudados. Nossas descobertas fornecem orientação prática para a seleção da duração do segmento em sistemas neurais de recuperação de áudio em larga escala.
O design gráfico frequentemente envolve explorar diferentes direções estilísticas, o que pode ser demorado para não especialistas. Abordamos este problema de melhorar estilisticamente designs com base em instruções de linguagem natural. Embora os Modelos de Linguagem Visual (VLMs) tenham demonstrado sucesso inicial em design gráfico, seu conhecimento pré-treinado sobre estilos é frequentemente muito genérico e desalinhado com dados específicos do domínio. Por exemplo, os VLMs podem associar minimalismo a designs abstratos, enquanto os designers enfatizam escolhas de forma e cor. Nossa principal percepção é aproveitar dados de design – uma coleção de designs do mundo real que capturam implicitamente os princípios dos designers – para aprender conhecimento de design e orientar a melhoria estilística. Propomos o PRISM (Modificação Estilística Informada por Prior – PRior-Informed Stylistic Modification) que constrói e aplica uma base de conhecimento de design através de três etapas: (1) agrupamento de designs de alta variância para capturar a diversidade dentro de um estilo, (2) sumarização de cada aglomerado em conhecimento de design acionável, e (3) recuperação de conhecimento relevante durante a inferência para permitir uma melhoria consciente do estilo. Experimentos no conjunto de dados Crello mostram que o PRISM alcança a classificação média mais alta de 1.49 (mais próximo de 1 é melhor) em relação às linhas de base no alinhamento de estilo. Estudos com usuários validam ainda mais esses resultados, mostrando que o PRISM é consistentemente preferido pelos designers.
Os agentes web possuem grande potencial para automatizar tarefas complexas em computadores, mas suas interações envolvem tomadas de decisão sequenciais de longo prazo com ações irreversíveis. Nesses contextos, a supervisão baseada em resultados é esparsa e tardia, frequentemente premiando trajetórias incorretas e falhando em suportar a escalabilidade durante a inferência. Isso motiva o uso de Modelos de Recompensa de Processo (WebPRMs) para navegação web, mas as abordagens existentes permanecem limitadas: os WebPRMs escalares condensam o progresso em sinais grosseiros e pouco fundamentados, enquanto os WebPRMs baseados em listas de verificação dependem de correspondência de templates frágil que falha com mudanças de layout ou semânticas e frequentemente rotula ações superficialmente corretas como bem-sucedidas, oferecendo pouca percepção ou interpretabilidade. Para enfrentar esses desafios, apresentamos o WebArbiter, um WebPRM que prioriza o raciocínio e induz princípios, formulando a modelagem de recompensa como geração de texto, produzindo justificativas estruturadas que concluem com um veredito de preferência e identificam a ação mais condutiva para a conclusão da tarefa no contexto atual. O treinamento segue um *pipeline* de dois estágios: a destilação de raciocínio equipa o modelo com um raciocínio coerente guiado por princípios, e o aprendizado por reforço corrige vieses do professor alinhando diretamente os vereditos com a correção, permitindo uma generalização mais robusta. Para apoiar uma avaliação sistemática, lançamos o WebPRMBench, um benchmark abrangente abrangendo quatro ambientes web diversos com tarefas ricas e anotações de preferência de alta qualidade. No WebPRMBench, o WebArbiter-7B supera a linha de base mais forte, o GPT-5, em 9.1 pontos. Na busca de trajetória guiada por recompensa no WebArena-Lite, ele supera o melhor WebPRM anterior em até 7.2 pontos, destacando sua robustez e valor prático em tarefas web complexas do mundo real.
A capacidade de generalização das políticas de manipulação robótica é fortemente influenciada pela escolha das representações visuais. As abordagens existentes geralmente dependem de representações extraídas de codificadores pré-treinados, utilizando dois tipos dominantes de características: características globais, que resumem uma imagem inteira através de um único vetor agregado, e características densas, que preservam um *embedding* segmentado da camada final do codificador. Embora amplamente utilizados, ambos os tipos de características misturam informações relevantes e irrelevantes para a tarefa, resultando em uma fraca generalização sob mudanças de distribuição, como alterações na iluminação, texturas ou a presença de elementos de distração. Neste trabalho, exploramos uma alternativa estruturada intermediária: Representações Baseadas em *Slots* com Abordagem Centrada no Objeto (SBOCR), que agrupam características densas em um conjunto finito de entidades semelhantes a objetos. Esta representação permite reduzir naturalmente o ruído fornecido à política de manipulação robótica, mantendo informações suficientes para executar a tarefa com eficiência. Avaliamos uma variedade de representações globais e densas em comparação com representações intermediárias baseadas em *slots*, através de uma série de tarefas de manipulação simuladas e do mundo real, variando de simples a complexas. Avaliamos a sua generalização sob diversas condições visuais, incluindo mudanças na iluminação, textura e presença de elementos de distração. As nossas conclusões revelam que as políticas baseadas em SBOCR superam as políticas baseadas em representações densas e globais em cenários de generalização, mesmo sem pré-treinamento específico para a tarefa. Esses insights sugerem que a SBOCR é uma direção promissora para projetar sistemas visuais que generalizam de forma eficaz em ambientes robóticos dinâmicos do mundo real.
Os recentes avanços em modelos fundamentais generativos, frequentemente denominados "modelos de mundo", têm impulsionado o interesse em sua aplicação em tarefas críticas, como o planejamento robótico e o treinamento de sistemas autónomos. Para uma implantação confiável, estes modelos devem exibir alta fidelidade física, simulando com precisão a dinâmica do mundo real. No entanto, os benchmarks de vídeo baseados em física existentes sofrem de entrelaçamento, onde um único teste avalia simultaneamente múltiplas leis e conceitos físicos, limitando fundamentalmente sua capacidade de diagnóstico. Apresentamos o WorldBench, um novo benchmark baseado em vídeo especificamente concebido para uma avaliação desentrelaçada e específica por conceito, permitindo-nos isolar e avaliar rigorosamente a compreensão de um único conceito ou lei física de cada vez. Para tornar o WorldBench abrangente, concebemos benchmarks em dois níveis diferentes: 1) uma avaliação da compreensão física intuitiva com conceitos como a permanência do objeto ou escala/perspetiva, e 2) uma avaliação de constantes físicas de baixo nível e propriedades dos materiais, como coeficientes de atrito ou viscosidade dos fluidos. Quando os modelos de mundo baseados em vídeo de última geração (SOTA) são avaliados no WorldBench, encontramos padrões específicos de falha em conceitos físicos particulares, com todos os modelos testados a carecer da consistência física necessária para gerar interações confiáveis no mundo real. Através da sua avaliação específica por conceito, o WorldBench oferece um quadro mais matizado e escalável para avaliar rigorosamente as capacidades de raciocínio físico da geração de vídeo e dos modelos de mundo, pavimentando o caminho para uma aprendizagem orientada por modelos de mundo mais robusta e generalizável.
Os modelos visuais de base fornecem características perceptivas robustas para a robótica, mas as suas representações densas carecem de estrutura explícita ao nível do objeto, limitando a robustez e a contratilidade em tarefas de manipulação. Propomos o STORM (Representação de Objetos Centrada no Utilizador Baseada em Slots para Manipulação Robótica), um módulo de adaptação leve e centrado no objeto que aumenta os modelos visuais de base congelados com um pequeno conjunto de slots semânticos para manipulação robótica. Em vez de retreinar grandes *backbones*, o STORM emprega uma estratégia de treino multifásica: os slots centrados no objeto são primeiro estabilizados através de pré-treino visual--semântico usando incorporações linguísticas, sendo depois adaptados em conjunto com uma política de manipulação a jusante. Esta aprendizagem em fases evita a formação degenerada de slots e preserva a consistência semântica, alinhando simultaneamente a perceção com os objetivos da tarefa. Experiências em benchmarks de descoberta de objetos e tarefas de manipulação simuladas mostram que o STORM melhora a generalização a distratores visuais e o desempenho de controlo, em comparação com a utilização direta de características de modelos de base congelados ou com o treino de representações centradas no objeto de forma integral (*end-to-end*). Os nossos resultados destacam a adaptação multifásica como um mecanismo eficiente para transformar características genéricas de modelos de base em representações centradas no objeto e conscientes da tarefa para controlo robótico.