Artigos de pesquisa em IA selecionados diariamente com traduções
Os seres humanos percebem e compreendem os espaços do mundo real através de um fluxo de observações visuais. Portanto, a capacidade de manter e atualizar continuamente evidências espaciais a partir de fluxos de vídeo potencialmente ilimitados é essencial para a inteligência espacial. O principal desafio não é simplesmente ter janelas de contexto mais longas, mas sim como a informação espacial é selecionada, organizada e retida ao longo do tempo. Neste artigo, propomos o Spatial-TTT para uma inteligência espacial baseada em visão em fluxo contínuo com treino em tempo de teste (TTT), que adapta um subconjunto de parâmetros (pesos rápidos) para capturar e organizar evidências espaciais em vídeos de cenas de longo horizonte. Especificamente, projetamos uma arquitetura híbrida e adotamos atualizações em blocos grandes em paralelo com atenção de janela deslizante para um processamento espacial de vídeo eficiente. Para promover ainda mais a consciência espacial, introduzimos um mecanismo preditivo espacial aplicado às camadas TTT com convolução espaciotemporal 3D, que incentiva o modelo a capturar correspondência geométrica e continuidade temporal entre os frames. Para além do design da arquitetura, construímos um conjunto de dados com descrições espaciais 3D densas, que orienta o modelo a atualizar os seus pesos rápidos para memorizar e organizar sinais espaciais 3D globais de forma estruturada. Experimentos extensivos demonstram que o Spatial-TTT melhora a compreensão espacial de longo horizonte e alcança desempenho state-of-the-art em benchmarks de vídeo espacial. Página do projeto: https://liuff19.github.io/Spatial-TTT.
Os agentes multimodais oferecem um caminho promissor para a automação de fluxos de trabalho complexos e intensivos em documentos. No entanto, uma questão crítica permanece: estes agentes demonstram um raciocínio estratégico genuíno ou apenas uma busca estocástica por tentativa e erro? Para responder a isto, apresentamos o MADQA, um *benchmark* composto por 2.250 questões elaboradas por humanos, baseadas em 800 documentos PDF heterogéneos. Guiados pela Teoria Clássica dos Testes, concebemo-lo para maximizar o poder discriminativo em vários níveis de capacidades agentivas. Para avaliar o comportamento agentivo, introduzimos um protocolo de avaliação inovador que mede o compromisso entre precisão e esforço. Utilizando esta estrutura, demonstramos que, embora os melhores agentes possam igualar os pesquisadores humanos em precisão bruta, eles têm sucesso em questões largamente diferentes e dependem de uma busca de força bruta para compensar um planeamento estratégico fraco. Eles não conseguem fechar a lacuna de quase 20% para o desempenho de um *oráculo*, persistindo em ciclos improdutivos. Disponibilizamos o conjunto de dados e a estrutura de avaliação para ajudar a facilitar a transição da recuperação por força bruta para um raciocínio calibrado e eficiente.
Os fluxos de trabalho agenticos de contexto longo emergiram como um caso de uso definidor para modelos de linguagem de grande escala, tornando a eficiência da atenção crítica tanto para a velocidade de inferência quanto para o custo de serviço. A atenção esparsa aborda esse desafio de forma eficaz, e a DeepSeek Sparse Attention (DSA) é uma solução representativa de nível de produção: um indexador leve e rápido seleciona os k tokens mais relevantes por consulta, reduzindo a atenção principal de O(L²) para O(Lk). No entanto, o próprio indexador mantém complexidade O(L²) e deve ser executado independentemente em cada camada, apesar do facto de as seleções top-k resultantes serem altamente semelhantes entre camadas consecutivas. Apresentamos o IndexCache, que explora essa redundância entre camadas ao particioná-las em um pequeno conjunto de camadas Completas (que executam seus próprios indexadores) e uma maioria de camadas Compartilhadas (que simplesmente reutilizam os índices top-k da camada Completa mais próxima). Propomos duas abordagens complementares para determinar e otimizar esta configuração. O IndexCache sem treino aplica um algoritmo de busca gulosa que seleciona quais camadas reter os indexadores minimizando diretamente a perda de modelagem de linguagem num conjunto de calibração, sem exigir atualizações de pesos. O IndexCache com treino introduz uma perda de destilação multicamada que treina cada indexador retido contra as distribuições médias de atenção de todas as camadas que ele serve, permitindo que até padrões intercalados simples atinjam a precisão do indexador completo. Resultados experimentais num modelo DSA de 30B mostram que o IndexCache pode remover 75% dos cálculos do indexador com degradação de qualidade negligenciável, alcançando até 1,82x de aceleração no preenchimento prévio (prefill) e 1,48x de aceleração na descodagem (decode) em comparação com o DSA padrão. Estes resultados positivos são ainda confirmados pelas nossas experiências preliminares no modelo de escala de produção GLM-5 (Figura 1).
Os agentes que utilizam computadores (CUAs) estão a tornar-se cada vez mais capazes; no entanto, continua a ser difícil dimensionar a avaliação de se uma trajetória cumpre verdadeiramente uma instrução do utilizador. Neste trabalho, estudamos a modelação de recompensa a partir de vídeo de execução: uma sequência de *keyframes* de uma trajetória de agente que é independente do raciocínio ou ações internas do agente. Embora a modelação de execução por vídeo seja agnóstica em relação ao método, apresenta desafios-chave, incluindo layouts altamente redundantes e pistas subtis e localizadas que determinam o sucesso. Apresentamos o Execution Video Reward 53k (ExeVR-53k), um conjunto de dados com 53 mil triplos de alta qualidade de vídeo-tarefa-recompensa. Propomos ainda a tradução de instruções adversariais para sintetizar amostras negativas com anotações ao nível da etapa. Para permitir a aprendizagem a partir de vídeos de execução longos e de alta resolução, concebemos a poda de *tokens* espaço-temporais, que remove regiões homogéneas e *tokens* persistentes, preservando as alterações decisivas na interface do utilizador (UI). Com base nestes componentes, afinamos um Modelo de Recompensa de Vídeo de Execução (ExeVRM) que recebe apenas uma instrução do utilizador e uma sequência de execução em vídeo para prever o sucesso da tarefa. O nosso ExeVRM 8B atinge 84,7% de precisão e 87,7% de recall na avaliação de execução por vídeo, superando modelos proprietários robustos como o GPT-5.2 e o Gemini-3 Pro em Ubuntu, macOS, Windows e Android, ao mesmo tempo que fornece uma atribuição temporal mais precisa. Estes resultados mostram que a modelação de recompensa por vídeo de execução pode servir como um avaliador escalável e agnóstico do modelo para CUAs.
A geração de vídeo orientada por texto democratizou a criação cinematográfica, mas o controle de câmera em cenários cinematográficos com múltiplos planos permanece um obstáculo significativo. As instruções textuais implícitas carecem de precisão, enquanto o condicionamento por trajetórias explícitas impõe uma sobrecarga manual proibitiva e frequentemente desencadeia falhas de execução nos modelos atuais. Para superar este gargalo, propomos uma mudança de paradigma centrada em dados, postulando que trincas alinhadas (Legenda, Trajetória, Vídeo) formam uma distribuição conjunta inerente que pode conectar a plotagem automatizada e a execução precisa. Guiados por esta visão, apresentamos o ShotVerse, uma estrutura "Planear-depois-Controlar" que desacopla a geração em dois agentes colaborativos: um Planeador baseado em Modelo de Visão-Linguagem (VLM) que aproveita conhecimentos prévios espaciais para obter trajetórias cinematográficas e globalmente alinhadas a partir de texto, e um Controlador que renderiza essas trajetórias em conteúdo de vídeo com múltiplos planos através de um adaptador de câmera. Central à nossa abordagem é a construção de uma base de dados: concebemos um pipeline automatizado de calibração de câmera para múltiplos planos que alinha trajetórias desconexas de planos únicos num sistema de coordenadas global unificado. Isto facilita a curadoria do ShotVerse-Bench, um conjunto de dados cinematográfico de alta fidelidade com um protocolo de avaliação de três vertentes que serve como alicerce para a nossa estrutura. Experimentos extensivos demonstram que o ShotVerse preenche eficazmente a lacuna entre o controlo textual não fiável e a plotagem manual intensiva em mão-de-obra, alcançando uma estética cinematográfica superior e gerando vídeos com múltiplos planos que são simultaneamente precisos na câmera e consistentes entre planos.
Os agentes multimodais já conseguem lidar com tarefas complexas de raciocínio com diversas ferramentas, mas ainda sofrem com uso ineficiente de ferramentas e orquestração inflexível em ambientes abertos. Um desafio central é capacitar tais agentes a melhorar continuamente sem atualizações de parâmetros, aprendendo com trajetórias passadas. Identificamos duas formas complementares de conhecimento reutilizável essenciais para este objetivo: experiências, que fornecem orientação concisa a nível de ação para seleção de ferramentas e tomada de decisão, e habilidades, que fornecem orientação estruturada a nível de tarefa para planeamento e uso de ferramentas. Para tal, propomos o XSkill, uma estrutura de fluxo duplo para aprendizagem contínua a partir de experiências e habilidades em agentes multimodais. O XSkill ancora tanto a extração como a recuperação de conhecimento em observações visuais. Durante a acumulação, o XSkill destila e consolida experiências e habilidades a partir de rollouts de múltiplos caminhos através de sumarização fundamentada visualmente e crítica transversal entre rollouts. Durante a inferência, recupera e adapta este conhecimento ao contexto visual atual e retroalimenta o histórico de utilização para a acumulação, formando um ciclo de aprendizagem contínua. Avaliado em cinco benchmarks abrangendo diversos domínios com quatro modelos de base, o XSkill supera consistentemente e substancialmente tanto as linhas de base baseadas apenas em ferramentas como as baseadas em aprendizagem. Uma análise mais aprofundada revela que os dois fluxos de conhecimento desempenham papéis complementares na influência dos comportamentos de raciocínio dos agentes e demonstram generalização zero-shot superior.
Embora os modelos de difusão em larga escala tenham revolucionado a síntese de vídeo, alcançar um controle preciso sobre a identidade de múltiplos sujeitos e o movimento multi-granularidade continua sendo um desafio significativo. Tentativas recentes de preencher essa lacuna frequentemente sofrem com granularidade de movimento limitada, ambiguidade de controle e degradação de identidade, resultando em desempenho abaixo do ideal na preservação de identidade e no controle de movimento. Neste trabalho, apresentamos o DreamVideo-Omni, uma estrutura unificada que permite a customização harmoniosa de múltiplos sujeitos com controle de movimento total por meio de um paradigma de treinamento progressivo em dois estágios. No primeiro estágio, integramos sinais de controle abrangentes para treinamento conjunto, abrangendo aparências dos sujeitos, movimento global, dinâmicas locais e movimentos de câmera. Para garantir uma controlabilidade robusta e precisa, introduzimos uma incorporação posicional rotatória 3D consciente da condição para coordenar entradas heterogêneas e uma estratégia de injeção de movimento hierárquica para aprimorar a orientação de movimento global. Adicionalmente, para resolver a ambiguidade de múltiplos sujeitos, introduzimos incorporações de grupo e função para ancorar explicitamente sinais de movimento a identidades específicas, desembaraçando efetivamente cenas complexas em instâncias controláveis independentes. No segundo estágio, para mitigar a degradação de identidade, projetamos um paradigma de aprendizado por feedback de recompensa de identidade latente, treinando um modelo de recompensa de identidade latente sobre uma base de difusão de vídeo pré-treinada. Isso fornece recompensas de identidade conscientes do movimento no espaço latente, priorizando a preservação de identidade alinhada com as preferências humanas. Suportado pelo nosso conjunto de dados em larga escala curado e pela abrangente DreamOmni Bench para avaliação de controle de múltiplos sujeitos e movimento total, o DreamVideo-Omni demonstra desempenho superior na geração de vídeos de alta qualidade com controlabilidade precisa.
A estimação de profundidade em vídeos enfrenta um dilema fundamental: os modelos generativos sofrem com alucinações geométricas estocásticas e deriva de escala, enquanto os modelos discriminativos exigem conjuntos massivos de dados rotulados para resolver ambiguidades semânticas. Para superar este impasse, apresentamos o DVD, o primeiro framework que adapta deterministicamente modelos de difusão de vídeo pré-treinados em regressores de profundidade de passagem única. Especificamente, o DVD apresenta três concepções centrais: (i) a reutilização do passo de difusão como uma âncora estrutural para equilibrar estabilidade global com detalhes de alta frequência; (ii) a retificação da variedade latente (LMR) para mitigar o excesso de suavização induzido pela regressão, aplicando restrições diferenciais para restaurar limites nítidos e movimento coerente; e (iii) a coerência afim global, uma propriedade inerente que limita a divergência entre janelas, permitindo inferência em vídeos longos sem a necessidade de um complexo alinhamento temporal. Experimentos extensivos demonstram que o DVD alcança desempenho state-of-the-art em avaliação zero-shot em diversos benchmarks. Adicionalmente, o DVD desbloqueia com sucesso os profundos priores geométricos implícitos em modelos de fundação para vídeo, utilizando 163 vezes menos dados específicos da tarefa do que os principais métodos de comparação. Notavelmente, disponibilizamos integralmente nosso pipeline, fornecendo todo o conjunto de treinamento para estimação de profundidade em vídeo de última geração para beneficiar a comunidade de código aberto.
A edição de imagens baseada em instruções visa modificar conteúdo específico em imagens existentes de acordo com instruções fornecidas pelo utilizador, preservando regiões não-alvo. Para além da manipulação tradicional centrada em objetos e estilos, a edição de imagens centrada em texto foca-se na modificação, tradução ou rearranjo de elementos textuais incorporados nas imagens. No entanto, os principais modelos existentes frequentemente lutam para executar edições de texto complexas com precisão, produzindo frequentemente caracteres desfocados ou alucinados. Atribuímos estas falhas principalmente à falta de paradigmas de treino especializados adaptados para edição centrada em texto, bem como à ausência de conjuntos de dados em larga escala e benchmarks padronizados necessários para um sistema de treino e avaliação de ciclo fechado. Para superar estas limitações, apresentamos o WeEdit, uma solução sistemática que abrange um pipeline escalável de construção de dados, dois benchmarks e uma estratégia de treino personalizada em duas etapas. Especificamente, propomos um novo pipeline de edição automática baseado em HTML, que gera 330 mil pares de treino cobrindo diversas operações de edição e 15 idiomas, acompanhado por benchmarks bilingues e multilingues padronizados para avaliação abrangente. No lado algorítmico, empregamos *fine-tuning* supervisionado guiado por glifos para injetar *priors* espaciais e de conteúdo explícitos, seguido por uma etapa de aprendizagem por reforço multiobjetivo para alinhar a geração com a adesão à instrução, clareza textual e preservação do fundo. Experiências extensivas demonstram que o WeEdit supera modelos *open-source* anteriores por uma margem clara em diversas operações de edição.
O aprendizado por reforço (RL) emergiu como um paradigma promissor para aprimorar a edição de imagens e a geração de texto para imagem (T2I). No entanto, os modelos de recompensa atuais, que atuam como críticos durante o RL, frequentemente sofrem com alucinações e atribuem pontuações ruidosas, desorientando inerentemente o processo de otimização. Neste artigo, apresentamos o FIRM (Faithful Image Reward Modeling), uma estrutura abrangente que desenvolve modelos de recompensa robustos para fornecer orientação precisa e confiável para a geração e edição fiel de imagens. Primeiro, projetamos pipelines personalizados de curadoria de dados para construir conjuntos de dados de pontuação de alta qualidade. Especificamente, avaliamos a edição usando tanto execução quanto consistência, enquanto a geração é avaliada principalmente por meio do seguimento de instruções. Utilizando esses pipelines, coletamos os conjuntos de dados FIRM-Edit-370K e FIRM-Gen-293K, e treinamos modelos de recompensa especializados (FIRM-Edit-8B e FIRM-Gen-8B) que refletem com precisão esses critérios. Em segundo lugar, introduzimos o FIRM-Bench, um benchmark abrangente especificamente projetado para críticos de edição e geração. As avaliações demonstram que nossos modelos alcançam uma alinhamento superior com o julgamento humano em comparação com as métricas existentes. Além disso, para integrar perfeitamente esses críticos no pipeline de RL, formulamos uma nova estratégia de recompensa "Base-and-Bonus" que equilibra objetivos concorrentes: Execução Modulada por Consistência (CME) para edição e Alinhamento Modulado por Qualidade (QMA) para geração. Impulsionados por esta estrutura, nossos modelos resultantes FIRM-Qwen-Edit e FIRM-SD3.5 alcançam avanços substanciais de desempenho. Experimentos abrangentes demonstram que o FIRM mitiga alucinações, estabelecendo um novo padrão para fidelidade e aderência à instrução em relação aos modelos gerais existentes. Todos os nossos conjuntos de dados, modelos e código estão publicamente disponíveis em https://firm-reward.github.io.
Os transformadores de difusão (DiTs) alcançam alta qualidade generativa, mas vinculam os FLOPs à resolução da imagem, limitando trade-offs fundamentais entre latência e qualidade, e alocam computação uniformemente entre os tokens espaciais de entrada, desperdiçando alocação de recursos em regiões não importantes. Apresentamos o Elastic Latent Interface Transformer (ELIT), um mecanismo compatível e substituto para DiTs que desacopla o tamanho da imagem de entrada do cálculo computacional. Nossa abordagem insere uma interface latente, uma sequência de tokens de comprimento variável e treinável na qual blocos padrão de transformadores podem operar. Camadas leves de atenção cruzada de Leitura e Escrita movem informações entre tokens espaciais e latentes e priorizam regiões importantes da entrada. Ao treinar com descarte aleatório de latentes da cauda, o ELIT aprende a produzir representações ordenadas por importância, com os primeiros latentes capturando a estrutura global enquanto os últimos contêm informações para refinar detalhes. Na inferência, o número de latentes pode ser ajustado dinamicamente para corresponder às restrições computacionais. O ELIT é deliberadamente minimalista, adicionando apenas duas camadas de atenção cruzada enquanto mantém inalterados o objetivo de fluxo retificado e a pilha do DiT. Em diversos conjuntos de dados e arquiteturas (DiT, U-ViT, HDiT, MM-DiT), o ELIT oferece ganhos consistentes. No ImageNet-1K 512px, o ELIT proporciona um ganho médio de 35,3% e 39,6% nos scores FID e FDD. Página do projeto: https://snap-research.github.io/elit/
A descrição densa de imagens é crucial para o alinhamento multimodal no pré-treinamento visão-linguagem e na geração de texto para imagem, mas a escalabilidade de anotações de qualidade especializada é proibitivamente cara. Embora a descrição sintética via modelos fortes de visão-linguagem (VLMs) seja uma alternativa prática, a destilação supervisionada frequentemente produz diversidade limitada de saída e fraca generalização. O aprendizado por reforço (RL) poderia superar essas limitações, mas seus sucessos até agora concentram-se em domínios verificáveis que dependem de verificadores determinísticos – um luxo indisponível na descrição aberta. Nós abordamos este gargalo com o RubiCap, uma estrutura de RL inovadora que deriva sinais de recompensa granulares e específicos por amostra a partir de rubricas escritas por LLMs. O RubiCap primeiro monta um comitê diversificado de legendas candidatas, depois emprega um escritor de rubricas baseado em LLM para extrair pontos fortes consensuais e diagnosticar deficiências na política atual. Esses insights são convertidos em critérios de avaliação explícitos, permitindo que um juiz LLM decomponha a avaliação holística de qualidade e substitua recompensas escalares grosseiras por avaliações estruturadas e multifacetadas. Em extensos benchmarks, o RubiCap alcança as maiores taxas de sucesso no CapArena, superando a destilação supervisionada, métodos anteriores de RL, anotações de especialistas humanos e saídas aumentadas por GPT-4V. No CaptionQA, demonstra eficiência vocabular superior: nosso modelo de 7B equipara-se ao Qwen2.5-VL-32B-Instruct, e nosso modelo de 3B supera sua contraparte de 7B. Notavelmente, usar o compacto RubiCap-3B como descritor produz VLMs pré-treinados mais robustos do que aqueles treinados com legendas de modelos proprietários.
Os modelos multimodais unificados visam a compreensão, raciocínio e geração conjuntos, mas os atuais benchmarks de edição de imagens estão amplamente confinados a imagens naturais e raciocínio de senso comum superficial, oferecendo uma avaliação limitada dessa capacidade sob restrições estruturadas e específicas de domínio. Neste trabalho, introduzimos o GRADE, o primeiro benchmark para avaliar conhecimento e raciocínio fundamentados em disciplinas na edição de imagens. O GRADE compreende 520 amostras cuidadosamente curadas em 10 domínios acadêmicos, abrangendo desde ciências naturais até ciências sociais. Para apoiar uma avaliação rigorosa, propomos um protocolo de avaliação multidimensional que avalia conjuntamente Raciocínio Disciplinar, Consistência Visual e Legibilidade Lógica. Experimentos extensos em 20 modelos de última geração, de código aberto e proprietários, revelam limitações substanciais nos modelos atuais sob configurações de edição implícitas e intensivas em conhecimento, resultando em grandes lacunas de desempenho. Além dos escores quantitativos, conduzimos análises e ablações rigorosas para expor deficiências dos modelos e identificar as restrições dentro da edição disciplinar. Juntos, o GRADE aponta direções-chave para o desenvolvimento futuro de modelos multimodais unificados, avançando a pesquisa em edição de imagens e raciocínio fundamentados em disciplinas. Nosso benchmark e código de avaliação são disponibilizados publicamente.
Um componente fundamental da criatividade é o raciocínio associativo: a capacidade de estabelecer conexões novas, mas significativas, entre conceitos. Apresentamos o CREATE, um benchmark concebido para avaliar a capacidade de raciocínio associativo criativo em modelos. O CREATE exige que os modelos gerem conjuntos de caminhos que conectem conceitos no conhecimento paramétrico de um modelo. Os caminhos devem apresentar alta especificidade (distinção e proximidade da conexão conceptual) e alta diversidade (dissemelhança em relação a outros caminhos), e os modelos são mais bem pontuados se produzirem um conjunto maior de caminhos robustos e diversificados. Esta tarefa partilha as exigências de tarefas criativas reais, como a geração de hipóteses, incluindo um espaço de busca extremamente amplo, mas permite a recolha de um benchmark considerável com classificação objetiva de respostas. A avaliação de modelos de última geração mostra que os modelos mais fortes alcançam uma utilidade criativa superior aos demais, sendo a alta multiplicidade de respostas e a complexidade da busca fatores que dificultam a saturação do benchmark. Além disso, os nossos resultados ilustram que os modelos de pensamento nem sempre são mais eficazes na nossa tarefa, mesmo com orçamentos elevados de *tokens*. Abordagens recentes para *prompting* criativo conferem alguma melhoria adicional, mas limitada. O CREATE fornece um ambiente controlado para desenvolver novos métodos que melhorem a capacidade de criatividade associativa dos modelos.
Os modelos generativos de vídeo autoregressivos (AR) dependem de tokenizadores de vídeo que comprimem pixels em sequências discretas de tokens. O comprimento dessas sequências de tokens é crucial para equilibrar a qualidade de reconstrução com o custo computacional da geração subsequente. Os tokenizadores de vídeo tradicionais aplicam uma atribuição uniforme de tokens em blocos temporais de diferentes vídeos, frequentemente desperdiçando tokens em segmentos simples, estáticos ou repetitivos, enquanto subutilizam tokens em segmentos dinâmicos ou complexos. Para resolver esta ineficiência, introduzimos o EVATok, uma estrutura para produzir Tokenizadores de Vídeo Adaptativos Eficientes. Nossa estrutura estima atribuições ótimas de tokens para cada vídeo para alcançar o melhor equilíbrio entre qualidade e custo, desenvolve roteadores leves para a previsão rápida dessas atribuições ótimas e treina tokenizadores adaptativos que codificam vídeos com base nas atribuições previstas pelos roteadores. Demonstramos que o EVATok oferece melhorias substanciais em eficiência e qualidade geral para reconstrução de vídeo e geração AR subsequente. Potencializado por nossa receita de treinamento avançada que integra codificadores semânticos de vídeo, o EVATok alcança reconstrução superior e geração state-of-the-art de classe-para-vídeo no UCF-101, com uma economia de pelo menos 24,4% no uso médio de tokens em comparação com o LARP (estado da arte anterior) e nossa linha de base de comprimento fixo.
O pré-treinamento produz um vetor de parâmetros aprendido que normalmente é tratado como ponto de partida para adaptação iterativa adicional. Neste trabalho, em vez disso, encaramos o resultado do pré-treinamento como uma distribuição sobre vetores de parâmetros, cujo suporte já contém especialistas específicos para tarefas. Demonstramos que, em modelos pequenos, essas soluções especializadas ocupam uma fração insignificante do volume dessa distribuição, tornando sua descoberta dependente de métodos de otimização estruturados, como o gradiente descendente. Em contraste, em modelos grandes e bem pré-treinados, a densidade de especialistas por tarefa aumenta dramaticamente, de modo que diversos especialistas que melhoram o desempenho populam uma fração substancial da vizinhança em torno dos pesos pré-treinados. Motivados por essa perspectiva, exploramos um método simples e totalmente paralelo de pós-treinamento que amostra N perturbações de parâmetros aleatoriamente, seleciona as K melhores e combina as previsões por votação majoritária. Apesar de sua simplicidade, essa abordagem é competitiva com métodos padrão de pós-treinamento, como PPO, GRPO e ES, para modelos contemporâneos de grande escala.
Os agentes visuais modernos exigem representações que sejam gerais, causais e fisicamente estruturadas para operar em ambientes de streaming em tempo real. No entanto, os atuais modelos de base de visão permanecem fragmentados, especializando-se estreitamente em percepção semântica de imagem, modelagem temporal offline ou geometria espacial. Este artigo apresenta o OmniStream, um *backbone* visual de streaming unificado que percebe, reconstrói e age de forma eficaz a partir de diversas entradas visuais. Ao incorporar atenção espaço-temporal causal e *embeddings* posicionais rotativos 3D (3D-RoPE), nosso modelo suporta o processamento online eficiente, quadro a quadro, de fluxos de vídeo por meio de um cache KV persistente. Pré-treinamos o OmniStream usando uma estrutura multi-tarefa sinérgica que acopla a aprendizagem de representações estáticas e temporais, a reconstrução geométrica de streaming e o alinhamento visão-linguagem em 29 conjuntos de dados. Avaliações extensivas mostram que, mesmo com um *backbone* estritamente congelado, o OmniStream alcança desempenho consistentemente competitivo com especialistas específicos em sondagem de imagem e vídeo, reconstrução geométrica de streaming, raciocínio complexo em vídeo e espacial, bem como em manipulação robótica (não vista durante o treinamento). Em vez de buscar a dominância específica em *benchmarks*, nosso trabalho demonstra a viabilidade de treinar um único *backbone* visual versátil que generaliza através do raciocínio semântico, espacial e temporal, ou seja, um passo mais significativo em direção à compreensão visual de propósito geral para agentes interativos e corporificados.
Modelos de linguagem de grande escala treinados em linguagem natural exibem anisotropia pronunciada: um pequeno número de direções concentra energia desproporcional, enquanto as dimensões restantes formam uma cauda semântica ampla. Em regimes de treinamento de baixa precisão, essa geometria torna-se numericamente instável. Como as escalas de quantização em bloco são determinadas por magnitudes elementares extremas, as direções dominantes esticam a faixa dinâmica, comprimindo a variação semântica de cauda longa em bins numéricos estreitos. Demonstramos que essa instabilidade é impulsionada principalmente por um viés de média coerente e de posto um, que constitui o componente dominante da anisotropia espectral nas representações de LLMs. Este componente de média emerge sistematicamente através das camadas e estágios de treinamento e responde pela maioria das magnitudes de ativação extremas, tornando-o o principal motor da inflação da faixa dinâmica sob baixa precisão. Crucialmente, como a instabilidade dominante é de posto um, ela pode ser eliminada através de uma simples operação de subtração de média no nível da fonte. Este condicionamento centrado no viés recupera a maioria dos benefícios de estabilidade dos métodos espectrais baseados em SVD, exigindo apenas operações de redução e kernels de quantização padrão. Resultados empíricos em treinamento FP4 (W4A4G4) mostram que a remoção da média reduz substancialmente a diferença de perda em relação ao BF16 e restaura o desempenho em tarefas subsequentes, fornecendo um caminho eficiente em hardware para o treinamento estável de LLMs em baixa precisão.
Recentemente, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm sido amplamente integrados em arquiteturas de difusão, funcionando principalmente como codificadores de texto para lidar com tarefas complexas, como o raciocínio espacial. No entanto, este paradigma apresenta duas limitações críticas: (i) O codificador de texto do MLLM exibe profundidade de raciocínio insuficiente. A codificação em etapa única não consegue ativar o processo de Cadeia de Pensamento (Chain-of-Thought), que é essencial para que os MLLMs forneçam orientações precisas para tarefas complexas. (ii) A orientação permanece invariável durante o processo de decodificação. A orientação invariável durante a decodificação impede que o Modelo de Transformador de Difusão (DiT) decomponha progressivamente instruções complexas em etapas de remoção de ruído acionáveis, mesmo com codificações MLLM corretas. Para tal, propomos a Cadeia de Pensamento Endógena (EndoCoT), uma nova arquitetura que primeiro ativa o potencial de raciocínio dos MLLMs refinando iterativamente os estados de pensamento latentes por meio de um módulo de orientação de pensamento iterativo e, em seguida, conecta esses estados ao processo de remoção de ruído do DiT. Em segundo lugar, um módulo de ancoragem de pensamento terminal é aplicado para garantir que a trajetória de raciocínio permaneça ancorada na supervisão textual, alinhando o estado final com as respostas verdadeiras (ground-truth). Com estes dois componentes, o codificador de texto do MLLM fornece uma orientação meticulosamente raciocinada, permitindo que o DiT a execute progressivamente e, por fim, resolva tarefas complexas de maneira passo a passo. Avaliações extensas em diversos benchmarks (por exemplo, Maze, TSP, VSP e Sudoku) alcançaram uma precisão média de 92,1%, superando a linha de base mais forte em 8,3 pontos percentuais.
O 3D Gaussian Splatting (3DGS) emergiu como uma representação poderosa para renderização de alta qualidade em uma ampla gama de aplicações. No entanto, suas altas demandas computacionais e elevados custos de armazenamento representam desafios significativos para implantação em dispositivos móveis. Neste trabalho, propomos um método de Gaussian Splatting em tempo real adaptado para móveis, denominado Mobile-GS, permitindo inferência eficiente de Gaussian Splatting em dispositivos de borda. Especificamente, primeiro identificamos a mistura alfa (alpha blending) como o principal gargalo computacional, uma vez que esta depende do processo demorado de ordenação por profundidade dos Gaussianos. Para resolver este problema, propomos um esquema de renderização independente de ordem e consciente da profundidade, que elimina a necessidade de ordenação, acelerando substancialmente a renderização. Embora esta renderização independente de ordem melhore a velocidade, ela pode introduzir artefatos de transparência em regiões com geometria sobreposta devido à escassez da ordem de renderização. Para abordar este problema, propomos uma estratégia neural de aprimoramento dependente da visada (view-dependent), permitindo uma modelagem mais precisa de efeitos dependentes da visada condicionados pela direção de visualização, geometria do Gaussiano 3D e atributos de aparência. Desta forma, o Mobile-GS pode alcançar renderização tanto de alta qualidade quanto em tempo real. Adicionalmente, para facilitar a implantação em plataformas móveis com restrições de memória, também introduzimos a destilação de harmônicos esféricos de primeira ordem, uma técnica de quantização vetorial neural, e uma estratégia de poda baseada em contribuição para reduzir o número de primitivas Gaussianas e comprimir a representação Gaussiana 3D com a assistência de redes neurais. Experimentos extensivos demonstram que o nosso Mobile-GS proposto alcança renderização em tempo real e tamanho de modelo compacto, preservando alta qualidade visual, tornando-o bem adequado para aplicações móveis.
Na implantação no mundo real, os modelos de visão e linguagem frequentemente encontram perturbações como condições climáticas, oclusões e movimento da câmara. Sob tais condições, a sua compreensão e capacidade de raciocínio degradam-se substancialmente, revelando uma lacuna entre os ambientes de avaliação controlados (ou seja, não perturbados) e a robustez necessária para o mundo real. Para enfrentar esta limitação, propomos o ROVA, uma nova estrutura de treino que melhora a robustez ao modelar uma recompensa de consistência com consciência da robustez sob corrupções espaço-temporais. O ROVA introduz uma estratégia de treino *online* com consciência da dificuldade que prioriza amostras informativas com base na capacidade evolutiva do modelo. Especificamente, ele reestima continuamente a dificuldade da amostra através de uma avaliação autorreflexiva, permitindo um treino adaptativo com uma recompensa de consistência robustez-consciente. Também introduzimos o PVRBench, um novo benchmark que injeta perturbações do mundo real em conjuntos de dados de vídeo corporificado para avaliar tanto a precisão como a qualidade do raciocínio sob distúrbios realistas. Avaliamos o ROVA e os modelos de base no PVRBench, UrbanVideo e VisBench, onde modelos de código aberto e proprietários sofrem quedas de até 35% e 28% na precisão e no raciocínio sob perturbações realistas. O ROVA mitiga eficazmente a degradação do desempenho, aumentando a precisão relativa em pelo menos 24% e o raciocínio em mais de 9% em comparação com os modelos de base (QWen2.5/3-VL, InternVL2.5, Embodied-R). Estes ganhos transferem-se para benchmarks padrão não perturbados, produzindo melhorias consistentes.
Embora os Modelos de Linguagem de Grande Porte (LLMs) tenham alcançado sucesso notável na geração de código, eles frequentemente lutam com o raciocínio profundo e de longo horizonte necessário para a engenharia de software complexa. Atribuímos essa limitação à natureza dos dados padrão de pré-treinamento: repositórios de software estáticos representam apenas o estado terminal de um processo intelectual intrincado, abstraindo o planeamento intermédio, a depuração e o refinamento iterativo. Para colmatar esta lacuna, propomos um novo paradigma: compreensão através da reconstrução. Colocamos a hipótese de que a engenharia reversa das trajetórias agentes latentes – as etapas de planeamento, raciocínio e depuração – por trás de repositórios estáticos fornece um sinal de supervisão muito mais rico do que o código bruto por si só. Para operacionalizar isto, introduzimos uma estrutura que sintetiza essas trajetórias usando uma simulação multiagente. Este processo está ancorado nas realidades estruturais dos repositórios de origem (por exemplo, grafos de dependência e hierarquias de ficheiros) para garantir fidelidade. Além disso, para garantir o rigor lógico dos dados sintéticos, empregamos uma técnica de otimização baseada em busca que refina iterativamente o raciocínio em Cadeia de Pensamento (CoT) para maximizar a probabilidade do código de referência (ground-truth). Resultados empíricos demonstram que o pré-treinamento contínuo nessas trajetórias reconstruídas melhora significativamente o desempenho do Llama-3-8B em diversas benchmarks, incluindo compreensão de contexto longo, proficiência em codificação e capacidades agentes.
Este artigo introduz o MR-Search, uma formulação de meta aprendizagem por reforço (RL) contextual para busca agentiva com autorreflexão. Em vez de otimizar uma política dentro de um único episódio independente com recompensas esparsas, o MR-Search treina uma política que se condiciona a episódios passados e adapta sua estratégia de busca ao longo dos episódios. O MR-Search aprende a aprender uma estratégia de busca com autorreflexão, permitindo que os agentes de busca melhorem a exploração contextual durante o teste. Especificamente, o MR-Search realiza uma exploração trans-episódica gerando autorreflexões explícitas após cada episódio e aproveitando-as como contexto adicional para orientar tentativas subsequentes, promovendo assim uma exploração mais eficaz durante o teste. Introduzimos ainda um algoritmo de RL multi-turno que estima uma vantagem relativa densa ao nível do turno, permitindo uma atribuição de crédito refinada em cada episódio. Resultados empíricos em vários benchmarks demonstram as vantagens do MR-Search sobre abordagens baseadas em RL, mostrando forte generalização e melhorias relativas de 9,2% a 19,3% em oito benchmarks. Nosso código e dados estão disponíveis em https://github.com/tengxiao1/MR-Search.
O pré-treinamento é crucial para grandes modelos de linguagem (LLMs), pois é quando a maioria das representações e capacidades são adquiridas. No entanto, o pré-treinamento em linguagem natural tem problemas: o texto de alta qualidade é finito, contém vieses humanos e entrelaça conhecimento com raciocínio. Isto levanta uma questão fundamental: a linguagem natural é o único caminho para a inteligência? Propomos a utilização de autômatos celulares neurais (NCA) para gerar dados sintéticos e não linguísticos para o pré-pré-treinamento de LLMs – um treinamento em linguagem sintética seguida de linguagem natural. Os dados de NCA exibem uma rica estrutura espaço-temporal e estatísticas semelhantes às da linguagem natural, sendo ao mesmo tempo controláveis e baratos para gerar em escala. Descobrimos que o pré-pré-treinamento com apenas 164 milhões de tokens de NCA melhora a modelagem de linguagem downstream em até 6% e acelera a convergência em até 1,6 vezes. Surpreendentemente, isto supera até mesmo o pré-pré-treinamento com 1,6 mil milhões de tokens de linguagem natural do Common Crawl, que requer mais poder computacional. Estes ganhos também se transferem para benchmarks de raciocínio, incluindo GSM8K, HumanEval e BigBench-Lite. Investigando o que impulsiona a transferência, descobrimos que as camadas de atenção são as mais transferíveis e que a complexidade ideal do NCA varia conforme o domínio: o código beneficia de dinâmicas mais simples, enquanto a matemática e o texto da web preferem dinâmicas mais complexas. Estes resultados permitem um ajuste sistemático da distribuição sintética para domínios específicos. De forma mais ampla, o nosso trabalho abre um caminho para modelos mais eficientes com pré-treinamento totalmente sintético.
O Tiny Aya redefine o que um pequeno modelo de linguagem multilíngue pode alcançar. Treinado em 70 idiomas e refinado por meio de um pós-treinamento com consciência regional, ele oferece qualidade de tradução de ponta, forte compreensão multilíngue e geração de alta qualidade no idioma de destino, tudo com apenas 3,35 bilhões de parâmetros. O lançamento inclui um modelo base pré-treinado, uma variante ajustada para instruções com balanceamento global e três modelos especializados por região, voltados para idiomas da África, Sul da Ásia, Europa, Ásia-Pacífico e Ásia Ocidental. Este relatório detalha a estratégia de treinamento, a composição dos dados e a estrutura abrangente de avaliação por trás do Tiny Aya, e apresenta um caminho alternativo de escalonamento para IA multilíngue: um focado em eficiência, desempenho equilibrado entre idiomas e implantação prática.
A tradução de ambientes complexos de aprendizagem por reforço (RL) para implementações de alto desempenho tradicionalmente exigia meses de engenharia especializada. Apresentamos uma receita reutilizável - um *template* de *prompt* genérico, verificação hierárquica e reparo iterativo assistido por agente - que produz ambientes semanticamente equivalentes e de alto desempenho por menos de US$ 10 em custo computacional. Demonstramos três fluxos de trabalho distintos em cinco ambientes. Tradução direta (quando não existe uma implementação de desempenho prévia): EmuRust (aceleração de 1,5x no PPO via paralelismo em Rust para um emulador de Game Boy) e PokeJAX, o primeiro simulador de batalhas Pokemon com paralelização em GPU (500M SPS para ações aleatórias, 15,2M SPS para PPO; 22.320x em relação à referência em TypeScript). Tradução verificada contra implementações de desempenho existentes: paridade de taxa de transferência com MJX (1,04x) e 5x sobre o Brax em tamanhos de *batch* de GPU equivalentes (HalfCheetah JAX); PPO 42x mais rápido (Puffer Pong). Criação de novo ambiente: TCGJax, o primeiro motor JAX implantável para o Pokemon TCG (717K SPS para ações aleatórias, 153K SPS para PPO; 6,6x sobre a referência em Python), sintetizado a partir de uma especificação extraída da web. Com 200 milhões de parâmetros, a sobrecarga do ambiente cai para menos de 4% do tempo de treinamento. A verificação hierárquica (testes de propriedade, interação e *rollout*) confirma a equivalência semântica para todos os cinco ambientes; a transferência de políticas entre *backends* confirma uma lacuna *sim-to-sim* zero para todos os cinco ambientes. O TCGJax, sintetizado a partir de uma referência privada ausente de repositórios públicos, serve como um controle de contaminação para preocupações com dados de pré-treinamento de agentes. O artigo contém detalhes suficientes - incluindo *prompts* representativos, metodologia de verificação e resultados completos - para que um agente de codificação possa reproduzir as traduções diretamente a partir do manuscrito.
Apresentamos o FireRedASR2S, um sistema industrial de reconhecimento automático de fala (ASR) tudo-em-um de última geração. Ele integra quatro módulos em um *pipeline* unificado: ASR, Detecção de Atividade de Voz (VAD), Identificação de Língua Falada (LID) e Predição de Pontuação (Punc). Todos os módulos alcançam desempenho de estado da arte nos *benchmarks* avaliados: FireRedASR2: Um módulo ASR com duas variantes, FireRedASR2-LLM (8B+ parâmetros) e FireRedASR2-AED (1B+ parâmetros), suportando transcrição de fala e canto para mandarim, dialetos e sotaques chineses, inglês e alternância de código. Em comparação com o FireRedASR, o FireRedASR2 oferece precisão de reconhecimento aprimorada e maior cobertura de dialetos e sotaques. O FireRedASR2-LLM alcança 2,89% de CER médio em 4 *benchmarks* públicos de mandarim e 11,55% em 19 *benchmarks* públicos de dialetos e sotaques chineses, superando *baselines* competitivos, incluindo Doubao-ASR, Qwen3-ASR e Fun-ASR. FireRedVAD: Um módulo ultraleve (0,6M parâmetros) baseado na Rede de Memória Sequencial *Feedforward* Profunda (DFSMN), suportando VAD em *streaming*, VAD não em *streaming* e VAD multi-rótulo (mVAD). No *benchmark* FLEURS-VAD-102, ele alcança 97,57% de F1 a nível de *frame* e 99,60% de AUC-ROC, superando Silero-VAD, TEN-VAD, FunASR-VAD e WebRTC-VAD. FireRedLID: Um módulo LID *Encoder-Decoder* que suporta 100+ idiomas e 20+ dialetos e sotaques chineses. No FLEURS (82 idiomas), ele alcança 97,18% de precisão a nível de enunciado, superando Whisper e SpeechBrain. FireRedPunc: Um módulo de predição de pontuação no estilo BERT para chinês e inglês. Em *benchmarks* multidisciplinares, ele alcança 78,90% de F1 médio, superando o FunASR-Punc (62,77%). Para avançar a pesquisa em processamento de fala, disponibilizamos os pesos dos modelos e o código em https://github.com/FireRedTeam/FireRedASR2S.
Os modelos de difusão latente estabeleceram um novo estado da arte na geração visual de alta resolução. A integração de prioridades de Modelos de Base Visuais (Vision Foundation Models - VFMs) melhora a eficiência generativa, contudo, os projetos latentes existentes permanecem amplamente heurísticos. Essas abordagens frequentemente lutam para unificar discriminabilidade semântica, fidelidade de reconstrução e compactação latente. Neste artigo, propomos o Autoencoder Geométrico (Geometric Autoencoder - GAE), uma estrutura fundamentada que aborda sistematicamente esses desafios. Ao analisar vários paradigmas de alinhamento, o GAE constrói um alvo de supervisão semântica otimizado de baixa dimensionalidade a partir de VFMs para fornecer orientação ao autoencoder. Além disso, aproveitamos a normalização latente que substitui a restritiva divergência KL dos VAEs padrão, permitindo uma variedade latente mais estável especificamente otimizada para o aprendizado por difusão. Para garantir uma reconstrução robusta sob ruído de alta intensidade, o GAE incorpora um mecanismo dinâmico de amostragem de ruído. Empiricamente, o GAE alcança um desempenho convincente no benchmark ImageNet-1K 256x256, atingindo um gFID de 1.82 em apenas 80 épocas e 1.31 em 800 épocas sem Orientação Livre de Classificador (Classifier-Free Guidance), superando significativamente os métodos estado da arte existentes. Para além da qualidade generativa, o GAE estabelece um equilíbrio superior entre compressão, profundidade semântica e estabilidade de reconstrução robusta. Estes resultados validam as nossas considerações de projeto, oferecendo um paradigma promissor para a modelação de difusão latente. O código e os modelos estão publicamente disponíveis em https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.
O sotaque é uma parte integrante da sociedade, refletindo o multiculturalismo e moldando a forma como os indivíduos expressam a sua identidade. A maioria dos falantes de inglês são não nativos (L2), no entanto, os sistemas atuais de Text-To-Speech (TTS) modelam principalmente o inglês com sotaque americano devido à escassez de dados com sotaques variados. Propomos o Vetor de Sotaque, uma representação controlável que permite a manipulação do sotaque em sistemas TTS multilingues sem a necessidade de dados de treino com sotaques específicos. O Vetor de Sotaque é derivado através do *fine-tuning* de um sistema TTS com discurso nativo de um idioma diferente (ou seja, não inglês) e do cálculo de vetores de tarefa que capturam as características do sotaque (aplicadas ao inglês). Ao dimensionar e interpolar o vetor, conseguimos um controlo refinado sobre a intensidade do sotaque e geramos discurso com sotaque misto. Além disso, a solução generaliza-se para além do inglês, permitindo o controlo do sotaque em vários idiomas. Avaliações objetivas e humanas confirmam a eficácia do Vetor de Sotaque para um controlo refinado e composicional do sotaque.
Trabalhos recentes sintetizam tarefas agentes para LLMs pós-treinados no uso de ferramentas, no entanto, a generalização robusta sob variações em tarefas e conjuntos de ferramentas permanece um desafio em aberto. Nós rastreamos essa fragilidade até a diversidade insuficiente nas tarefas sintetizadas. Escalar a diversidade é difícil porque o treinamento exige que as tarefas permaneçam executáveis e verificáveis, enquanto a generalização demanda a cobertura de diversos tipos de ferramentas, combinações de conjuntos de ferramentas e padrões heterogêneos de uso de ferramentas. Propomos o DIVE, uma receita baseada em evidências que inverte a ordem da síntese, executando primeiro ferramentas diversas do mundo real e derivando reversamente tarefas estritamente implicadas pelos rastros resultantes, fornecendo assim fundamentação por construção. O DIVE escala a diversidade estrutural ao longo de dois eixos controláveis, a cobertura do conjunto de ferramentas e a variedade de conjuntos de ferramentas por tarefa, e um ciclo de Coleção de Evidências–Derivação de Tarefas induz ainda mais padrões ricos de uso de ferramentas em múltiplos passos em 373 ferramentas de cinco domínios. O treinamento do Qwen3-8B com dados do DIVE (48k SFT + 3.2k RL) melhora em +22 pontos médios em 9 benchmarks OOD e supera a linha de base mais forte de 8B em +68. Notavelmente, uma análise controlada de escalonamento revela que o escalonamento da diversidade supera consistentemente o escalonamento de quantidade para generalização OOD, mesmo com 4x menos dados.
A geração visual guiada por referências grosseiras, que sintetiza amostras visuais refinadas a partir de referências degradadas ou de baixa fidelidade, é essencial para diversas aplicações do mundo real. Embora as abordagens baseadas em treinamento sejam eficazes, elas são inerentemente limitadas pelos altos custos de treinamento e pela generalização restrita devido à coleta de dados pareados. Consequentemente, trabalhos recentes livres de treinamento propõem aproveitar modelos de difusão pré-treinados e incorporar orientação durante o processo de amostragem. No entanto, esses métodos livres de treinamento exigem conhecer o operador de transformação direta (de refinado para grosseiro), por exemplo, o redimensionamento bicúbico, ou são difíceis de equilibrar entre orientação e qualidade sintética. Para enfrentar esses desafios, propomos um novo método guiado usando a h-transformada, uma ferramenta que pode restringir processos estocásticos (por exemplo, o processo de amostragem) sob condições desejadas. Especificamente, modificamos a probabilidade de transição em cada passo de tempo de amostragem adicionando à equação diferencial original uma função de deriva, que direciona aproximadamente a geração para a amostra refinada ideal. Para lidar com erros de aproximação inevitáveis, introduzimos um esquema consciente do nível de ruído que gradualmente reduz o peso do termo à medida que o erro aumenta, garantindo tanto a adesão à orientação quanto a síntese de alta qualidade. Experimentos extensos em diversas tarefas de geração de imagem e vídeo demonstram a eficácia e a generalização do nosso método.
Os LLMs de Raciocínio como Juízes, que podem beneficiar-se da escalabilidade no momento da inferência, oferecem um caminho promissor para estender o sucesso dos modelos de raciocínio para domínios não verificáveis, onde a correção/qualidade da saída não pode ser verificada diretamente. No entanto, embora os juízes de raciocínio tenham demonstrado melhor desempenho em benchmarks de avaliação estática, sua eficácia no treinamento real de políticas não foi sistematicamente examinada. Portanto, realizamos um estudo rigoroso para investigar o impacto real de juízes sem raciocínio e com raciocínio no alinhamento de LLMs baseado em aprendizado por reforço. Nossa configuração sintética controlada, onde um juiz "padrão-ouro" (gpt-oss-120b) fornece anotações de preferência para treinar juízes menores, revela diferenças fundamentais entre juízes sem raciocínio e com raciocínio: juízes sem raciocínio levam facilmente a *reward hacking*, enquanto juízes com raciocínio podem resultar em políticas que alcançam um desempenho forte quando avaliadas pelo juiz padrão-ouro. Curiosamente, descobrimos que as políticas treinadas por juízes de raciocínio alcançam esse desempenho forte aprendendo a gerar saídas adversariais altamente eficazes que também podem pontuar bem em benchmarks populares, como o Arena-Hard, enganando outros juízes baseados em LLM. Combinado com nossa análise adicional, nosso estudo destaca tanto descobertas importantes quanto espaço para melhorias na aplicação de juízes baseados em LLM (de raciocínio) no pós-treinamento de LLMs em domínios não verificáveis.
A destilação padrão de LLM desperdiça computação em duas frentes: problemas que o aluno já dominou (gradientes próximos de zero) e problemas muito além do seu alcance (gradientes incoerentes que corroem capacidades existentes). Demonstramos que este desperdício não é apenas intuitivo, mas estruturalmente inevitável: a relação sinal-ruído do gradiente na destilação comprovadamente desaparece em ambos os extremos da taxa de acerto. Esta observação teórica leva ao Paced, uma estrutura que concentra a destilação na zona de desenvolvimento proximal – a fronteira da competência de um modelo estudante – através de um peso de taxa de acerto fundamentado w(p) = p^α(1 - p)^β, derivado da estrutura de desaparecimento no limite dos gradientes de destilação. Principais resultados: (1) Teoria: Provamos que o núcleo Beta w(p) = p^α(1-p)^β é uma família de pesos de ordem principal que surge da estrutura da relação sinal-ruído da destilação, e que é minimax-robusto – sob má especificação multiplicativa limitada, a perda de eficiência no pior caso é de apenas O(δ^2). (2) Destilação: Na destilação de um professor maior para um modelo estudante menor com KL direta, o Paced obtém ganho significativo sobre o modelo base, mantendo o esquecimento em benchmarks num nível baixo. (3) Auto-destilação: Em modelos ajustados por instrução com KL reversa, os ganhos também superam as linhas de base. (4) Sinergia em dois estágios: Um cronograma de KL-direta-depois-KL-reversa produz os resultados mais fortes na nossa configuração, alcançando melhorias substanciais em benchmarks de raciocínio padrão – apoiando uma interpretação de cobertura-de-modos-e-depois-consolidação do processo de destilação. Todas as configurações requerem apenas rollouts do estudante para estimar taxas de acerto, não precisam de alterações arquiteturais e são compatíveis com qualquer direção de KL.
Os Modelos de Linguagem de Grande Porte Multimodais (MLLMs) têm sido amplamente adotados como "MLLM-como-Avaliadores" devido à sua forte correlação com o julgamento humano em diversas tarefas visuais. No entanto, a maioria dos modelos avaliadores existentes é otimizada para cenários de tarefa única e tem dificuldade em generalizar para contextos diversos, um requisito crítico para uma avaliação confiável. Para superar esta limitação, propomos o Multi-Task Reinforcement Learning for MLLM-as-a-Judge (MT-RL-Judge), uma estrutura que otimiza conjuntamente o modelo avaliador em múltiplas tarefas, aproveitando as capacidades de generalização do RL. Resultados experimentais comparados com várias linhas de base robustas demonstram que o MT-RL-Judge supera as baselines fortes tanto na consistência do julgamento quanto na correlação com as preferências humanas. Além disso, nossa abordagem exibe generalização robusta em tarefas fora da distribuição, validando ainda mais sua eficácia.
A Reconhecimento de Fala Áudio-Visual (AVSR) aproveita informações acústicas e visuais para uma reconhecimento robusto sob ruído. No entanto, a forma como os modelos equilibram essas modalidades permanece pouco clara. Apresentamos o Dr. SHAP-AV, uma estrutura que utiliza valores de Shapley para analisar as contribuições das modalidades no AVSR. Por meio de experimentos com seis modelos em dois benchmarks e diversos níveis de SNR, introduzimos três análises: SHAP Global para o equilíbrio geral das modalidades, SHAP Generativo para a dinâmica das contribuições durante a decodificação e SHAP de Alinhamento Temporal para a correspondência entrada-saída. Nossos resultados revelam que os modelos tendem a uma maior dependência visual sob ruído, mas mantêm altas contribuições de áudio mesmo sob degradação severa. O equilíbrio das modalidades evolui durante a geração, o alinhamento temporal mantém-se sob ruído, e o SNR é o fator dominante que direciona a ponderação das modalidades. Essas descobertas expõem um viés persistente em relação ao áudio, motivando mecanismos de ponderação de modalidade ad-hoc e a atribuição baseada em Shapley como um diagnóstico padrão para AVSR.
Os modelos de difusão texto-áudio produzem áudio de alta fidelidade, mas exigem dezenas de avaliações de função (NFEs), incorrendo em latência de múltiplos segundos e taxa de transferência limitada. Apresentamos o SoundWeaver, o primeiro sistema de serviço livre de treinamento e agnóstico a modelos que acelera a difusão texto-áudio através de um *warm-start* a partir de áudio em cache semanticamente similar. O SoundWeaver introduz três componentes: um Seletor de Referência que recupera e alinha temporalmente candidatos em cache via portão semântico e com consciência de duração; um Portão de Salto que determina dinamicamente a percentagem de NFEs a saltar; e um Gerenciador de Cache leve que mantém a utilidade do cache através de evicção e refinamento conscientes da qualidade. Em traços de áudio do mundo real, o SoundWeaver alcança uma redução de latência de 1,8 a 3,0 vezes com um cache de apenas ~1K entradas, preservando ou melhorando a qualidade perceptual.
O controle de humanoides baseado em física tem alcançado progressos notáveis na habilitação de comportamentos realistas e de alto desempenho para um único agente. No entanto, estender essas capacidades para interações cooperativas humano-objeto (HOI) permanece um desafio. Apresentamos o TeamHOI, uma estrutura que permite a uma única política descentralizada lidar com HOIs cooperativas envolvendo qualquer número de agentes cooperantes. Cada agente opera usando observações locais, enquanto presta atenção aos outros membros da equipe por meio de uma rede de política baseada em Transformer com *tokens* de companheiros, permitindo uma coordenação escalável em tamanhos variáveis de equipe. Para impor realismo de movimento enquanto aborda a escassez de dados de HOI cooperativos, introduzimos ainda uma estratégia mascarada de Prioridade de Movimento Adversarial (AMP) que utiliza movimentos de referência de um único humano, mascarando as partes do corpo que interagem com o objeto durante o treinamento. As regiões mascaradas são então guiadas por recompensas de tarefa para produzir comportamentos cooperativos diversos e fisicamente plausíveis. Avaliamos o TeamHOI em uma tarefa desafiadora de transporte cooperativo envolvendo de dois a oito agentes humanoides e geometrias de objeto variadas. Por fim, para promover um transporte estável, projetamos uma recompensa de formação agnóstica ao tamanho da equipe e ao formato. O TeamHOI alcança altas taxas de sucesso e demonstra cooperação coerente em diversas configurações com uma única política.
Os transformadores frequentemente exibem um sumidouro de atenção: a massa de probabilidade se concentra em uma posição fixa e independente do conteúdo. Provamos que a computação de um comportamento simples condicionado a um gatilho necessariamente induz um sumidouro em modelos de autoatenção com softmax. Nossos resultados formalizam uma intuição familiar: a normalização sobre um simplex de probabilidade deve forçar a atenção a colapsar em uma âncora estável para realizar um estado padrão (por exemplo, quando o modelo precisa ignorar a entrada). Instanciamos isso com uma tarefa concreta: quando um token gatilho designado aparece, o modelo deve retornar a média de todas as representações de tokens precedentes e, caso contrário, deve gerar zero, uma tarefa que espelha a funcionalidade de cabeças de atenção em modelos reais (Barbero et al., 2025; Guo et al., 2024). Também provamos que a atenção com ReLU não normalizada pode resolver a mesma tarefa sem qualquer sumidouro, confirmando que a restrição de normalização é o motivador fundamental do comportamento de sumidouro. Experimentos validam nossas previsões e demonstram que elas se estendem além do cenário analisado teoricamente: modelos com softmax desenvolvem sumidouros fortes, enquanto a atenção com ReLU os elimina tanto em variantes de cabeça única quanto de múltiplas cabeças.
O Modelo de Linguagem Federado (FedLM) permite uma aprendizagem colaborativa sem partilha de dados brutos, mas introduz uma vulnerabilidade crítica, uma vez que cada cliente não confiável pode divulgar a instância do modelo funcional recebida. As atuais esquemas de marcação de água para FedLM frequentemente requerem acesso de caixa-branca e cooperação do lado do cliente, fornecendo apenas uma prova de propriedade a nível de grupo em vez de rastreabilidade individual. Propomos o EmbTracker, uma estrutura de marcação de água rastreável e de caixa-preta, operada no servidor e especificamente concebida para FedLMs. O EmbTracker alcança a verificabilidade de caixa-preta através da incorporação de uma marca de água baseada em backdoor, detetável por meio de consultas simples à API. A rastreabilidade a nível de cliente é realizada através da injeção de marcas de água únicas e específicas da identidade no modelo distribuído a cada cliente. Desta forma, um modelo divulgado pode ser atribuído a um culpado específico, garantindo robustez mesmo contra participantes não cooperativos. Experimentos extensivos em vários modelos de linguagem e visão-linguagem demonstram que o EmbTracker alcança uma rastreabilidade robusta com taxas de verificação próximas de 100%, alta resiliência contra ataques de remoção (afinação, poda, quantização) e um impacto negligenciável no desempenho da tarefa principal (tipicamente dentro de 1-2%).
Propomos a Tomografia Térmica por Campo Neural (NeFTY), uma estrutura de física diferenciável para a reconstrução quantitativa 3D de propriedades dos materiais a partir de medições transitórias de temperatura superficial. Enquanto a termografia tradicional se baseia em aproximações 1D por pixel que negligenciam a difusão lateral, e as Redes Neurais com Informação Física (PINNs) de restrição branda frequentemente falham em cenários de difusão transitória devido à rigidez do gradiente, o NeFTY parametriza o campo de difusividade 3D como um campo neural contínuo otimizado por meio de um solucionador numérico rigoroso. Ao aproveitar um solucionador de física diferenciável, nossa abordagem impõe as leis termodinâmicas como restrições rígidas, mantendo a eficiência de memória necessária para a tomografia 3D de alta resolução. Nosso paradigma de discretizar-depois-otimizar mitiga efetivamente o viés espectral e a natureza malposta inerentes à condução inversa de calor, permitindo a recuperação de defeitos subsuperficiais em escalas arbitrárias. A validação experimental com dados sintéticos demonstra que o NeFTY melhora significativamente a precisão da localização de defeitos subsuperficiais em comparação com as linhas de base. Mais detalhes em https://cab-lab-princeton.github.io/nefty/
Apesar do desempenho impressionante de modelos de difusão, como o Stable Diffusion (SD), na geração de imagens, sua inferência lenta limita a implantação prática. Trabalhos recentes aceleram a inferência por meio da destilação da difusão em múltiplas etapas em geradores de etapa única. Para compreender melhor o mecanismo de destilação, analisamos as alterações nos pesos da U-Net/DiT entre os alunos de etapa única e suas contrapartes professoras de múltiplas etapas. Nossa análise revela que as mudanças na direção dos pesos superam significativamente as mudanças na norma dos pesos, destacando-a como o fator chave durante a destilação. Motivados por essa percepção, propomos o LoRaD (Low-rank Rotation of weight Direction), um adaptador eficiente em parâmetros adaptado à destilação de difusão em uma etapa. O LoRaD foi projetado para modelar essas mudanças direcionais estruturadas usando matrizes de rotação de baixo posto aprendíveis. Integramos ainda mais o LoRaD na Destilação de Variância de Pontuação (VSD), resultando na WaDi (Weight Direction-aware Distillation) – uma nova estrutura de destilação em uma etapa. A WaDi atinge pontuações FID state-of-the-art no COCO 2014 e no COCO 2017, utilizando apenas aproximadamente 10% dos parâmetros treináveis da U-Net/DiT. Além disso, o modelo destilado de etapa única demonstra forte versatilidade e escalabilidade, generalizando bem para várias tarefas subsequentes, como geração controlável, inversão de relações e síntese de alta resolução.
A estimação de efeitos heterogêneos do tratamento (EHTs) a partir de dados de sobrevivência com censura à direita é crítica em aplicações de alto impacto, como a medicina de precisão e a formulação de políticas individualizadas. No entanto, o cenário da análise de sobrevivência apresenta desafios únicos para a estimação de EHTs devido à censura, aos contrafactuais não observados e a complexas suposições de identificação. Apesar dos avanços recentes, desde as Florestas de Sobrevivência Causal até os meta-aprendizes de sobrevivência e abordagens de imputação de resultados, as práticas de avaliação permanecem fragmentadas e inconsistentes. Apresentamos o SurvHTE-Bench, o primeiro benchmark abrangente para a estimação de EHTs com resultados censurados. O benchmark abrange (i) um conjunto modular de conjuntos de dados sintéticos com verdade real conhecida, variando sistematicamente suposições causais e dinâmicas de sobrevivência, (ii) conjuntos de dados semi-sintéticos que combinam covariáveis do mundo real com tratamentos e resultados simulados, e (iii) conjuntos de dados do mundo real de um estudo com gémeos (com verdade real conhecida) e de um ensaio clínico sobre o VIH. Através de configurações sintéticas, semi-sintéticas e do mundo real, fornecemos a primeira comparação rigorosa de métodos de EHTs de sobrevivência sob diversas condições e violações realistas das suposições. O SurvHTE-Bench estabelece uma base para uma avaliação justa, reproduzível e extensível de métodos causais de sobrevivência. Os dados e o código do nosso benchmark estão disponíveis em: https://github.com/Shahriarnz14/SurvHTE-Bench.
Apresentamos o NerVE, um framework eigenspectral unificado para compreender como as redes feed-forward (FFNs) em modelos de linguagem de grande escala (LLMs) organizam e regulam o fluxo de informação no espaço latente de alta dimensão. Apesar das FFNs dominarem o orçamento de parâmetros, a sua dinâmica de alta dimensão permanece pouco compreendida. O NerVE aborda esta lacuna através do rastreamento leve e eficiente em memória da dinâmica do eigenspectro via quatro métricas complementares: Entropia Espectral (dispersão), Razão de Participação (dimensionalidade efetiva), Enriquecimento Precoce de Autovalores (concentração nos maiores autovalores) e divergência de Jensen-Shannon (mudanças distribucionais). Nossa principal percepção é que as não linearidades das FFNs reinjetam variância através dos eigenmodes, governando fundamentalmente a utilização das dimensões latentes, e que a geometria do otimizador modula fortemente a extensão desta reinjeição de variância. Validamos o NerVE em várias escalas de modelos e diversas configurações arquitetónicas e de otimizadores, cada uma moldando de forma única a dinâmica das FFNs: esquemas de normalização controlando o fluxo de variância; geometrias dos pesos das FFNs restringindo o espaço latente; codificação posicional e funções de ativação regulando o fluxo de informação; e escolhas de otimizador redistribuindo a capacidade efetiva ao longo da profundidade. Através destes cenários, o NerVE recupera consistentemente assinaturas espectrais estáveis que se correlacionam com a capacidade de generalização do modelo e respondem de forma previsível a escolhas de design, generalizando além dos transformadores para arquiteturas MLP-Mixer, fornecendo insights acionáveis para escolhas arquitetónicas e de otimizador que vão além da tentativa e erro.
A Aprendizagem por Reforço Contínua (CRL) para modelos Visão-Linguagem-Ação (VLA) é uma direção promissora para o desenvolvimento de agentes corporificados que se autoaperfeiçoam e podem se adaptar a ambientes abertos e em evolução. No entanto, a sabedoria convencional da aprendizagem contínua sugere que o Ajuste Fino Sequencial (Seq. FT) ingênuo leva ao esquecimento catastrófico, necessitando de estratégias complexas de CRL. Neste trabalho, damos um passo atrás e conduzimos um estudo sistemático de CRL para grandes VLAs pré-treinados, abrangendo três modelos e cinco benchmarks desafiadores de aprendizagem por reforço ao longo da vida. Descobrimos que, ao contrário da crença estabelecida, o simples Seq. FT com adaptação de baixo posto (LoRA) é notavelmente robusto: ele alcança alta plasticidade, exibe pouco ou nenhum esquecimento e mantém uma forte generalização zero-shot, frequentemente superando métodos de CRL mais sofisticados. Por meio de uma análise detalhada, mostramos que essa robustez surge de uma sinergia entre o grande modelo pré-treinado, a adaptação com eficiência de parâmetros e o RL on-policy. Juntos, esses componentes remodelam o compromisso estabilidade-plasticidade, tornando a adaptação contínua estável e escalável. Nossos resultados posicionam o Ajuste Fino Sequencial como um método poderoso para CRL com VLAs e fornecem novos insights sobre a aprendizagem ao longo da vida na era dos grandes modelos. O código está disponível em github.com/UT-Austin-RobIn/continual-vla-rl.
Codificadores de imagem pré-treinados como o DINOv2 demonstraram desempenho excepcional em tarefas unimodais. No entanto, observamos que as suas representações de características estão pobremente alinhadas entre diferentes modalidades. Por exemplo, a incorporação de características para uma imagem RGB e o seu mapa de profundidade correspondente da mesma cena exibem uma similaridade de cosseno quase idêntica à de duas imagens aleatórias e não relacionadas. Para resolver isto, propomos o Codificador de Visão Onívoro, uma estrutura inovadora que apreende um espaço de características agnóstico em relação à modalidade. Treinamos o codificador com um objetivo duplo: primeiro, maximizar o alinhamento de características entre diferentes modalidades da mesma cena; e segundo, um objetivo de destilação que ancora as representações aprendidas à saída de um professor completamente congelado, como o DINOv2. O codificador estudante resultante torna-se "onívoro" ao produzir uma incorporação consistente e poderosa para uma determinada cena, independentemente da modalidade de entrada (RGB, Profundidade, Segmentação, etc.). Esta abordagem permite uma compreensão multimodal robusta, mantendo a semântica discriminativa do modelo de base original.
Os modelos generativos são amplamente utilizados para melhorar o foto-realismo de dados sintéticos no treinamento de algoritmos de visão computacional. No entanto, eles frequentemente introduzem artefatos visuais que degradam a precisão desses algoritmos e exigem recursos computacionais elevados, limitando sua aplicabilidade em cenários de treinamento ou avaliação em tempo real. Neste artigo, propomos a Hybrid Patch Enhanced Realism Generative Adversarial Network (HyPER-GAN), um método leve de tradução imagem-a-imagem baseado num gerador de arquitetura U-Net, projetado para inferência em tempo real. O modelo é treinado utilizando pares de imagens sintéticas e com foto-realismo aprimorado, complementado por uma estratégia de treinamento híbrida que incorpora *patches* correspondentes de dados do mundo real para melhorar o realismo visual e a consistência semântica. Resultados experimentais demonstram que a HyPER-GAN supera os métodos estado da arte de tradução imagem-a-imagem pareada em termos de latência de inferência, realismo visual e robustez semântica. Adicionalmente, ilustra-se que a estratégia de treinamento híbrida proposta realmente melhora a qualidade visual e a consistência semântica em comparação com o treinamento do modelo apenas com pares de imagens sintéticas e com foto-realismo aprimorado. O código e os modelos pré-treinados estão publicamente disponíveis para download em: https://github.com/stefanos50/HyPER-GAN
A proibição indonésia de exportação de minério de níquel impulsionou a rápida expansão da capacidade de fundição e processamento hidrometalúrgico no Parque Industrial da Indonésia em Morowali (IMIP), agora o maior complexo integrado de processamento de níquel do mundo, localizado na costa de Celebes Central. Se essa industrialização degradou o ambiente marinho adjacente permanece uma questão não quantificada. Aplicamos inferência causal Bayesiana de séries temporais estruturais (BSTS) a um registro multidecenal de cor do oceano por múltiplos sensores satelitais do coeficiente de atenuação difusa a 490 nm, K_d(490), para testar uma ligação causal entre a expansão do IMIP e a mudança na turbidez costeira. Um ponto de quebra estrutural consensual, um efeito causal posterior significativo estimado em relação a um contrafactual do Mar de Banda, e um teste de posto placebo livre de distribuição estabelecem coletivamente que a claridade da água costeira deteriorou-se após a transição da produção inicial de níquel ferroso (NPI) para a hiper-expansão das instalações de lixiviação ácida sob pressão (HPAL) para níquel de grau bateria. A análise de cobertura do solo derivada de satélite corrobora independentemente esse momento, mostrando um crescimento substancial da área construída e uma perda simultânea de cobertura arbórea dentro da área do IMIP. O resultante empobrecimento da zona eufótica ocorre em águas oligotróficas que sustentam alta biodiversidade marinha, onde mesmo uma degradação óptica moderada pode prejudicar a fotossíntese dos corais e comprimir o habitat recifal dependente da profundidade. Essas descobertas quantificam um custo ambiental marinho ausente do discurso político indonésio sobre a agregação de valor mineral e demonstram uma estrutura quase-experimental baseada em satélite e transferível para a avaliação de impacto causal em locais industriais costeiros em ambientes tropicais com limitação de dados.
A reconstrução 4D de equídeos (por exemplo, cavalos) a partir de vídeo monocular é importante para o bem-estar animal. Os métodos anteriores dominantes de reconstrução 4D animal requerem otimização conjunta do movimento e da aparência ao longo de todo um vídeo, o que é demorado e sensível a observações incompletas. Neste trabalho, propomos uma nova estrutura chamada 4DEquine, desacoplando o problema de reconstrução 4D em dois subproblemas: reconstrução dinâmica do movimento e reconstrução estática da aparência. Para o movimento, introduzimos um transformador espaço-temporal simples, porém eficaz, com uma fase de pós-otimização para regredir sequências suaves e alinhadas por pixel de pose e forma a partir do vídeo. Para a aparência, projetamos uma nova rede de avanço (feed-forward) que reconstrói um avatar animável de Gaussianas 3D de alta fidelidade a partir de uma única imagem. Para auxiliar o treinamento, criamos um grande conjunto de dados sintético de movimento, o VarenPoser, que apresenta movimentos superficiais de alta qualidade e trajetórias de câmera diversas, bem como um conjunto de dados sintético de aparência, o VarenTex, composto por imagens realistas de múltiplas vistas geradas por difusão multi-vista. Apesar de treinado apenas em conjuntos de dados sintéticos, o 4DEquine alcança desempenho de ponta nos conjuntos de dados do mundo real APT36K e AiM, demonstrando a superioridade do 4DEquine e dos nossos novos conjuntos de dados para a reconstrução tanto da geometria quanto da aparência. Estudos abrangentes de ablação validam a eficácia tanto da rede de reconstrução de movimento quanto da de aparência. Página do projeto: https://luoxue-star.github.io/4DEquine_Project_Page/.