Artigos de pesquisa em IA selecionados diariamente com traduções
Um objetivo de longo prazo dos agentes de linguagem é aprender e melhorar por meio de sua própria experiência, superando os humanos em tarefas complexas do mundo real. No entanto, treinar agentes a partir de dados de experiência com aprendizado por reforço continua sendo difícil em muitos ambientes, que ou carecem de recompensas verificáveis (por exemplo, websites) ou exigem execuções de longo prazo ineficientes (por exemplo, uso de ferramentas em múltiplas etapas). Como resultado, a maioria dos agentes atuais depende de ajuste fino supervisionado em dados de especialistas, o que é desafiador para escalar e generaliza mal. Essa limitação decorre da natureza das demonstrações de especialistas: elas capturam apenas um conjunto restrito de cenários e expõem o agente a uma diversidade limitada de ambientes. Nós abordamos essa limitação com um paradigma intermediário que chamamos de experiência inicial: dados de interação gerados pelas próprias ações do agente, onde os estados futuros resultantes servem como supervisão sem sinais de recompensa. Dentro desse paradigma, estudamos duas estratégias de uso desses dados: (1) Modelagem implícita do mundo, que usa estados coletados para fundamentar a política na dinâmica do ambiente; e (2) Autorreflexão, onde o agente aprende com suas ações subótimas para melhorar o raciocínio e a tomada de decisões. Avaliamos em oito ambientes diversos e múltiplas famílias de modelos. Nossas abordagens melhoram consistentemente a eficácia e a generalização fora do domínio, destacando o valor da experiência inicial. Além disso, em ambientes com recompensas verificáveis, nossos resultados fornecem sinais promissores de que a experiência inicial oferece uma base sólida para o subsequente aprendizado por reforço, posicionando-a como uma ponte prática entre o aprendizado por imitação e agentes totalmente orientados por experiência.
Embora os atuais Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tenham demonstrado proficiência em tarefas de raciocínio, como matemática e lógica, sua capacidade para raciocínio reflexivo de cadeia longa, um pré-requisito para resolver problemas complexos do mundo real, permanece amplamente inexplorada. Neste trabalho, primeiro conduzimos uma investigação empírica extensa para avaliar essa capacidade. Utilizando um mecanismo de síntese de dados cuidadosamente projetado, construímos o MM-HELIX, um benchmark multimodal composto por 1.260 amostras de 42 tarefas sintéticas desafiadoras que exigem pensamento iterativo e retrocesso. Os resultados empíricos neste benchmark revelam que os MLLMs existentes apresentam déficits significativos de desempenho no raciocínio reflexivo de cadeia longa. Para abordar essa limitação, geramos dados de pós-treinamento e exploramos paradigmas de aprendizagem para aproveitar tais dados. Primeiro, desenvolvemos o pipeline de Geração de Resposta Induzida por Etapas para criar o MM-HELIX-100K, um conjunto de dados em larga escala de 100 mil traços de raciocínio reflexivo de alta qualidade para a etapa de ajuste fino por instrução. Dado que o Aprendizado por Reforço padrão falha em tarefas complexas devido a sinais de recompensa esparsos e ao esquecimento catastrófico após o Ajuste Fino Supervisionado, propomos a Otimização de Política Híbrida Adaptativa (AHPO), uma estratégia de treinamento inovadora que unifica dinamicamente a supervisão offline e a otimização online em um único estágio. Essa estratégia permite que o modelo aprenda com dados de especialistas quando as recompensas são esparsas e conduza exploração independente uma vez proficiente. Quando aplicada à linha de base Qwen2.5-VL-7B, nosso método alcança uma melhoria de +18,6% na precisão no benchmark MM-HELIX e demonstra forte generalização com um ganho médio de desempenho de +5,7% em tarefas gerais de matemática e lógica. Nosso trabalho demonstra que o raciocínio reflexivo em MLLMs pode ser efetivamente aprendido e generalizado, abrindo caminho para o desenvolvimento de MLLMs mais capazes.
Os recentes avanços na edição de imagens baseada em instruções e na geração orientada por objetos têm atraído atenção significativa, mas ambas as tarefas ainda enfrentam limitações em atender às necessidades práticas dos usuários. A edição baseada em instruções depende exclusivamente de comandos de linguagem, que frequentemente falham em capturar detalhes específicos de edição, tornando necessárias imagens de referência. Enquanto isso, a geração orientada por objetos limita-se a combinar objetos ou pessoas concretas, ignorando conceitos mais amplos e abstratos. Para enfrentar esses desafios, propomos duas novas tarefas: edição e geração multimodal baseada em instruções. Essas tarefas suportam instruções tanto de texto quanto de imagem e ampliam o escopo para incluir conceitos concretos e abstratos, aumentando significativamente suas aplicações práticas. Apresentamos o DreamOmni2, que aborda dois desafios principais: criação de dados e design de estrutura do modelo. Nosso pipeline de síntese de dados consiste em três etapas: (1) usar um método de mistura de características para criar dados de extração para conceitos abstratos e concretos, (2) gerar dados de treinamento para edição multimodal baseada em instruções usando modelos de edição e extração, e (3) aplicar ainda mais o modelo de extração para criar dados de treinamento para edição multimodal baseada em instruções. Para a estrutura, a fim de lidar com entradas de múltiplas imagens, propomos um esquema de codificação de índice e deslocamento de codificação de posição, que ajuda o modelo a distinguir as imagens e evitar confusão de pixels. Além disso, introduzimos o treinamento conjunto com o VLM e nosso modelo de geração/edição para processar melhor instruções complexas. Adicionalmente, propomos benchmarks abrangentes para essas duas novas tarefas para impulsionar seu desenvolvimento. Experimentos mostram que o DreamOmni2 alcançou resultados impressionantes. Modelos e códigos serão disponibilizados.
Com o crescimento explosivo de dados, a modelagem de sequências longas tornou-se cada vez mais importante em tarefas como processamento de linguagem natural e bioinformática. No entanto, os métodos existentes enfrentam trade-offs inerentes entre eficiência e memória. Redes neurais recorrentes sofrem com o problema de desaparecimento e explosão de gradientes, dificultando sua escalabilidade. Transformers conseguem modelar dependências globais, mas são limitados pela complexidade quadrática. Recentemente, modelos de espaço de estados seletivos, como o Mamba, demonstraram alta eficiência com tempo O(n) e inferência recorrente O(1), porém sua memória de longo alcance decai exponencialmente. Neste trabalho, realizamos derivações matemáticas e análises teóricas da informação para desvendar sistematicamente o mecanismo de decaimento de memória do Mamba, respondendo a uma questão fundamental: qual é a natureza da memória de longo alcance do Mamba e como ela retém informações? Para quantificar a perda de informações-chave, introduzimos métricas de fidelidade de memória horizontal-vertical que capturam a degradação tanto dentro quanto entre camadas. Inspirados pela forma como os seres humanos destilam e retêm informações relevantes ao ler documentos longos, propomos o MemMamba, uma nova arquitetura que integra um mecanismo de sumarização de estados com atenção entre camadas e entre tokens, o que atenua o esquecimento de longo alcance enquanto preserva a complexidade linear. O MemMamba alcança melhorias significativas em relação às variantes existentes do Mamba e aos Transformers em benchmarks de sequências longas, como PG19 e Passkey Retrieval, além de oferecer um ganho de 48% na eficiência de inferência. Tanto a análise teórica quanto os resultados empíricos demonstram que o MemMamba representa um avanço no trade-off entre complexidade e memória, oferecendo um novo paradigma para a modelagem de sequências ultra-longas.
Modelos multimodais unificados têm demonstrado resultados promissores na geração e edição de conteúdo multimodal, mas permanecem amplamente limitados ao domínio de imagens. Neste trabalho, apresentamos o UniVideo, uma estrutura versátil que estende a modelagem unificada ao domínio de vídeo. O UniVideo adota um design de fluxo duplo, combinando um Modelo de Linguagem Multimodal de Grande Escala (MLLM) para compreensão de instruções com um DiT Multimodal (MMDiT) para geração de vídeo. Esse design permite a interpretação precisa de instruções multimodais complexas, preservando a consistência visual. Baseado nessa arquitetura, o UniVideo unifica diversas tarefas de geração e edição de vídeo sob um único paradigma de instrução multimodal e é treinado conjuntamente em todas elas. Experimentos extensivos demonstram que o UniVideo iguala ou supera os modelos de referência específicos para tarefas em geração de vídeo a partir de texto/imagem, geração de vídeo em contexto e edição de vídeo em contexto. Notavelmente, o design unificado do UniVideo permite duas formas de generalização. Primeiro, o UniVideo suporta a composição de tarefas, como combinar edição com transferência de estilo, integrando múltiplas capacidades em uma única instrução. Segundo, mesmo sem treinamento explícito em edição de vídeo de forma livre, o UniVideo transfere sua capacidade de edição de dados de edição de imagem em larga escala para esse cenário, lidando com instruções não vistas, como a inserção de personagens em chroma key ou a alteração de materiais dentro de um vídeo. Além dessas capacidades principais, o UniVideo também suporta a geração de vídeo baseada em prompts visuais, onde o MLLM interpreta os prompts visuais e guia o MMDiT durante a síntese. Para promover pesquisas futuras, disponibilizaremos nosso modelo e código.
Apresentamos a tarefa de completamento espaço-temporal arbitrário de vídeos, na qual um vídeo é gerado a partir de patches especificados pelo usuário em qualquer localização espacial e timestamp, semelhante a pintar em uma tela de vídeo. Essa formulação flexível unifica naturalmente muitas tarefas existentes de geração de vídeo controlável—incluindo geração de vídeo a partir de uma primeira imagem, inpainting, extensão e interpolação—sob um único paradigma coeso. No entanto, realizar essa visão enfrenta um obstáculo fundamental nos modelos modernos de difusão de vídeo latente: a ambiguidade temporal introduzida por VAEs causais, onde múltiplos frames de pixels são comprimidos em uma única representação latente, tornando o condicionamento preciso em nível de frame estruturalmente difícil. Abordamos esse desafio com o VideoCanvas, um novo framework que adapta o paradigma de Condicionamento em Contexto (ICC) para essa tarefa de controle refinado sem a necessidade de novos parâmetros. Propomos uma estratégia de condicionamento híbrida que desacopla o controle espacial e temporal: o posicionamento espacial é tratado via preenchimento com zeros, enquanto o alinhamento temporal é alcançado por meio da Interpolação Temporal RoPE, que atribui a cada condição uma posição fracionária contínua dentro da sequência latente. Isso resolve a ambiguidade temporal do VAE e permite controle consciente dos frames de pixels em um backbone congelado. Para avaliar essa nova capacidade, desenvolvemos o VideoCanvasBench, o primeiro benchmark para completamento espaço-temporal arbitrário de vídeos, abrangendo tanto a fidelidade intra-cena quanto a criatividade inter-cena. Experimentos demonstram que o VideoCanvas supera significativamente os paradigmas de condicionamento existentes, estabelecendo um novo estado da arte em geração de vídeo flexível e unificada.
Estudos recentes sobre modelos de raciocínio exploram a meta-consciência dos modelos de linguagem, a capacidade de saber como pensar por si mesmos. Argumentamos que grandes modelos de raciocínio carecem dessa propriedade de meta-consciência, demonstrando um grave desalinhamento entre os verdadeiros rollouts e as meta-informações previstas. Postulamos que alinhar a meta-predição com os verdadeiros rollouts levará a ganhos significativos de desempenho. Para verificar essa hipótese, projetamos um pipeline de treinamento que aumenta a Meta-Consciência por meio de Auto-Alinhamento (MASA), e comprovamos que a meta-consciência aprimorada se traduz diretamente em maior precisão. Diferentemente dos modelos de raciocínio meta-cognitivos existentes, nosso método não requer fontes externas de treinamento, mas aproveita sinais auto-gerados para treinar a meta-consciência. Além disso, nosso método permite um treinamento eficiente ao i) filtrar prompts de variância zero que são triviais ou insolúveis e ii) interromper rollouts longos quando é improvável que levem a respostas corretas. Os resultados são inspiradores: nossa estratégia produz melhorias significativas tanto na precisão quanto na eficiência do treinamento em tarefas do domínio interno e mostra uma forte generalização para benchmarks de domínio externo. Mais especificamente, nosso método pode acelerar o treinamento GRPO em mais de 1,28x para atingir o mesmo desempenho, e alcançar um ganho de 19,3% na precisão no AIME25, e um ganho médio de 6,2% em seis benchmarks de matemática. O treinamento com orientação meta-cognitiva melhora a generalização fora do domínio, proporcionando um aumento de 3,87% no GPQA-Diamond e um ganho geral de precisão de 2,08% em 13 benchmarks que abrangem domínios lógicos, científicos e de codificação.
A recomendação de reações químicas consiste em selecionar parâmetros adequados para as condições de reação, o que é fundamental para acelerar o avanço da ciência química. Com o rápido desenvolvimento de modelos de linguagem de grande escala (LLMs), há um interesse crescente em aproveitar suas capacidades de raciocínio e planejamento para a recomendação de condições de reação. Apesar de seu sucesso, os métodos existentes raramente explicam o raciocínio por trás das condições de reação recomendadas, limitando sua utilidade em fluxos de trabalho científicos de alto impacto. Neste trabalho, propomos o ChemMAS, um sistema multiagente que reformula a previsão de condições como uma tarefa de raciocínio baseada em evidências. O ChemMAS decompõe a tarefa em fundamentação mecanística, recuperação multicanal, debate agentivo com consciência de restrições e agregação de racionalizações. Cada decisão é respaldada por justificativas interpretáveis, fundamentadas em conhecimento químico e precedentes recuperados. Experimentos mostram que o ChemMAS alcança ganhos de 20-35% em relação a baselines específicos do domínio e supera LLMs de propósito geral em 10-15% na precisão Top-1, ao mesmo tempo que oferece racionalizações falseáveis e confiáveis para humanos, estabelecendo um novo paradigma para IA explicável na descoberta científica.
Modelos de Linguagem de Contexto Longo (LCLMs) recentes podem processar centenas de milhares de tokens em um único prompt, abrindo novas oportunidades para raciocínio multi-hop intensivo em conhecimento, ao integrar grandes conjuntos de documentos recuperados ou, em alguns casos, diretamente todas as informações necessárias. No entanto, simplesmente alimentar mais documentos na janela de contexto não captura como as evidências devem ser conectadas. Abordamos essa lacuna com modelos de pensamento (thought templates), que reformulam o raciocínio como caches de pensamento reutilizáveis, derivados de traços de resolução de problemas anteriores, estruturando como as evidências são combinadas e guiando a inferência multi-hop com documentos factuais. Para manter esses modelos eficazes, propomos uma estratégia de atualização que refina iterativamente os modelos derivados de dados de treinamento por meio de feedback em linguagem natural. Em diversos benchmarks e famílias de LCLMs, nossa abordagem oferece ganhos consistentes em relação a baselines robustas, tanto em cenários baseados em recuperação quanto em cenários sem recuperação. Além disso, mostramos que modelos otimizados podem ser destilados em modelos menores de código aberto, demonstrando sua ampla aplicabilidade e reutilização transparente de raciocínio. Nos referimos ao nosso framework como LCLMs Aumentados por Modelos de Pensamento (ToTAL).
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) impulsionou os Modelos de Linguagem de Grande Escala em raciocínios complexos, mas sua escalabilidade é frequentemente limitada por um gargalo de treinamento onde o desempenho estabiliza à medida que a entropia da política colapsa, sinalizando uma perda de exploração. Métodos anteriores geralmente abordam isso mantendo uma alta entropia da política, mas os mecanismos precisos que governam uma exploração significativa permaneceram pouco explorados. Nossa análise sugere que um foco não seletivo na entropia corre o risco de amplificar tokens irrelevantes e desestabilizar o treinamento. Este artigo investiga a dinâmica de exploração dentro do RLVR e identifica um problema-chave: a eliminação gradual de tokens exploratórios de baixa probabilidade valiosos, que denominamos \textit{faíscas de raciocínio}. Descobrimos que, embora abundantes em modelos pré-treinados, essas faíscas são sistematicamente extintas durante o RLVR devido à superpenalização, levando a uma degeneração na exploração. Para resolver isso, introduzimos a Regularização de Baixa Probabilidade (Lp-Reg). Seu mecanismo central regulariza a política em direção a uma distribuição proxy heurística. Essa proxy é construída filtrando tokens presumivelmente ruidosos e renormalizando a distribuição sobre os candidatos restantes. O resultado é uma proxy menos ruidosa onde a probabilidade das faíscas de raciocínio é amplificada, que então serve como um alvo de regularização suave para proteger esses tokens valiosos da eliminação via divergência de KL. Experimentos mostram que o Lp-Reg permite um treinamento estável on-policy por cerca de 1.000 passos, um regime onde métodos de controle de entropia de linha de base colapsam. Essa exploração sustentada leva a um desempenho de ponta, alcançando uma precisão média de 60,17% em cinco benchmarks de matemática, uma melhoria de 2,66% em relação a métodos anteriores. O código está disponível em https://github.com/CarlanLark/Lp-Reg.
Avanços recentes em agentes de Modelos de Linguagem de Grande Escala (LLMs) demonstraram suas promissoras capacidades gerais. No entanto, seu desempenho em domínios especializados do mundo real frequentemente se degrada devido a desafios na integração eficaz de ferramentas externas e estratégias específicas de prompting. Embora métodos como o aprendizado por reforço agentic tenham sido propostos para abordar esse problema, eles geralmente dependem de atualizações de parâmetros custosas, por exemplo, por meio de um processo que utiliza Ajuste Fino Supervisionado (SFT) seguido por uma fase de Aprendizado por Reforço (RL) com Otimização de Política Relativa de Grupo (GRPO) para alterar a distribuição de saída. No entanto, argumentamos que os LLMs podem alcançar um efeito semelhante na distribuição de saída ao aprender conhecimento experiencial como um prior de token, uma abordagem muito mais leve que não apenas aborda a escassez prática de dados, mas também evita o problema comum de sobreajuste. Para esse fim, propomos a Otimização de Política Relativa de Grupo sem Treinamento (Training-Free GRPO), uma solução econômica que melhora o desempenho de agentes LLM sem qualquer atualização de parâmetros. Nosso método aproveita a vantagem semântica relativa de grupo em vez de vantagens numéricas dentro de cada grupo de rollouts, destilando iterativamente conhecimento experiencial de alta qualidade durante o aprendizado multi-época em um conjunto mínimo de dados de verdade fundamental. Esse conhecimento serve como o prior de token aprendido, que é integrado de forma contínua durante as chamadas de API do LLM para orientar o comportamento do modelo. Experimentos em tarefas de raciocínio matemático e busca na web demonstram que o Training-Free GRPO, quando aplicado ao DeepSeek-V3.1-Terminus, melhora significativamente o desempenho fora do domínio. Com apenas algumas dezenas de amostras de treinamento, o Training-Free GRPO supera LLMs pequenos ajustados finamente com dados e custos marginais de treinamento.
Aproveitar o poder dos LLMs (Large Language Models) requer um delicado equilíbrio entre ser útil e inofensivo. Isso cria uma tensão fundamental entre dois desafios concorrentes: a vulnerabilidade a ataques adversariais que eliciam conteúdo inseguro e a tendência de recusa excessiva em prompts benignos, mas sensíveis. As abordagens atuais frequentemente lidam com esse equilíbrio utilizando modelos de segurança que rejeitam completamente qualquer conteúdo que contenha partes inseguras. Essa abordagem interrompe a música por completo - pode exacerbar recusas excessivas e falha em fornecer orientações detalhadas para as consultas que rejeita. Para ensinar aos modelos uma coreografia mais coordenada, propomos o WaltzRL, uma nova estrutura de aprendizado por reforço multiagente que formula o alinhamento de segurança como um jogo colaborativo de soma positiva. O WaltzRL treina conjuntamente um agente de conversação e um agente de feedback, onde o último é incentivado a fornecer sugestões úteis que melhoram a segurança e a utilidade das respostas do agente de conversação. No cerne do WaltzRL está uma Recompensa de Melhoria Dinâmica (DIR, Dynamic Improvement Reward) que evolui ao longo do tempo com base em quão bem o agente de conversação incorpora o feedback. No momento da inferência, respostas inseguras ou de recusa excessiva do agente de conversação são aprimoradas em vez de descartadas. O agente de feedback é implantado junto com o agente de conversação e só atua de forma adaptativa quando necessário, preservando a utilidade e a baixa latência em consultas seguras. Nossos experimentos, conduzidos em cinco conjuntos de dados diversos, demonstram que o WaltzRL reduz significativamente tanto as respostas inseguras (por exemplo, de 39,0% para 4,6% no WildJailbreak) quanto as recusas excessivas (de 45,3% para 9,9% no OR-Bench) em comparação com várias linhas de base. Ao permitir que os agentes de conversação e feedback co-evoluam e apliquem feedback de forma adaptativa, o WaltzRL aprimora a segurança dos LLMs sem degradar as capacidades gerais, avançando assim a fronteira de Pareto entre utilidade e inofensividade.
A reconstrução 3D em tempo real a partir de sequências de imagens monoculares é um desafio de longa data na visão computacional, crucial para aplicações como real-to-sim, AR/VR e robótica. Os métodos existentes enfrentam um grande dilema: a otimização por cena oferece alta fidelidade, mas é computacionalmente cara, enquanto modelos de base feed-forward permitem inferência em tempo real, mas lutam com precisão e robustez. Neste trabalho, propomos o ARTDECO, um framework unificado que combina a eficiência dos modelos feed-forward com a confiabilidade de pipelines baseados em SLAM. O ARTDECO utiliza modelos de base 3D para estimativa de pose e previsão de pontos, acoplados a um decodificador Gaussiano que transforma características multi-escala em Gaussianos 3D estruturados. Para manter tanto a fidelidade quanto a eficiência em escala, projetamos uma representação Gaussiana hierárquica com uma estratégia de renderização consciente do nível de detalhe (LoD), que melhora a fidelidade de renderização enquanto reduz a redundância. Experimentos em oito benchmarks diversos, tanto internos quanto externos, mostram que o ARTDECO oferece desempenho interativo comparável ao SLAM, robustez semelhante a sistemas feed-forward e qualidade de reconstrução próxima à otimização por cena, proporcionando um caminho prático para a digitalização em tempo real de ambientes do mundo real com geometria precisa e alta fidelidade visual. Explore mais demonstrações em nossa página do projeto: https://city-super.github.io/artdeco/.
O pós-treinamento para raciocínio de modelos de linguagem de grande escala (LLMs) depende cada vez mais de recompensas verificáveis: verificadores determinísticos que fornecem sinais de correção binários (0-1). Embora confiáveis, esse feedback binário é frágil—muitas tarefas admitem respostas parcialmente corretas ou alternativas que os verificadores subvalorizam, e a supervisão do tipo "tudo ou nada" resultante limita o aprendizado. Modelos de recompensa oferecem feedback mais rico e contínuo, que pode servir como um sinal de supervisão complementar aos verificadores. Apresentamos o HERO (Hybrid Ensemble Reward Optimization), um framework de aprendizado por reforço que integra sinais de verificadores com pontuações de modelos de recompensa de forma estruturada. O HERO emprega normalização estratificada para limitar as pontuações dos modelos de recompensa dentro de grupos definidos pelos verificadores, preservando a correção enquanto refina distinções de qualidade, e ponderação consciente da variância para enfatizar prompts desafiadores onde sinais densos são mais importantes. Em diversos benchmarks de raciocínio matemático, o HERO supera consistentemente as abordagens baseadas apenas em modelos de recompensa (RM-only) e apenas em verificadores (verifier-only), com ganhos significativos tanto em tarefas verificáveis quanto em tarefas difíceis de verificar. Nossos resultados mostram que o design híbrido de recompensas mantém a estabilidade dos verificadores enquanto aproveita a nuance dos modelos de recompensa para avançar o raciocínio.
Modelos de linguagem de grande escala estão emergindo como ferramentas poderosas para a descoberta de leis científicas, um desafio fundamental na ciência impulsionada por IA. No entanto, os benchmarks existentes para essa tarefa sofrem de um trilema metodológico fundamental, forçando uma escolha entre relevância científica, escalabilidade e resistência à memorização. Além disso, eles simplificam excessivamente a descoberta como um ajuste estático de funções, falhando em capturar o processo científico autêntico de revelar leis embutidas por meio da exploração interativa de sistemas de modelos complexos. Para abordar essas lacunas críticas, introduzimos o NewtonBench, um benchmark composto por 324 tarefas de descoberta de leis científicas em 12 domínios da física. Nosso projeto mitiga o trilema de avaliação utilizando mudanças metafísicas - alterações sistemáticas de leis canônicas - para gerar uma vasta gama de problemas que são escaláveis, cientificamente relevantes e resistentes à memorização. Além disso, elevamos a avaliação do ajuste estático de funções para a descoberta interativa de modelos, exigindo que os agentes investiguem experimentalmente sistemas complexos simulados para descobrir princípios ocultos. Nossos experimentos extensivos revelam uma capacidade clara, mas frágil, de descoberta em LLMs de ponta: essa habilidade se degrada rapidamente com o aumento da complexidade do sistema e exibe extrema sensibilidade ao ruído observacional. Notavelmente, descobrimos um efeito paradoxal da assistência por ferramentas: fornecer um interpretador de código pode prejudicar modelos mais capazes ao induzir uma mudança prematura da exploração para a exploração, fazendo com que se satisfaçam com soluções subótimas. Esses resultados demonstram que a descoberta robusta e generalizável em ambientes complexos e interativos permanece o desafio central. Ao fornecer um ambiente de teste escalável, robusto e cientificamente autêntico, o NewtonBench oferece uma ferramenta crucial para medir o progresso real e guiar o desenvolvimento de agentes de IA de próxima geração capazes de genuína descoberta científica.
Modelos de linguagem de grande escala recentemente demonstraram ganhos significativos em capacidade de raciocínio, frequentemente atribuídos à sua capacidade de gerar cadeias de pensamento mais longas e se engajar em raciocínio reflexivo. No entanto, a contribuição das reflexões para a melhoria de desempenho permanece pouco clara. Neste artigo, analisamos sistematicamente as execuções de oito modelos de raciocínio em cinco conjuntos de dados matemáticos. Focamos em comportamentos reflexivos em que o modelo já produziu uma resposta, mas continua refletindo antes de finalizar sua saída. Nossa análise revela que as reflexões são predominantemente confirmatórias e raramente alteram a resposta inicial do modelo, um padrão consistente entre modelos e conjuntos de dados. Para entender o papel das reflexões no treinamento, construímos conjuntos de dados de ajuste fino supervisionado (SFT) com quantidades variadas de etapas de reflexão. Observamos que treinar modelos em execuções com mais etapas de reflexão aprimora principalmente a correção da primeira resposta, em vez da capacidade de corrigir respostas inicialmente erradas por meio de reflexões. Isso nos motiva a propor um método de parada antecipada consciente da pergunta, que aumenta a eficiência de tokens durante a inferência ao interromper o processo de raciocínio assim que algumas respostas candidatas plausíveis são geradas, reduzindo assim etapas de reflexão desnecessárias. Motivados por isso, propomos ainda truncar dinamicamente as reflexões após o surgimento de uma resposta candidata durante a geração, o que reduz os tokens de raciocínio em 24,5% em cinco conjuntos de dados matemáticos, com uma queda de apenas 2,9% na precisão.
O escalonamento paralelo emergiu como um paradigma poderoso para aprimorar as capacidades de raciocínio em grandes modelos de linguagem (LLMs) ao gerar múltiplos rastros de Chain-of-Thought (CoT) simultaneamente. No entanto, essa abordagem introduz uma ineficiência computacional significativa devido à redundância entre os rastros — nossa análise revela que mais de 80% dos rastros de raciocínio paralelos produzem respostas finais idênticas, representando um desperdício substancial de computação. Para abordar esse gargalo crítico de eficiência, propomos o DeepPrune, uma estrutura inovadora que permite o escalonamento paralelo eficiente por meio de poda dinâmica. Nosso método inclui um modelo juiz especializado treinado com focal loss e técnicas de oversampling para prever com precisão a equivalência de respostas a partir de rastros parciais de raciocínio, alcançando 0,87 de AUROC na previsão de equivalência, combinado com um algoritmo de clustering guloso online que poda dinamicamente caminhos redundantes enquanto preserva a diversidade de respostas. Avaliações abrangentes em três benchmarks desafiadores (AIME 2024, AIME 2025 e GPQA) e múltiplos modelos de raciocínio demonstram que o DeepPrune alcança uma redução impressionante de mais de 80% nos tokens em comparação com a amostragem de consenso convencional na maioria dos casos, mantendo uma precisão competitiva dentro de 3 pontos percentuais. Nosso trabalho estabelece um novo padrão para o raciocínio paralelo eficiente, tornando o raciocínio de alto desempenho mais eficiente. Nosso código e dados estão disponíveis em: https://deepprune.github.io/
Pesquisas anteriores demonstraram que LLMs ajustados em conclusões maliciosas ou incorretas dentro de domínios restritos (por exemplo, código inseguro ou conselhos médicos incorretos) podem se tornar amplamente desalinhados, exibindo comportamentos prejudiciais, um fenômeno conhecido como desalinhamento emergente. Neste trabalho, investigamos se esse fenômeno pode se estender além de comportamentos de segurança para um espectro mais amplo de desonestidade e engano em cenários de alto risco (por exemplo, mentir sob pressão e comportamento enganoso). Para explorar isso, ajustamos LLMs de código aberto em conclusões desalinhadas em diversos domínios. Os resultados experimentais demonstram que os LLMs exibem comportamento amplamente desalinhado em termos de desonestidade. Além disso, exploramos ainda mais esse fenômeno em um cenário de ajuste fino combinado subsequente e descobrimos que a introdução de apenas 1% de dados desalinhados em uma tarefa subsequente padrão é suficiente para reduzir o comportamento honesto em mais de 20%. Adicionalmente, consideramos um ambiente mais prático de interação humano-IA, onde simulamos usuários benignos e tendenciosos interagindo com o LLM assistente. Notavelmente, descobrimos que o assistente pode ser desalinhado involuntariamente, exacerbando sua desonestidade com apenas 10% de usuários tendenciosos. Em resumo, estendemos o estudo do desalinhamento emergente para o domínio da desonestidade e engano em cenários de alto risco e demonstramos que esse risco surge não apenas por meio de ajuste fino direto, mas também em tarefas mistas subsequentes e em interações práticas entre humanos e IA.
Os Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades notáveis em diversos domínios, mas desafios significativos persistem ao implantá-los como agentes de IA para tarefas de longo prazo no mundo real. Os agentes LLM existentes sofrem de uma limitação crítica: eles são estáticos durante o teste e não conseguem aprender com a experiência, carecendo da capacidade de acumular conhecimento e melhorar continuamente no trabalho. Para enfrentar esse desafio, propomos o MUSE, uma nova estrutura de agente que introduz um sistema autoevolutivo e orientado por experiência, centrado em um Módulo de Memória hierárquico. O MUSE organiza diversos níveis de experiência e os utiliza para planejar e executar tarefas de longo prazo em múltiplas aplicações. Após a execução de cada subtarefa, o agente reflete autonomamente sobre sua trajetória, convertendo a trajetória bruta em experiência estruturada e integrando-a de volta ao Módulo de Memória. Esse mecanismo permite que o agente evolua além de seus parâmetros pré-treinados estáticos, promovendo aprendizado contínuo e autoevolução. Avaliamos o MUSE no benchmark de produtividade de longo prazo TAC. Ele alcança um novo desempenho de estado da arte (SOTA) por uma margem significativa, utilizando apenas um modelo leve Gemini-2.5 Flash. Experimentos suficientes demonstram que, à medida que o agente acumula experiência de forma autônoma, ele exibe capacidades cada vez superiores de conclusão de tarefas, além de robustas capacidades de aprendizado contínuo e autoevolução. Além disso, a experiência acumulada pelo MUSE exibe fortes propriedades de generalização, permitindo melhorias zero-shot em novas tarefas. O MUSE estabelece um novo paradigma para agentes de IA capazes de automatizar tarefas de produtividade no mundo real.
Abordamos a tarefa de transferência de estilo em vídeos com modelos de difusão, onde o objetivo é preservar o contexto de um vídeo de entrada enquanto o renderiza em um estilo alvo especificado por um prompt de texto. Um grande desafio é a falta de dados de vídeo pareados para supervisão. Propomos o PickStyle, um framework de transferência de estilo vídeo-a-vídeo que aprimora backbones de difusão de vídeo pré-treinados com adaptadores de estilo e se beneficia de dados de imagens estáticas pareadas com correspondências de estilo-fonte para treinamento. O PickStyle insere adaptadores de baixa classificação nas camadas de auto-atenção dos módulos de condicionamento, permitindo uma especialização eficiente para transferência de movimento-estilo enquanto mantém um forte alinhamento entre o conteúdo do vídeo e o estilo. Para preencher a lacuna entre a supervisão de imagens estáticas e vídeos dinâmicos, construímos clipes de treinamento sintéticos a partir de imagens pareadas aplicando aumentos compartilhados que simulam o movimento da câmera, garantindo que os priores temporais sejam preservados. Além disso, introduzimos o Context-Style Classifier-Free Guidance (CS-CFG), uma nova fatorização do guia livre de classificador em direções independentes de texto (estilo) e vídeo (contexto). O CS-CFG garante que o contexto seja preservado no vídeo gerado enquanto o estilo é efetivamente transferido. Experimentos em benchmarks mostram que nossa abordagem alcança traduções de vídeo temporalmente coerentes, fiéis ao estilo e que preservam o conteúdo, superando as baselines existentes tanto qualitativa quanto quantitativamente.
A super-resolução de vídeo em cascata surgiu como uma técnica promissora para desacoplar o custo computacional associado à geração de vídeos de alta resolução usando grandes modelos de base. No entanto, os estudos existentes estão amplamente restritos a tarefas de texto para vídeo e não aproveitam condições gerativas adicionais além do texto, que são cruciais para garantir fidelidade na geração de vídeos multimodais. Nós abordamos essa limitação apresentando o UniMMVSR, o primeiro framework unificado de super-resolução de vídeo generativo a incorporar condições híbrido-modais, incluindo texto, imagens e vídeos. Realizamos uma exploração abrangente de estratégias de injeção de condições, esquemas de treinamento e técnicas de mistura de dados dentro de um modelo de difusão de vídeo latente. Um desafio fundamental foi projetar métodos distintos de construção de dados e utilização de condições para permitir que o modelo utilizasse com precisão todos os tipos de condições, dada a sua variada correlação com o vídeo alvo. Nossos experimentos demonstram que o UniMMVSR supera significativamente os métodos existentes, produzindo vídeos com detalhes superiores e um maior grau de conformidade com condições multimodais. Também validamos a viabilidade de combinar o UniMMVSR com um modelo base para alcançar a geração guiada multimodal de vídeos em 4K, um feito anteriormente inatingível com as técnicas existentes.
O treinamento composicional tem sido o paradigma de facto nos modelos de linguagem multimodal de grande escala (MLLMs) existentes, onde codificadores visuais pré-treinados são conectados a modelos de linguagem de grande escala (LLMs) pré-treinados por meio de pré-treinamento multimodal contínuo. No entanto, a propriedade de escalabilidade multimodal desse paradigma permanece difícil de explorar devido ao treinamento separado. Neste artigo, focamos no treinamento nativo de MLLMs de ponta a ponta e estudamos sistematicamente seu espaço de design e propriedade de escalabilidade em um cenário prático, ou seja, com restrição de dados. Através de um estudo cuidadoso de várias escolhas em MLLMs, obtemos a meta-arquitetura ideal que melhor equilibra desempenho e custo de treinamento. Após isso, exploramos ainda mais as propriedades de escalabilidade do MLLM nativo e indicamos a relação de escalabilidade positivamente correlacionada entre codificadores visuais e LLMs. Com base nessas descobertas, propomos um MLLM nativo chamado NaViL, combinado com uma receita simples e custo-efetiva. Resultados experimentais em 14 benchmarks multimodais confirmam o desempenho competitivo do NaViL em comparação com MLLMs existentes. Além disso, nossas descobertas e resultados fornecem insights profundos para o estudo futuro de MLLMs nativos.
A auto-evolução é um tópico central de pesquisa para permitir que agentes baseados em grandes modelos de linguagem (LLMs) melhorem continuamente suas capacidades após o pré-treinamento. Pesquisas recentes têm observado uma transição de métodos livres de aprendizado por reforço (RL) para métodos baseados em RL. Os métodos atuais baseados em RL dependem de sinais de recompensa externa densa ou extraem sinais de recompensa intrínseca dos próprios LLMs. No entanto, essas abordagens divergem dos mecanismos de auto-evolução observados na inteligência humana, onde os indivíduos aprendem e melhoram por meio de discussões e colaborações mútuas. Neste trabalho, introduzimos Sistemas de Multiagentes Co-Evolutivos (CoMAS), uma nova estrutura que permite que os agentes melhorem autonomamente aprendendo com interações entre agentes sem supervisão externa. O CoMAS gera recompensas intrínsecas a partir de dinâmicas ricas de discussão, emprega um mecanismo de LLM-como-juiz para formular essas recompensas e otimiza a política de cada agente por meio de RL, permitindo assim uma co-evolução descentralizada e escalável. Resultados experimentais demonstram que o CoMAS supera consistentemente agentes não treinados e alcança desempenho de ponta na maioria das configurações de avaliação. Estudos de ablação confirmam a necessidade de sinais de recompensa baseados em interação e revelam uma escalabilidade promissora à medida que o número e a diversidade de agentes aumentam. Esses achados estabelecem o CoMAS como um paradigma novo e eficaz para a auto-evolução em agentes baseados em LLMs.
Com os recentes avanços nos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) demonstrando forte compreensão e raciocínio visual, o interesse em utilizá-los para melhorar o desempenho de edição dos modelos de difusão está crescendo. Apesar do rápido progresso, a maioria dos estudos carece de uma análise aprofundada das escolhas de design dos MLLMs. Além disso, a integração entre MLLMs e modelos de difusão continua sendo um desafio em algumas tarefas complexas, como a edição de vídeos. Neste artigo, apresentamos o InstructX, um framework unificado para edição de imagens e vídeos. Especificamente, conduzimos um estudo abrangente sobre a integração de MLLMs e modelos de difusão para edição guiada por instruções em diversas tarefas. Com base nesse estudo, analisamos a cooperação e a distinção entre imagens e vídeos na modelagem unificada. (1) Mostramos que o treinamento com dados de imagem pode levar ao surgimento de capacidades de edição de vídeo sem supervisão explícita, aliviando assim as restrições impostas pela escassez de dados de treinamento em vídeo. (2) Ao incorporar características específicas de modalidade dos MLLMs, nossa abordagem unifica efetivamente as tarefas de edição de imagem e vídeo em um único modelo. Experimentos extensivos demonstram que nosso método pode lidar com uma ampla gama de tarefas de edição de imagem e vídeo e alcança desempenho de ponta.
A geração aumentada por recuperação multimodal (MM-RAG) é uma abordagem fundamental para aplicar modelos de linguagem de grande escala (LLMs) e agentes a bases de conhecimento do mundo real. No entanto, as avaliações atuais são fragmentadas, focando-se em texto ou imagens isoladamente ou em configurações multimodais simplificadas que não capturam casos de uso multimodais centrados em documentos. Neste artigo, apresentamos o UniDoc-Bench, o primeiro benchmark em larga escala e realista para MM-RAG, construído a partir de 70 mil páginas de PDFs reais em oito domínios. Nosso pipeline extrai e vincula evidências de texto, tabelas e figuras, gerando 1.600 pares de perguntas e respostas (QA) multimodais que abrangem consultas de recuperação factual, comparação, sumarização e raciocínio lógico. Para garantir confiabilidade, 20% dos pares QA são validados por múltiplos anotadores e arbitragem de especialistas. O UniDoc-Bench permite comparações diretas entre quatro paradigmas: (1) apenas texto, (2) apenas imagem, (3) fusão multimodal texto-imagem e (4) recuperação conjunta multimodal — sob um protocolo unificado com pools de candidatos padronizados, prompts e métricas de avaliação. Nossos experimentos mostram que sistemas MM-RAG de fusão texto-imagem superam consistentemente tanto a recuperação unimodal quanto a baseada em embeddings multimodais conjuntos, indicando que nem texto nem imagens isoladamente são suficientes e que os embeddings multimodais atuais permanecem inadequados. Além do benchmarking, nossa análise revela quando e como o contexto visual complementa evidências textuais, expõe modos de falha sistemáticos e oferece orientações práticas para o desenvolvimento de pipelines MM-RAG mais robustos.
O modelo de recompensa (RM) desempenha um papel fundamental no alinhamento de grandes modelos de linguagem (LLM) com as preferências humanas. À medida que as aplicações do mundo real envolvem cada vez mais trajetórias de histórico longo, por exemplo, agentes LLM, torna-se indispensável avaliar se as respostas de um modelo não são apenas de alta qualidade, mas também fundamentadas e consistentes com o contexto fornecido. No entanto, os RMs atuais permanecem limitados a configurações de contexto curto e focam principalmente em atributos no nível da resposta (por exemplo, segurança ou utilidade), enquanto negligenciam amplamente a dimensão crítica da consistência entre contexto longo e resposta. Neste trabalho, apresentamos o Long-RewardBench, um benchmark projetado especificamente para avaliação de RM em contexto longo, que inclui tarefas de Comparação Pareada e Melhor-de-N. Nosso estudo preliminar revela que mesmo os RMs generativos mais avançados exibem fragilidade significativa em cenários de contexto longo, falhando em manter julgamentos de preferência conscientes do contexto. Motivados pela análise dos padrões de falha observados nas saídas dos modelos, propomos uma estratégia geral de treinamento em múltiplas etapas que escala efetivamente modelos arbitrários em RMs robustos para contexto longo (LongRMs). Experimentos mostram que nossa abordagem não apenas melhora substancialmente o desempenho na avaliação de contexto longo, mas também preserva uma forte capacidade em contexto curto. Notavelmente, nosso LongRM de 8B supera baselines muito maiores de escala 70B e iguala o desempenho do modelo proprietário Gemini 2.5 Pro.
Este estudo concentra-se em uma tarefa desafiadora, porém promissora, a geração de Vídeo Sonoro a partir de Texto (Text-to-Sounding-Video, T2SV), que visa gerar um vídeo com áudio sincronizado a partir de condições textuais, garantindo que ambas as modalidades estejam alinhadas com o texto. Apesar dos avanços no treinamento conjunto de áudio e vídeo, dois desafios críticos permanecem sem solução: (1) uma única legenda compartilhada, onde o texto para o vídeo é igual ao texto para o áudio, frequentemente cria interferência modal, confundindo os backbones pré-treinados, e (2) o mecanismo ideal para interação de recursos entre modalidades ainda não é claro. Para abordar esses desafios, propomos primeiro o framework de Legendagem Hierárquica Baseada em Visual (Hierarchical Visual-Grounded Captioning, HVGC), que gera pares de legendas desacopladas, uma legenda para o vídeo e outra para o áudio, eliminando a interferência na etapa de condicionamento. Com base no HVGC, introduzimos ainda o BridgeDiT, um novo transformer de difusão de torre dupla, que emprega um mecanismo de Dual CrossAttention (DCA) que atua como uma "ponte" robusta para permitir uma troca simétrica e bidirecional de informações, alcançando sincronização tanto semântica quanto temporal. Experimentos extensivos em três conjuntos de dados de referência, apoiados por avaliações humanas, demonstram que nosso método alcança resultados de ponta na maioria das métricas. Estudos abrangentes de ablação validam ainda mais a eficácia de nossas contribuições, oferecendo insights importantes para a futura tarefa de T2SV. Todos os códigos e checkpoints serão liberados publicamente.
Embora métodos de aprendizado por reforço, como a Otimização de Preferência Relativa de Grupo (GRPO), tenham aprimorado significativamente os Modelos de Linguagem de Grande Escala (LLMs), adaptá-los a modelos de difusão continua sendo um desafio. Em particular, o GRPO exige uma política estocástica, enquanto os amostradores de difusão mais econômicos são baseados em EDOs determinísticas. Trabalhos recentes abordam essa questão utilizando amostradores baseados em EDEs, que são ineficientes, para induzir estocasticidade. No entanto, essa dependência de ruído gaussiano independente do modelo resulta em convergência lenta. Para resolver esse conflito, propomos a Otimização Direta de Preferência de Grupo (DGPO), um novo algoritmo de aprendizado por reforço online que dispensa completamente o framework de gradiente de política. O DGPO aprende diretamente a partir de preferências em nível de grupo, que utilizam informações relativas das amostras dentro dos grupos. Esse design elimina a necessidade de políticas estocásticas ineficientes, permitindo o uso de amostradores determinísticos de EDOs mais eficientes e um treinamento mais rápido. Resultados extensivos mostram que o DGPO treina aproximadamente 20 vezes mais rápido que os métodos state-of-the-art existentes e alcança desempenho superior tanto em métricas de recompensa dentro do domínio quanto fora dele. O código está disponível em https://github.com/Luo-Yihong/DGPO.
Embora avanços recentes em modelos de raciocínio tenham demonstrado comportamentos cognitivos por meio de aprendizado por reforço, as abordagens existentes lutam para invocar capacidades de raciocínio profundo em agentes de múltiplas interações com horizontes temporais longos. Propomos o DeepMiner, uma estrutura inovadora que elicia tais habilidades ao introduzir tarefas de treinamento de alta dificuldade e uma janela de contexto dinâmica. O DeepMiner apresenta um método de construção reversa para gerar pares de perguntas e respostas complexos, mas verificáveis, a partir de fontes web autênticas, o que garante o desafio e a confiabilidade dos dados de treinamento enquanto injeta capacidades cognitivas em cenários de raciocínio de múltiplas interações. Além disso, projetamos uma estratégia de gerenciamento de contexto dinâmico elegante, porém eficaz, tanto para treinamento quanto para inferência, utilizando mecanismos de janela deslizante enquanto eliminamos a dependência de modelos externos de sumarização, capacitando assim o modelo a lidar de forma eficiente com contextos de longo horizonte que se expandem continuamente. Por meio de aprendizado por reforço no Qwen3-32B, desenvolvemos o DeepMiner-32B, que alcança melhorias substanciais de desempenho em vários benchmarks de agentes de busca. O DeepMiner atinge 33,5% de precisão no BrowseComp-en, superando o melhor agente de código aberto anterior em quase 20 pontos percentuais, e demonstra melhorias consistentes no BrowseComp-zh, XBench-DeepSearch e GAIA. Notavelmente, nosso gerenciamento de contexto dinâmico permite interações sustentadas de quase 100 turnos dentro do comprimento de contexto padrão de 32k, abordando efetivamente as limitações de contexto que restringem os sistemas existentes de interação de múltiplos turnos.
Este trabalho representa o primeiro esforço para escalar a destilação de consistência em tempo contínuo para modelos de difusão de imagem e vídeo em nível de aplicação geral. Embora o modelo de consistência em tempo contínuo (sCM) seja teoricamente fundamentado e empiricamente poderoso para acelerar a difusão em escala acadêmica, sua aplicabilidade em tarefas de grande escala, como geração de texto para imagem e vídeo, permanece incerta devido a desafios de infraestrutura no cálculo de produtos Jacobiano-vetor (JVP) e às limitações dos benchmarks de avaliação padrão. Primeiro, desenvolvemos um kernel JVP compatível com paralelismo baseado no FlashAttention-2, permitindo o treinamento de sCM em modelos com mais de 10 bilhões de parâmetros e tarefas de vídeo de alta dimensionalidade. Nossa investigação revela limitações fundamentais de qualidade do sCM na geração de detalhes finos, que atribuímos ao acúmulo de erros e à natureza "mode-covering" de seu objetivo de divergência direta. Para remediar isso, propomos o modelo de consistência em tempo contínuo regularizado por pontuação (rCM), que incorpora a destilação de pontuação como um regularizador de salto longo. Essa integração complementa o sCM com a divergência reversa "mode-seeking", melhorando efetivamente a qualidade visual enquanto mantém alta diversidade na geração. Validado em modelos de grande escala (Cosmos-Predict2, Wan2.1) com até 14 bilhões de parâmetros e vídeos de 5 segundos, o rCM iguala ou supera o método de destilação state-of-the-art DMD2 em métricas de qualidade, oferecendo vantagens notáveis em diversidade, tudo sem ajustes de GAN ou extensas buscas de hiperparâmetros. Os modelos destilados geram amostras de alta fidelidade em apenas 1 a 4 passos, acelerando a amostragem de difusão em 15 a 50 vezes. Esses resultados posicionam o rCM como uma estrutura prática e teoricamente fundamentada para avançar a destilação de difusão em grande escala.
Os Modelos Multimodais de Grande Escala (LMMs) alcançaram progressos notáveis em diversas capacidades; no entanto, o raciocínio complexo em vídeos no domínio científico continua sendo uma fronteira significativa e desafiadora. Os benchmarks atuais de vídeo visam predominantemente cenários gerais onde a percepção/reconhecimento é fortemente dependente, enquanto as tarefas de raciocínio são relativamente simples, levando à saturação e, consequentemente, falhando em avaliar efetivamente habilidades cognitivas multimodais avançadas. Para abordar essa lacuna crítica, introduzimos o SciVideoBench, um benchmark rigoroso especificamente projetado para avaliar o raciocínio avançado em vídeos em contextos científicos. O SciVideoBench consiste em 1.000 questões de múltipla escolha cuidadosamente elaboradas, derivadas de vídeos experimentais científicos de ponta que abrangem mais de 25 disciplinas acadêmicas especializadas e verificadas por um sistema semiautomático. Cada questão exige conhecimento específico do domínio, percepção espaço-temporal precisa e raciocínio lógico intrincado, desafiando efetivamente as habilidades cognitivas de ordem superior dos modelos. Nossa avaliação destaca déficits significativos de desempenho nos LMMs proprietários e de código aberto mais avançados, incluindo Gemini 2.5 Pro e Qwen2.5-VL, indicando um espaço substancial para avanço nas capacidades de raciocínio em vídeos. Análises detalhadas de fatores críticos, como complexidade de raciocínio e fundamentação visual, fornecem insights valiosos e uma direção clara para desenvolvimentos futuros em LMMs, impulsionando a evolução de co-cientistas de IA multimodal verdadeiramente capazes. Esperamos que o SciVideoBench possa atender aos interesses da comunidade e ajudar a expandir os limites da IA de ponta para a ciência em geral.
Apresentamos o UP2You, a primeira solução sem necessidade de ajustes para reconstruir retratos 3D vestidos de alta fidelidade a partir de fotos 2D extremamente não restritas capturadas em ambientes reais. Diferente de abordagens anteriores que exigem entradas "limpas" (por exemplo, imagens de corpo inteiro com oclusões mínimas ou capturas calibradas de múltiplas visões), o UP2You processa diretamente fotografias brutas e não estruturadas, que podem variar significativamente em pose, ângulo de visão, recorte e oclusão. Em vez de comprimir dados em tokens para uma lenta otimização online de texto para 3D, introduzimos um paradigma de retificador de dados que converte eficientemente entradas não restritas em imagens multi-visão limpas e ortogonais em uma única passagem direta em questão de segundos, simplificando a reconstrução 3D. Central ao UP2You é um módulo de agregação de características correlacionadas à pose (PCFA), que seletivamente funde informações de múltiplas imagens de referência em relação às poses alvo, permitindo uma melhor preservação de identidade e uma pegada de memória quase constante, mesmo com mais observações. Também introduzimos um preditor de forma baseado em múltiplas referências com perceiver, eliminando a necessidade de modelos corporais pré-capturados. Experimentos extensivos no 4D-Dress, PuzzleIOI e capturas em ambientes reais demonstram que o UP2You consistentemente supera métodos anteriores tanto em precisão geométrica (Chamfer-15%, P2S-18% no PuzzleIOI) quanto em fidelidade de textura (PSNR-21%, LPIPS-46% no 4D-Dress). O UP2You é eficiente (1,5 minutos por pessoa) e versátil (suporta controle de pose arbitrário e experimentação virtual 3D de múltiplas roupas sem treinamento), tornando-o prático para cenários do mundo real onde humanos são capturados casualmente. Tanto os modelos quanto o código serão liberados para facilitar pesquisas futuras nesta tarefa pouco explorada. Página do Projeto: https://zcai0612.github.io/UP2You
O sucesso notável dos grandes modelos de linguagem (LLMs) decorre de sua capacidade de consolidar vastas quantidades de conhecimento na memória durante o pré-treinamento e de recuperá-la da memória durante a inferência, permitindo capacidades avançadas, como memorização de conhecimento, seguimento de instruções e raciocínio. No entanto, os mecanismos de recuperação e consolidação da memória em LLMs permanecem pouco compreendidos. Neste artigo, propomos a hipótese do token de função para explicar o funcionamento dos LLMs: durante a inferência, os tokens de função ativam as características mais preditivas do contexto e governam a previsão do próximo token (recuperação da memória). Durante o pré-treinamento, prever os próximos tokens (geralmente tokens de conteúdo) que seguem os tokens de função aumenta o número de características aprendidas pelos LLMs e atualiza os parâmetros do modelo (consolidação da memória). Aqui, os tokens de função correspondem aproximadamente às palavras funcionais na linguística, incluindo marcas de pontuação, artigos, preposições e conjunções, em contraste com os tokens de conteúdo. Fornecemos ampla evidência experimental que apoia essa hipótese. Usando análise de grafos bipartidos, mostramos que um pequeno número de tokens de função ativa a maioria das características. Estudos de caso revelam ainda como os tokens de função ativam as características mais preditivas do contexto para direcionar a previsão do próximo token. Também descobrimos que, durante o pré-treinamento, a perda de treinamento é dominada pela previsão dos próximos tokens de conteúdo que seguem os tokens de função, o que força os tokens de função a selecionar as características mais preditivas do contexto.
A modelagem de recompensas está no cerne do aprendizado por reforço com feedback humano (RLHF), mas a maioria dos modelos de recompensa existentes depende de julgamentos escalares ou pareados que não capturam a natureza multifacetada das preferências humanas. Estudos recentes exploraram rubricas como recompensas (RaR), que utilizam critérios estruturados em linguagem natural para capturar múltiplas dimensões da qualidade da resposta. No entanto, produzir rubricas que sejam confiáveis e escaláveis continua sendo um desafio fundamental. Neste trabalho, apresentamos o OpenRubrics, uma coleção diversificada e em larga escala de pares (prompt, rubrica) para treinar modelos de geração de rubricas e modelos de recompensa baseados em rubricas. Para elicitar sinais de avaliação discriminativos e abrangentes, introduzimos a Geração de Rubricas Contrastivas (CRG), que deriva tanto regras rígidas (restrições explícitas) quanto princípios (qualidades implícitas) ao contrastar respostas preferidas e rejeitadas. Aumentamos ainda mais a confiabilidade ao impor consistência nos rótulos de preferência por meio de amostragem por rejeição para remover rubricas ruidosas. Em vários benchmarks de modelagem de recompensas, nosso modelo de recompensa baseado em rubricas, Rubric-RM, supera baselines de tamanho equivalente em 6,8%. Esses ganhos se transferem para modelos de política em benchmarks de seguimento de instruções e biomédicos. Nossos resultados mostram que as rubricas fornecem sinais de alinhamento escaláveis que reduzem a lacuna entre a avaliação humana custosa e a modelagem automatizada de recompensas, permitindo um novo paradigma de alinhamento de LLMs orientado por princípios.
Propomos o ERA, um novo paradigma que restringe a entropia de amostragem acima de limiares específicos ao aplicar ativações especialmente projetadas às saídas dos modelos. Nossa abordagem demonstra ampla eficácia em diferentes domínios: 1) para modelos de linguagem de grande escala (LLMs), aumentando a pontuação AIME 2025 para o Qwen2.5-Math-7B em 37,4%; 2) para agentes de aprendizado por reforço em controle contínuo, melhorando o desempenho em mais de 30% em relação a baselines robustos como o SAC no desafiador HumanoidBench; 3) para classificação de imagens, aumentando a precisão top-1 do ImageNet em 0,69% para o ResNet-50. Esses ganhos são alcançados com uma sobrecarga computacional de menos de 7%. Nosso trabalho valida a ativação de saída como uma ferramenta poderosa para controle de entropia, abrindo uma nova direção para o design de algoritmos mais simples e robustos.
A obtenção de uma rotação generalizada de objetos na mão continua sendo um desafio significativo na robótica, principalmente devido à dificuldade de transferir políticas de simulação para o mundo real. As dinâmicas complexas e ricas em contato da manipulação hábil criam uma "lacuna da realidade" que limitou trabalhos anteriores a cenários restritos envolvendo geometrias simples, tamanhos e proporções limitadas de objetos, poses de pulso restritas ou mãos personalizadas. Abordamos esse desafio de simulação para o real com uma nova estrutura que permite que uma única política, treinada em simulação, generalize para uma ampla variedade de objetos e condições no mundo real. O núcleo do nosso método é um modelo de dinâmica por articulação que aprende a preencher a lacuna da realidade ao ajustar efetivamente uma quantidade limitada de dados coletados no mundo real e, em seguida, adaptar as ações da política de simulação de acordo. O modelo é altamente eficiente em termos de dados e generalizável em diferentes distribuições de interação de mão inteira, ao fatorizar a dinâmica entre as articulações, comprimir influências de todo o sistema em variáveis de baixa dimensionalidade e aprender a evolução de cada articulação a partir de seu próprio perfil dinâmico, capturando implicitamente esses efeitos líquidos. Combinamos isso com uma estratégia de coleta de dados totalmente autônoma que coleta dados diversos de interação no mundo real com intervenção humana mínima. Nosso pipeline completo demonstra uma generalidade sem precedentes: uma única política rotaciona com sucesso objetos desafiadores com formas complexas (por exemplo, animais), altas proporções (até 5,33) e tamanhos pequenos, tudo isso enquanto lida com diversas orientações de pulso e eixos de rotação. Avaliações abrangentes no mundo real e uma aplicação de teleoperação para tarefas complexas validam a eficácia e robustez da nossa abordagem. Website: https://meowuu7.github.io/DexNDM/
Apresentamos o Stable Video Materials 3D (SViM3D), um framework para prever materiais de renderização baseada em física (PBR) consistentes em múltiplas visões, a partir de uma única imagem. Recentemente, modelos de difusão de vídeo têm sido utilizados com sucesso para reconstruir objetos 3D de forma eficiente a partir de uma única imagem. No entanto, a reflectância ainda é representada por modelos de materiais simples ou precisa ser estimada em etapas adicionais para permitir a reiluminação e edições controladas de aparência. Estendemos um modelo de difusão de vídeo latente para gerar parâmetros PBR variáveis espacialmente e normais de superfície em conjunto com cada visão gerada, com base em controle explícito de câmera. Essa configuração única permite a reiluminação e a geração de um ativo 3D utilizando nosso modelo como prior neural. Introduzimos diversos mecanismos nesse pipeline que melhoram a qualidade nesse cenário mal-posto. Demonstramos desempenho de ponta em reiluminação e síntese de novas visões em múltiplos conjuntos de dados centrados em objetos. Nosso método generaliza para diversas entradas, permitindo a geração de ativos 3D reilumináveis úteis em AR/VR, filmes, jogos e outras mídias visuais.
Um paradigma dominante para ensinar habilidades complexas a robôs humanoides é retargetar movimentos humanos como referências cinemáticas para treinar políticas de aprendizado por reforço (RL). No entanto, os pipelines de retargeting existentes frequentemente enfrentam dificuldades com a significativa lacuna de embodiment entre humanos e robôs, produzindo artefatos fisicamente implausíveis, como deslizamento dos pés e penetração. Mais importante ainda, os métodos comuns de retargeting negligenciam as ricas interações humano-objeto e humano-ambiente, essenciais para locomoção expressiva e loco-manipulação. Para resolver isso, apresentamos o OmniRetarget, um motor de geração de dados que preserva interações, baseado em uma malha de interação que modela e preserva explicitamente as relações espaciais e de contato cruciais entre um agente, o terreno e objetos manipulados. Ao minimizar a deformação Laplaciana entre as malhas humana e robótica, enquanto impõe restrições cinemáticas, o OmniRetarget gera trajetórias cinematicamente viáveis. Além disso, preservar interações relevantes para a tarefa permite uma ampliação eficiente dos dados, de uma única demonstração para diferentes embodimentos de robôs, terrenos e configurações de objetos. Avaliamos de forma abrangente o OmniRetarget retargetando movimentos dos conjuntos de dados OMOMO, LAFAN1 e nosso conjunto de dados interno de captura de movimento (MoCap), gerando mais de 8 horas de trajetórias que alcançam melhor satisfação de restrições cinemáticas e preservação de contato em comparação com baselines amplamente utilizados. Esses dados de alta qualidade permitem que políticas de RL proprioceptivas executem com sucesso habilidades de parkour e loco-manipulação de longo horizonte (até 30 segundos) em um humanoide Unitree G1, treinadas com apenas 5 termos de recompensa e uma simples randomização de domínio compartilhada por todas as tarefas, sem qualquer currículo de aprendizado.
O custo computacional cada vez maior do pré-treinamento de Modelos de Linguagem de Grande Escala (LLMs) exige abordagens mais eficientes. Investimentos significativos em custos computacionais foram feitos em checkpoints bem treinados existentes, mas muitos deles permanecem subutilizados devido a restrições de engenharia ou capacidade limitada do modelo. Para reutilizar de forma eficiente esse custo "afundado", propomos reciclar checkpoints pré-treinados expandindo suas contagens de parâmetros e continuando o treinamento. Propomos um método de crescimento ortogonal bem adequado para modelos Mixture-of-Experts (MoE) convergidos: cópia de camadas interposicionais para crescimento em profundidade e duplicação de especialistas com ruído injetado para crescimento em largura. Para determinar o momento ideal para esse crescimento em sequências de checkpoints, realizamos experimentos abrangentes de escalonamento que revelam que a precisão final tem uma forte correlação positiva com a quantidade de custo afundado, indicando que um maior investimento prévio leva a um melhor desempenho. Escalonamos nossa abordagem para modelos com 70 bilhões de parâmetros e mais de 1 trilhão de tokens de treinamento, alcançando um ganho de precisão de 10,66% em relação ao treinamento do zero sob o mesmo orçamento computacional adicional. Nossa abordagem de reciclagem de checkpoints estabelece uma base para o pré-treinamento economicamente eficiente de modelos de linguagem de grande escala.
O aprendizado por reforço tem sido amplamente aplicado para aprimorar as capacidades de raciocínio de grandes modelos de linguagem. Estender os limites de inferência de modelos menores tornou-se um foco de pesquisa proeminente. No entanto, algoritmos como o Group Relative Policy Optimization (GRPO) sofrem de uma desvantagem clara: o limite superior das respostas geradas pelo modelo é inteiramente determinado pelo próprio modelo, impedindo a aquisição de conhecimento a partir de amostras que são todas incorretas ou todas corretas. Neste artigo, introduzimos o Group Contrastive Policy Optimization (GCPO), um método que incorpora respostas de referência externas padrão. Quando o modelo não consegue resolver um problema, a resposta de referência fornece a solução correta, direcionando o modelo para uma atualização inequivocamente precisa. Essa abordagem oferece duas vantagens principais: (1) melhora a eficiência do treinamento ao utilizar plenamente cada amostra; (2) permite que o modelo emule a estratégia de resolução de problemas da resposta de referência durante o treinamento, aprimorando assim a generalização no raciocínio. O GCPO alcança resultados excepcionais em vários conjuntos de dados de referência, proporcionando melhorias substanciais em relação ao modelo base. Nosso código está disponível em: https://github.com/AchoWu/GCPO.
Com o objetivo de alcançar uma manipulação robótica generalizada, a generalização espacial é a capacidade mais fundamental, exigindo que a política funcione de forma robusta sob diferentes distribuições espaciais de objetos, ambiente e do próprio agente. Para atingir isso, é necessário coletar uma quantidade substancial de demonstrações humanas que cubram diferentes configurações espaciais para treinar uma política visuomotora generalizada por meio de aprendizado por imitação. Trabalhos anteriores exploram uma direção promissora que aproveita a geração de dados para adquirir dados espacialmente diversos a partir de um número mínimo de demonstrações de origem. No entanto, a maioria das abordagens enfrenta uma lacuna significativa entre simulação e realidade e frequentemente se limita a cenários restritos, como cenários de base fixa e pontos de vista de câmera predefinidos. Neste artigo, propomos um framework de geração de dados 3D de real para real (R2RGen) que amplia diretamente os pares observação-ação de nuvem de pontos para gerar dados do mundo real. O R2RGen é livre de simulador e renderização, sendo, portanto, eficiente e plug-and-play. Especificamente, dada uma única demonstração de origem, introduzimos um mecanismo de anotação para análise detalhada da cena e da trajetória. Uma estratégia de ampliação em grupo é proposta para lidar com composições complexas de múltiplos objetos e diversas restrições de tarefas. Além disso, apresentamos um processamento consciente da câmera para alinhar a distribuição dos dados gerados com sensores 3D do mundo real. Empiricamente, o R2RGen melhora substancialmente a eficiência dos dados em experimentos extensivos e demonstra um forte potencial para escalabilidade e aplicação em manipulação móvel.
Apesar de suas notáveis capacidades de compreensão de linguagem natural, os Modelos de Linguagem de Grande Escala (LLMs) têm sido subutilizados para tarefas de recuperação de informações. Apresentamos o Search-R3, uma nova estrutura que aborda essa limitação ao adaptar LLMs para gerar embeddings de busca como uma saída direta de seu processo de raciocínio. Nossa abordagem explora as capacidades de cadeia de pensamento dos LLMs, permitindo que eles produzam embeddings mais eficazes ao raciocinar passo a passo por meio de análises semânticas complexas. Implementamos isso por meio de três mecanismos complementares. (1) uma etapa de aprendizado supervisionado habilita a capacidade do modelo de produzir embeddings de qualidade, (2) uma metodologia de aprendizado por reforço (RL) que otimiza a geração de embeddings juntamente com o raciocínio, e (3) um ambiente de RL especializado que lida de forma eficiente com representações de embeddings em evolução sem exigir a recodificação completa do corpus em cada iteração de treinamento. Nossas extensas avaliações em diversos benchmarks demonstram que o Search-R3 supera significativamente métodos anteriores ao unificar os processos de raciocínio e geração de embeddings. Essa abordagem integrada de pós-treinamento representa um avanço substancial no tratamento de tarefas complexas e intensivas em conhecimento que exigem tanto raciocínio sofisticado quanto recuperação eficaz de informações. Página do projeto: https://github.com/ytgui/Search-R3
O uso eficiente de grandes modelos de linguagem (LLMs) é crucial para implantação em escala: sem roteamento adaptativo, os sistemas ou pagam em excesso por modelos robustos ou arriscam um desempenho inferior com modelos mais fracos. Selecionar o LLM adequado para cada consulta é, fundamentalmente, um problema de decisão online: os modelos diferem em suas capacidades, os preços flutuam e os usuários valorizam precisão e custo de maneiras distintas. No entanto, a maioria dos roteadores é treinada offline com rótulos para todos os modelos candidatos, uma suposição que se quebra na implantação, onde apenas o resultado do modelo escolhido é observado. Nós preenchemos essa lacuna com o BaRP, uma abordagem de Roteamento com Preferências baseada em Feedback de Bandit, que treina sob a mesma restrição de feedback parcial da implantação, ao mesmo tempo que suporta inferência ajustável por preferências: os operadores podem ajustar a relação desempenho/custo durante o teste sem precisar retreinar. Enquadrado como um bandit contextual sobre características do prompt e um vetor de preferências do usuário, nosso método simula um cenário de feedback online durante o treinamento e adapta suas decisões de roteamento para cada novo prompt, em vez de depender de supervisão offline com informações completas. Experimentos abrangentes mostram que nosso método supera consistentemente roteadores offline robustos em pelo menos 12,46% e o maior LLM em pelo menos 2,45%, além de generalizar de forma robusta para tarefas não vistas.
Os recentes avanços em Modelos de Linguagem de Grande Escala (LLMs) e Aprendizado por Reforço (RL) levaram a um desempenho robusto em questionamento e resposta (QA) de domínio aberto. No entanto, os modelos existentes ainda enfrentam dificuldades com perguntas que admitem múltiplas respostas válidas. Os benchmarks padrão de QA, que geralmente assumem uma única resposta correta, ignoram essa realidade e, portanto, produzem sinais de treinamento inadequados. As tentativas existentes para lidar com a ambiguidade frequentemente dependem de anotações manuais custosas, que são difíceis de escalar para conjuntos de dados multi-hop, como HotpotQA e MuSiQue. Neste artigo, apresentamos o A^2Search, uma estrutura de treinamento de ponta a ponta e sem anotações para reconhecer e lidar com a ambiguidade. Em seu núcleo está um pipeline automatizado que detecta perguntas ambíguas e coleta respostas alternativas por meio de amostragem de trajetória e verificação de evidências. O modelo é então otimizado com RL usando uma recompensa AnsF1 cuidadosamente projetada, que naturalmente acomoda múltiplas respostas. Experimentos em oito benchmarks de QA de domínio aberto demonstram que o A^2Search alcança um novo desempenho de ponta. Com apenas uma única execução, o A^2Search-7B produz uma pontuação média AnsF1@1 de 48,4% em quatro benchmarks multi-hop, superando todas as linhas de base fortes, incluindo o ReSearch-32B (46,2%), substancialmente maior. Análises extensas mostram ainda que o A^2Search resolve a ambiguidade e generaliza entre benchmarks, destacando que abraçar a ambiguidade é essencial para construir sistemas de QA mais confiáveis. Nosso código, dados e pesos do modelo podem ser encontrados em https://github.com/zfj1998/A2Search.
Edição 3D - a tarefa de modificar localmente a geometria ou aparência de um ativo 3D - tem amplas aplicações na criação de conteúdo imersivo, entretenimento digital e AR/VR. No entanto, ao contrário da edição 2D, ela permanece desafiadora devido à necessidade de consistência entre vistas, fidelidade estrutural e controlabilidade refinada. As abordagens existentes são frequentemente lentas, propensas a distorções geométricas ou dependentes de máscaras 3D manuais e precisas, que são propensas a erros e impraticáveis. Para enfrentar esses desafios, avançamos tanto na frente de dados quanto na de modelos. No lado dos dados, introduzimos o 3DEditVerse, o maior benchmark de edição 3D pareado até o momento, composto por 116.309 pares de treinamento de alta qualidade e 1.500 pares de teste curados. Construído através de pipelines complementares de edições geométricas orientadas por pose e edições de aparência guiadas por modelos de fundação, o 3DEditVerse garente localidade de edição, consistência multivista e alinhamento semântico. No lado dos modelos, propomos o 3DEditFormer, um transformador condicional que preserva a estrutura 3D. Ao aprimorar a geração de imagem para 3D com atenção de dupla orientação e portas adaptativas no tempo, o 3DEditFormer separa regiões editáveis da estrutura preservada, permitindo edições precisas e consistentes sem a necessidade de máscaras 3D auxiliares. Experimentos extensivos demonstram que nosso framework supera as baselines state-of-the-art tanto quantitativa quanto qualitativamente, estabelecendo um novo padrão para edição 3D prática e escalável. O conjunto de dados e o código serão liberados. Projeto: https://www.lv-lab.org/3DEditFormer/
À medida que novos otimizadores ganham tração e a quantização de modelos se torna padrão para implantação eficiente, surge uma questão fundamental: como a escolha do otimizador afeta o desempenho do modelo na presença de quantização? Apesar dos avanços em ambas as áreas, evidências sistemáticas sobre as interações entre otimizadores e quantização ainda são limitadas. Para preencher essa lacuna, estudamos o impacto da escolha do otimizador na robustez do modelo sob quantização, considerando tanto a quantização pós-treinamento (PTQ) quanto o treinamento com consciência de quantização (QAT). Primeiro, treinamos modelos de precisão completa, variando de 50M a 1,5B de parâmetros, com seis otimizadores, para explorar o cenário de hiperparâmetros e estabelecer baselines bem ajustados. Em seguida, aplicamos PTQ para avaliar como o desempenho do modelo se degrada quando treinado com diferentes otimizadores. Descobrimos que métricas relacionadas a outliers, como a razão máximo-média (MMR) e a curtose, falham em prever o desempenho da PTQ entre diferentes otimizadores. Mostramos analiticamente que isso ocorre porque a MMR captura apenas erros isolados em camadas, ignorando como os erros de quantização se acumulam e se propagam pela rede. Para estudar a degradação do QAT, treinamos modelos quantizados do zero e os comparamos com nossos baselines de precisão original. Descobrimos que otimizadores que se saem bem na configuração de pré-treinamento original podem não permanecer ótimos sob QAT, e que modelos treinados com Shampoo apresentam a menor degradação de precisão. Por fim, derivamos leis de escalonamento para treinamento com consciência de quantização sob diferentes otimizadores, mostrando que Shampoo alcança a maior eficiência de parâmetros entre todos os otimizadores testados.
A fusão nuclear desempenha um papel crucial na busca por produção de energia confiável e sustentável. Um grande obstáculo para a viabilidade da energia de fusão é a compreensão da turbulência do plasma, que prejudica significativamente o confinamento do plasma e é vital para o projeto de reatores de próxima geração. A turbulência do plasma é governada pela equação girocinética não linear, que evolui uma função de distribuição 5D ao longo do tempo. Devido ao seu alto custo computacional, modelos de ordem reduzida são frequentemente empregados na prática para aproximar o transporte turbulento de energia. No entanto, eles omitem efeitos não lineares exclusivos da dinâmica 5D completa. Para enfrentar esse desafio, introduzimos o GyroSwin, o primeiro substituto neural 5D escalável capaz de modelar simulações girocinéticas não lineares 5D, capturando assim os fenômenos físicos negligenciados pelos modelos reduzidos, enquanto fornece estimativas precisas do transporte turbulento de calor. O GyroSwin (i) estende os Transformers Hierárquicos de Visão para 5D, (ii) introduz módulos de atenção cruzada e integração para interações latentes 3D↔5D entre campos de potencial eletrostático e a função de distribuição, e (iii) realiza separação de modo por canal inspirada na física não linear. Demonstramos que o GyroSwin supera métodos numéricos reduzidos amplamente utilizados na previsão de fluxo de calor, captura a cascata de energia turbulenta e reduz o custo da girocinética não linear totalmente resolvida em três ordens de magnitude, mantendo-se fisicamente verificável. O GyroSwin mostra leis de escalabilidade promissoras, testadas até um bilhão de parâmetros, abrindo caminho para substitutos neurais escaláveis para simulações girocinéticas de turbulência de plasma.
Os recentes avanços em modelos generativos têm aberto novas possibilidades emocionantes no campo de veículos autônomos. Especificamente, modelos de geração de vídeo estão sendo explorados como ambientes virtuais de teste controláveis. Simultaneamente, modelos de direção de ponta a ponta (E2E) surgiram como uma alternativa simplificada aos sistemas modulares convencionais de direção autônoma, ganhando popularidade por sua simplicidade e escalabilidade. No entanto, a aplicação dessas técnicas à simulação e planejamento levanta questões importantes. Primeiro, embora os modelos de geração de vídeo possam produzir vídeos cada vez mais realistas, esses vídeos podem aderir fielmente às condições especificadas e ser realistas o suficiente para a avaliação de planejadores E2E autônomos? Segundo, dado que os dados são cruciais para entender e controlar planejadores E2E, como podemos obter insights mais profundos sobre seus vieses e melhorar sua capacidade de generalização para cenários fora da distribuição? Neste trabalho, preenchemos a lacuna entre os modelos de direção e os modelos generativos de mundo (Drive&Gen) para abordar essas questões. Propomos novas medidas estatísticas que aproveitam os motoristas E2E para avaliar o realismo dos vídeos gerados. Ao explorar a controlabilidade do modelo de geração de vídeo, conduzimos experimentos direcionados para investigar lacunas de distribuição que afetam o desempenho do planejador E2E. Por fim, mostramos que os dados sintéticos produzidos pelo modelo de geração de vídeo oferecem uma alternativa econômica à coleta de dados do mundo real. Esses dados sintéticos melhoram efetivamente a generalização do modelo E2E além dos Domínios de Design Operacional existentes, facilitando a expansão dos serviços de veículos autônomos para novos contextos operacionais.
Políticas de robôs generalistas treinadas em conjuntos de dados em larga escala e visualmente homogêneos podem ser suscetíveis ao aprendizado por atalhos, o que prejudica sua generalização fora da distribuição (OOD). Embora a ampliação de dados generativa seja uma abordagem comum para introduzir diversidade, ela apresenta um desafio sutil: a composição dos dados. Misturar de forma ingênua dados reais e sintéticos pode corromper o sinal de aprendizado, pois esse processo frequentemente prioriza a diversidade visual em detrimento da fidelidade da informação. Este artigo sugere que a generalização robusta depende de uma composição de dados fundamentada e consciente da fidelidade. Introduzimos o Ajuste de Fidelidade de Informação Coerente (CIFT), uma estrutura que trata a composição de dados como um problema de otimização. O CIFT utiliza um proxy prático para a Fidelidade de Informação baseado na geometria do espaço de características de um conjunto de dados. Isso permite a identificação de uma transição de fase, denominada Ponto de Descoerência, onde a estabilidade do treinamento se degrada. A estrutura inclui um motor generativo, Ampliação de Vídeo Multi-Visualização (MVAug), para sintetizar um espectro de dados causalmente desembaraçado para esse processo de ajuste. A aplicação do CIFT em arquiteturas de políticas como pi_0 e Diffusion Policy melhora as taxas de sucesso OOD em mais de 54%. Esses resultados indicam que a composição consciente da fidelidade, além da síntese de dados isoladamente, é um componente importante para o desenvolvimento de robôs robustos e de propósito geral.
O uso de redes alvo é uma abordagem popular para estimar funções de valor em Aprendizado por Reforço Profundo (RL, do inglês Reinforcement Learning). Embora eficaz, a rede alvo permanece uma solução de compromisso que preserva a estabilidade ao custo de alvos que se movem lentamente, retardando assim o aprendizado. Por outro lado, usar a rede online como um alvo bootstrapped é intuitivamente atraente, embora seja bem conhecido que isso leva a um aprendizado instável. Neste trabalho, buscamos obter o melhor dos dois mundos ao introduzir uma nova regra de atualização que calcula o alvo usando a estimativa MÍNima entre a rede Alvo e a rede Online, dando origem ao nosso método, MINTO. Por meio dessa modificação simples, porém eficaz, mostramos que o MINTO permite um aprendizado de função de valor mais rápido e estável, mitigando o potencial viés de superestimação ao usar a rede online para bootstrapping. Notavelmente, o MINTO pode ser integrado de forma contínua em uma ampla gama de algoritmos baseados em valor e de ator-crítico com um custo insignificante. Avaliamos o MINTO extensivamente em diversos benchmarks, abrangendo RL online e offline, bem como espaços de ação discretos e contínuos. Em todos os benchmarks, o MINTO melhora consistentemente o desempenho, demonstrando sua ampla aplicabilidade e eficácia.