Artigos de pesquisa em IA selecionados diariamente com traduções
Neste artigo, propomos o NeoVerse, um modelo versátil de mundo 4D capaz de realizar reconstrução 4D, geração de vídeos por trajectórias novas e uma variedade de aplicações secundárias. Primeiro, identificamos uma limitação comum de escalabilidade nos métodos actuais de modelação de mundos 4D, causada quer por dados 4D multivista especializados e dispendiosos, quer por um pré-processamento de treino complexo. Em contraste, o nosso NeoVerse é construído sobre uma filosofia central que torna todo o pipeline escalável para diversos vídeos monoculares capturados em ambientes reais. Especificamente, o NeoVerse apresenta reconstrução 4D *feed-forward* livre de poses, simulação de padrões de degradação monoculares em tempo real e outras técnicas bem alinhadas. Estes projetos conferem ao NeoVerse versatilidade e generalização para vários domínios. Entretanto, o NeoVerse alcança um desempenho de ponta em *benchmarks* padrão de reconstrução e geração. A nossa página do projeto está disponível em https://neoverse-4d.github.io.
Os frameworks de agentes de Modelos de Linguagem de Grande Porte (LLM) existentes enfrentam dois desafios significativos: altos custos de configuração e capacidades estáticas. A construção de um agente de alta qualidade frequentemente requer esforço manual extensivo na integração de ferramentas e engenharia de prompt, enquanto os agentes implantados lutam para se adaptar a ambientes dinâmicos sem ajustes finos dispendiosos. Para resolver essas questões, propomos o Youtu-Agent, um framework modular projetado para a geração automatizada e a evolução contínua de agentes LLM. O Youtu-Agent apresenta um sistema de configuração estruturado que desacopla ambientes de execução, conjuntos de ferramentas e gerenciamento de contexto, permitindo reutilização flexível e síntese automatizada. Introduzimos dois paradigmas de geração: um modo Workflow para tarefas padrão e um modo Meta-Agente para requisitos complexos e não padronizados, capaz de gerar automaticamente código de ferramenta, prompts e configurações. Além disso, o Youtu-Agent estabelece um sistema híbrido de otimização de políticas: (1) um módulo de Prática de Agente que permite aos agentes acumular experiência e melhorar o desempenho por meio de otimização em contexto sem atualizações de parâmetros; e (2) um módulo Agente RL que se integra a frameworks de treinamento distribuído para permitir o aprendizado por reforço escalável e estável de qualquer Youtu-Agent de maneira ponta a ponta e em larga escala. Experimentos demonstram que o Youtu-Agent alcança desempenho de última geração no WebWalkerQA (71,47%) e no GAIA (72,8%) usando modelos de pesos abertos. Nossa pipeline de geração automatizada atinge uma taxa de sucesso de síntese de ferramentas superior a 81%, enquanto o módulo de Prática melhora o desempenho no AIME 2024/2025 em +2,7% e +5,4%, respectivamente. Além disso, nosso treinamento de Agente RL alcança aceleração de 40% com melhoria estável de desempenho em LLMs de 7B, aprimorando as capacidades de codificação/raciocínio e busca em até 35% e 21%, respectivamente, em benchmarks de Matemática e QA geral/de múltiplos saltos.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm feito progressos notáveis na compreensão de vídeo. No entanto, eles sofrem de uma vulnerabilidade crítica: uma dependência excessiva de *priors* linguísticos, o que pode levar a alucinações visuais sem fundamento, especialmente ao processar vídeos contrafactuais que desafiam o senso comum. Esta limitação, decorrente do desequilíbrio intrínseco de dados entre texto e vídeo, é difícil de resolver devido ao custo substancial de coletar e anotar dados contrafactuais. Para resolver isso, introduzimos o DualityForge, uma nova estrutura de síntese de dados contrafactuais que emprega edição de vídeo baseada em difusão e controlável para transformar vídeos do mundo real em cenários contrafactuais. Ao incorporar informações contextuais estruturadas nos processos de edição de vídeo e geração de Perguntas e Respostas (QA), a estrutura produz automaticamente pares de QA de alta qualidade juntamente com pares de vídeo original-editado para treinamento contrastivo. Com base nisso, construímos o DualityVidQA, um grande conjunto de dados de vídeo projetado para reduzir as alucinações dos MLLMs. Além disso, para explorar plenamente a natureza contrastiva dos nossos dados emparelhados, propomos o Treinamento de Vantagem Normalizada por Dualidade (DNA-Train), um regime de treinamento SFT-RL em dois estágios onde a fase de RL aplica uma normalização de vantagem *pair-wise* ell_1, permitindo assim uma otimização de política mais estável e eficiente. Experimentos no DualityVidQA-Test demonstram que nosso método reduz substancialmente as alucinações do modelo em vídeos contrafactuais, produzindo uma melhoria relativa de 24,0% sobre a linha de base Qwen2.5-VL-7B. Além disso, nossa abordagem alcança ganhos significativos tanto em *benchmarks* de alucinação quanto de propósito geral, indicando uma forte capacidade de generalização. Disponibilizaremos nosso conjunto de dados e código em *open source*.
A geração de cabeças falantes cria avatares realistas a partir de retratos estáticos para comunicação virtual e criação de conteúdo. No entanto, os modelos atuais ainda não conseguem transmitir a sensação de comunicação verdadeiramente interativa, gerando frequentemente respostas unidirecionais que carecem de envolvimento emocional. Identificamos dois desafios principais para avatares verdadeiramente interativos: gerar movimento em tempo real sob restrições causais e aprender reações expressivas e vibrantes sem dados rotulados adicionais. Para enfrentar esses desafios, propomos o Avatar Forcing, um novo framework para geração interativa de avatares de cabeça que modela interações usuário-avatar em tempo real através de difusão forçada. Este projeto permite que o avatar processe entradas multimodais em tempo real, incluindo áudio e movimento do usuário, com baixa latência para reações instantâneas a pistas verbais e não verbais, como fala, acenos e risadas. Além disso, introduzimos um método de otimização de preferência direta que aproveita amostras de perda sintéticas construídas ao descartar condições do usuário, permitindo o aprendizado de interação expressiva sem rotulação. Resultados experimentais demonstram que nosso framework permite interação em tempo real com baixa latência (aproximadamente 500ms), alcançando uma aceleração 6,8 vezes maior em comparação com a linha de base, e produz movimento de avatar reativo e expressivo, sendo preferido em mais de 80% das vezes contra a linha de base.
Apesar dos recentes avanços, particularmente no desenvolvimento de Modelos de Linguagem, existem desafios fundamentais e questões não respondidas sobre como esses modelos podem aprender/memorizar continuamente, autoaprimorar-se e encontrar soluções eficazes. Neste artigo, apresentamos um novo paradigma de aprendizagem, denominado Aprendizado Aninhado (AA), que representa coerentemente um modelo de aprendizagem de máquina com um conjunto de problemas de otimização aninhados, multinível e/ou paralelos, cada um com seu próprio fluxo de contexto. Através da lente do AA, os métodos de aprendizagem profunda existentes aprendem a partir de dados comprimindo seu próprio fluxo de contexto, e a aprendizagem em contexto emerge naturalmente em modelos grandes. O AA sugere uma filosofia para projetar algoritmos de aprendizagem mais expressivos com mais níveis, resultando em aprendizagem em contexto de ordem superior e potencialmente desbloqueando capacidades eficazes de aprendizagem contínua. Defendemos o AA apresentando três contribuições centrais: (1) Otimizadores Expressivos: Mostramos que otimizadores baseados em gradiente conhecidos, como Adam, SGD com Momentum, etc., são na verdade módulos de memória associativa que visam comprimir a informação dos gradientes (por meio de descida de gradiente). Com base nessa percepção, apresentamos outros otimizadores mais expressivos com memória profunda e/ou regras de aprendizagem mais poderosas; (2) Módulo de Aprendizagem de Auto-modificação: Aproveitando os insights do AA sobre algoritmos de aprendizagem, apresentamos um modelo de sequência que aprende a se modificar aprendendo seu próprio algoritmo de atualização; e (3) Sistema de Memória Contínua: Apresentamos uma nova formulação para sistema de memória que generaliza o ponto de vista tradicional de memória de longo/curto prazo. Combinando nosso modelo de sequência de auto-modificação com o sistema de memória contínua, apresentamos um módulo de aprendizagem contínua, chamado Hope, que mostra resultados promissores em modelagem de linguagem, incorporação de conhecimento, tarefas de generalização com poucos exemplos, aprendizagem contínua e tarefas de raciocínio com contexto longo.
Embora os Modelos de Visão e Linguagem (VLMs) possam resolver tarefas complexas por meio de raciocínio agentivo, suas capacidades permanecem amplamente limitadas a cadeias de raciocínio orientadas a texto ou à invocação isolada de ferramentas. Eles não conseguem exibir a proficiência semelhante à humana necessária para intercalar perfeitamente a manipulação dinâmica de ferramentas com o raciocínio contínuo, particularmente em cenários visualmente complexos e intensivos em conhecimento que exigem ferramentas externas coordenadas, como pesquisa e recorte de imagens. Neste trabalho, introduzimos o SenseNova-MARS, uma nova estrutura de Raciocínio e Pesquisa Agentivo Multimodal (Multimodal Agentic Reasoning and Search) que capacita os VLMs com capacidades intercaladas de raciocínio visual e uso de ferramentas por meio de aprendizagem por reforço (RL). Especificamente, o SenseNova-MARS integra dinamicamente as ferramentas de pesquisa de imagem, pesquisa de texto e recorte de imagem para enfrentar desafios de compreensão visual de granularidade fina e intensivos em conhecimento. Na fase de RL, propomos o algoritmo BN-GSPO (Batch-Normalized Group Sequence Policy Optimization) para melhorar a estabilidade do treinamento e avançar a capacidade do modelo de invocar ferramentas e raciocinar de forma eficaz. Para avaliar abrangentemente os VLMs agentivos em tarefas visuais complexas, introduzimos o benchmark HR-MMSearch, o primeiro benchmark orientado à pesquisa composto por imagens de alta resolução com perguntas intensivas em conhecimento e orientadas por busca. Os experimentos demonstram que o SenseNova-MARS alcança um desempenho state-of-the-art em benchmarks de pesquisa de código aberto e de compreensão de imagem de granularidade fina. Especificamente, em benchmarks orientados à pesquisa, o SenseNova-MARS-8B pontua 67,84 no MMSearch e 41,64 no HR-MMSearch, superando modelos proprietários como o Gemini-3-Flash e o GPT-5. O SenseNova-MARS representa um passo promissor em direção aos VLMs agentivos, fornecendo capacidades de uso de ferramentas eficazes e robustas. Para facilitar pesquisas futuras nesta área, disponibilizaremos todo o código, modelos e conjuntos de dados.
A eficácia das redes residuais profundas está fundamentalmente baseada na conexão de atalho de identidade. Embora este mecanismo mitigue eficazmente o problema do gradiente vanishing, ele impõe um viés indutivo estritamente aditivo nas transformações de características, limitando assim a capacidade da rede de modelar transições de estado complexas. Neste artigo, introduzimos a Aprendizagem Delta Profunda (DDL), uma nova arquitetura que generaliza a conexão residual padrão, modulando o atalho de identidade com uma transformação geométrica aprendível e dependente dos dados. Esta transformação, denominada Operador Delta, constitui uma perturbação de posto 1 da matriz identidade, parametrizada por um vetor de direção de reflexão k(X) e um escalar de gate β(X). Fornecemos uma análise espectral deste operador, demonstrando que o gate β(X) permite uma interpolação dinâmica entre mapeamento de identidade, projeção ortogonal e reflexão geométrica. Além disso, reestruturamos a atualização residual como uma injeção síncrona de posto 1, onde o gate atua como um tamanho de passo dinâmico que governa tanto a eliminação de informações antigas quanto a escrita de novas características. Esta unificação capacita a rede a controlar explicitamente o espectro do seu operador de transição por camadas, permitindo a modelagem de dinâmicas complexas e não monotónicas, preservando as características estáveis de treinamento das arquiteturas residuais com gates.
A reconstrução de cenas 3D dinâmicas a partir de vídeos monoculares requer a captura simultânea de detalhes de aparência de alta frequência e movimento temporalmente contínuo. Os métodos existentes que utilizam primitivas Gaussianas únicas são limitados pela sua natureza de filtragem passa-baixa, enquanto as funções Gabor padrão introduzem instabilidade energética. Além disso, a falta de restrições de continuidade temporal frequentemente leva a artefatos de movimento durante a interpolação. Propomos o AdaGaR, uma estrutura unificada que aborda tanto a adaptabilidade de frequência quanto a continuidade temporal na modelagem explícita de cenas dinâmicas. Introduzimos a Representação Gabor Adaptativa, que estende as Gaussianas por meio de pesos de frequência aprendíveis e compensação energética adaptativa para equilibrar a captura de detalhes e a estabilidade. Para a continuidade temporal, empregamos *Cubic Hermite Splines* com Regularização de Curvatura Temporal para garantir uma evolução suave do movimento. Um mecanismo de Inicialização Adaptativa que combina estimativa de profundidade, rastreamento de pontos e máscaras de primeiro plano estabelece distribuições estáveis de nuvens de pontos no início do treinamento. Experimentos no Tap-Vid DAVIS demonstram desempenho de última geração (PSNR 35.49, SSIM 0.9433, LPIPS 0.0723) e forte generalização em interpolação de quadros, consistência de profundidade, edição de vídeo e síntese de visão estéreo. Página do projeto: https://jiewenchan.github.io/AdaGaR/
Os pipelines de última geração para modelos de linguagem de grande escala (LLMs) dependem de loops de raciocínio impulsionados por amostragem: geram cadeias de pensamento diversas e reforçam aquelas com maior pontuação, otimizando principalmente a correção. Analisamos como essa escolha de projeto é sensível ao colapso da distribuição do modelo sobre os caminhos de raciocínio, reduzindo drasticamente a entropia semântica e minando a resolução criativa de problemas. Para analisar essa falha, introduzimos o Raciocínio Criativo Distribucional (DCR), um objetivo variacional unificado que formula o treinamento como um fluxo de gradiente através de medidas de probabilidade em traços de solução. STaR, GRPO e DPO, bem como bônus de entropia e outros métodos, constituem casos particulares da mesma função de perda. A estrutura produz três resultados principais: (i) o teorema do decaimento da diversidade, descrevendo como objetivos baseados em correção levam a modos distintos de decaimento da diversidade para STaR, GRPO e DPO; (ii) projetos que garantem convergência para uma política estável e diversa, prevenindo efetivamente o colapso; e (iii) receitas simples e acionáveis para alcançar isso na prática. O DCR oferece, assim, a primeira receita fundamentada para LLMs que permanecem corretos e criativos.
Estudos recentes demonstraram progressos significativos no alinhamento de modelos de difusão texto-imagem com as preferências humanas através do Aprendizado por Reforço com Feedback Humano. No entanto, embora os métodos existentes atinjam pontuações elevadas em métricas automatizadas de recompensa, eles frequentemente resultam em Colapso do Modo de Preferência (PMC) - uma forma específica de "hackeamento" de recompensa na qual os modelos convergem para saídas estreitas e de alta pontuação (por exemplo, imagens com estilos monolíticos ou superexposição generalizada), degradando severamente a diversidade generativa. Neste trabalho, introduzimos e quantificamos este fenômeno, propondo o DivGenBench, um novo benchmark concebido para medir a extensão do PMC. Postulamos que este colapso é impulsionado pela superotimização baseada nos vieses inerentes ao modelo de recompensa. Com base nesta análise, propomos o Alinhamento por Desacoplamento Direcional (D²-Align), uma nova estrutura que mitiga o PMC corrigindo directionalmente o sinal de recompensa. Especificamente, nosso método primeiro aprende uma correção direcional no espaço de incorporação do modelo de recompensa, mantendo o modelo congelado. Esta correção é então aplicada ao sinal de recompensa durante o processo de otimização, impedindo que o modelo colapse em modos específicos e, assim, mantendo a diversidade. Nossa avaliação abrangente, combinando análise qualitativa com métricas quantitativas de qualidade e diversidade, revela que o D²-Align alcança um alinhamento superior com a preferência humana.
Avanços recentes demonstraram que o aprendizado por reforço (RL) pode melhorar substancialmente as capacidades de raciocínio de modelos de linguagem de grande porte (LLMs). A eficácia desse treinamento por RL, no entanto, depende criticamente do espaço de exploração definido pela distribuição de saída de tokens do modelo pré-treinado. Neste artigo, revisitamos a função de perda de entropia cruzada padrão, interpretando-a como um caso específico de otimização por gradiente de política aplicada em um episódio de etapa única. Para estudar sistematicamente como a distribuição pré-treinada molda o potencial de exploração para o RL subsequente, propomos um objetivo de pré-treinamento generalizado que adapta os princípios de RL *on-policy* para o aprendizado supervisionado. Ao enquadrar a previsão do próximo token como um processo de decisão estocástico, introduzimos uma estratégia de modelagem de recompensa que equilibra explicitamente diversidade e precisão. Nosso método emprega um fator de escala de recompensa positivo para controlar a concentração de probabilidade nos tokens corretos e um mecanismo consciente da classificação que trata os tokens negativos de alta e baixa classificação de forma assimétrica. Isso nos permite remodelar a distribuição de saída de tokens pré-treinada e investigar como fornecer um espaço de exploração mais favorável para o RL, melhorando, em última instância, o desempenho de raciocínio de ponta a ponta. Contrariamente à intuição de que uma entropia de distribuição mais alta facilita a exploração eficaz, descobrimos que a imposição de um prior orientado à precisão produz um espaço de exploração superior para o RL.
As camadas de modelagem de sequência em modelos de linguagem modernos geralmente enfrentam um compromisso entre capacidade de armazenamento e eficiência computacional. Enquanto a atenção Softmax oferece armazenamento ilimitado a custos quadráticos proibitivos, variantes lineares proporcionam eficiência, mas sofrem com armazenamento limitado e de tamanho fixo. Propomos a Memória de Chaves de Produto com Pesos Rápidos (FwPKM), uma arquitetura inovadora que resolve essa tensão ao transformar a esparsa Memória de Chaves de Produto (PKM) de um módulo estático em uma memória episódica dinâmica de "pesos rápidos". Diferente da PKM, a FwPKM atualiza seus parâmetros dinamicamente, tanto durante o treinamento quanto na inferência, por meio de gradiente descendente local a nível de blocos (chunks), permitindo que o modelo memorize e recupere rapidamente novos pares chave-valor a partir de sequências de entrada. Experimentos revelam que a FwPKM funciona como uma memória episódica eficaz que complementa a memória semântica dos módulos padrão, resultando em reduções significativas de perplexidade em conjuntos de dados de contexto longo. Notavelmente, em avaliações do tipo "Agulha no Palheiro" (Needle in a Haystack), a FwPKM generaliza para contextos de 128 mil tokens apesar de ter sido treinada apenas em sequências de 4 mil tokens.
A morfagem 3D continua a ser um desafio devido à dificuldade de gerar deformações semanticamente consistentes e temporalmente suaves, especialmente entre categorias. Apresentamos o MorphAny3D, uma estrutura *training-free* que aproveita as representações *Structured Latent* (SLAT) para uma morfagem 3D de alta qualidade. A nossa principal perceção é que a combinação inteligente das características SLAT da fonte e do alvo nos mecanismos de atenção dos geradores 3D produz naturalmente sequências de morfagem plausíveis. Para tal, introduzimos a *Morphing Cross-Attention* (MCA), que funde a informação da fonte e do alvo para uma coerência estrutural, e a *Temporal-Fused Self-Attention* (TFSA), que melhora a consistência temporal ao incorporar características dos quadros precedentes. Uma estratégia de correção de orientação mitiga ainda mais a ambiguidade da pose dentro das etapas de morfagem. Experiências extensivas mostram que o nosso método gera sequências de morfagem de última geração, mesmo para casos desafiadores entre categorias. O MorphAny3D suporta ainda aplicações avançadas, como a morfagem desacoplada e a transferência de estilo 3D, e pode ser generalizado para outros modelos generativos baseados em SLAT. Página do projeto: https://xiaokunsun.github.io/MorphAny3D.github.io/.
Quando os sistemas de IA explicam seu raciocínio passo a passo, os profissionais frequentemente assumem que essas explicações revelam o que realmente influenciou a resposta da IA. Testámos essa suposição incorporando pistas nas perguntas e medindo se os modelos as mencionavam. Num estudo com mais de 9.000 casos de teste em 11 dos principais modelos de IA, encontramos um padrão preocupante: os modelos quase nunca mencionam pistas espontaneamente, mas quando questionados diretamente, admitem tê-las notado. Isso sugere que os modelos veem informações influentes, mas optam por não relatá-las. Alertar os modelos de que estão a ser observados não ajuda. Forçar os modelos a relatar pistas funciona, mas faz com que eles relatem pistas mesmo quando nenhuma existe e reduz sua precisão. Também descobrimos que as pistas que apelam às preferências do utilizador são especialmente perigosas – os modelos seguem-nas com mais frequência, ao mesmo tempo que menos as reportam. Estas descobertas sugerem que simplesmente observar o raciocínio da IA não é suficiente para detetar influências ocultas.
Os grandes modelos de linguagem (LLMs) demonstraram avanços significativos em raciocínio e geração de código. No entanto, a criação eficiente de novos benchmarks para avaliar essas capacidades continua a ser um desafio. A criação tradicional de benchmarks depende do esforço humano manual, um processo dispendioso e demorado. Além disso, os benchmarks existentes frequentemente contaminam os dados de treinamento dos LLMs, exigindo benchmarks novos e diversificados para avaliar com precisão suas capacidades genuínas. Este trabalho introduz o InfoSynth, uma estrutura inovadora para gerar e avaliar automaticamente benchmarks de raciocínio guiada por princípios da teoria da informação. Propomos métricas baseadas em divergência KL e entropia para quantificar a novidade e diversidade dos benchmarks sem depender de avaliações dispendiosas de modelos. Com base nesta estrutura, desenvolvemos um pipeline de ponta a ponta que sintetiza problemas robustos de programação em Python a partir de conjuntos de dados iniciais usando algoritmos genéticos e feedback iterativo de código. Nosso método gera casos de teste e soluções precisos para novos problemas em 97% das vezes, e os benchmarks sintetizados exibem consistentemente maior novidade e diversidade em comparação com seus conjuntos de dados iniciais. Além disso, nosso algoritmo fornece um método para controlar a novidade/diversidade e dificuldade dos problemas gerados. O InfoSynth oferece um pipeline escalável e auto-verificável para construir benchmarks de alta qualidade, novos e diversificados para LLMs. Página do Projeto: https://ishirgarg.github.io/infosynth_web/