Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Wan-Move, uma estrutura simples e escalável que introduz controlo de movimento em modelos generativos de vídeo. Os métodos existentes com capacidade de controlo de movimento sofrem tipicamente de granularidade de controlo grosseira e escalabilidade limitada, tornando as suas saídas insuficientes para uso prático. Nós reduzimos esta lacuna ao alcançar um controlo de movimento preciso e de alta qualidade. A nossa ideia central é tornar diretamente as características condicionais originais conscientes do movimento para orientar a síntese de vídeo. Para isso, primeiro representamos os movimentos dos objetos com trajetórias de pontos densas, permitindo um controlo de granularidade fina sobre a cena. De seguida, projetamos estas trajetórias no espaço latente e propagamos as características do primeiro frame ao longo de cada trajetória, produzindo um mapa de características espaço-temporais alinhado que indica como cada elemento da cena deve mover-se. Este mapa de características serve como condição latente atualizada, que é integrada naturalmente no modelo imagem-para-vídeo existente, por exemplo, o Wan-I2V-14B, como orientação de movimento sem qualquer alteração de arquitetura. Isto elimina a necessidade de codificadores de movimento auxiliares e torna o *fine-tuning* de modelos base facilmente escalável. Através de treino em escala, o Wan-Move gera vídeos de 5 segundos e 480p cuja capacidade de controlo de movimento rivaliza com a ferramenta comercial Motion Brush do Kling 1.5 Pro, conforme indicado por estudos de utilizador. Para apoiar uma avaliação abrangente, concebemos ainda o MoveBench, um *benchmark* rigorosamente curado que apresenta categorias de conteúdo diversificadas e anotações híbridas verificadas. Distingue-se pelo maior volume de dados, durações de vídeo mais longas e anotações de movimento de alta qualidade. Experiências extensivas no MoveBench e num conjunto de dados público mostram consistentemente a qualidade superior de movimento do Wan-Move. O código, modelos e dados do *benchmark* são disponibilizados publicamente.
A renderização neural, particularmente o 3D Gaussian Splatting (3DGS), evoluiu rapidamente e tornou-se um componente fundamental para a construção de modelos de mundo. No entanto, as soluções de visualização existentes permanecem fragmentadas, pesadas ou limitadas por pipelines legados, resultando em alta dificuldade de implantação e suporte limitado para conteúdo dinâmico e modelos generativos. Neste trabalho, apresentamos o Visionary, uma plataforma web-nativa e aberta para renderização em tempo real de vários Gaussian Splatting e malhas. Construído sobre um renderizador WebGPU eficiente com inferência ONNX por quadro, o Visionary permite processamento neural dinâmico mantendo uma experiência de navegador leve e "clique-e-execute". Ele introduz um contrato padronizado de Gaussian Generator, que não apenas suporta a renderização 3DGS padrão, mas também permite que algoritmos *plug-and-play* gerem ou atualizem Gaussianas a cada quadro. Tal inferência também nos permite aplicar pós-processamento generativo *feedforward*. A plataforma ainda oferece um *plugin* para a biblioteca three.js com uma API TypeScript concisa para integração perfeita em aplicações web existentes. Experimentos mostram que, sob ativos 3DGS idênticos, o Visionary alcança eficiência de renderização superior em comparação com os visualizadores Web atuais, graças à ordenação de primitivas baseada em GPU. Ele já suporta várias variantes, incluindo 3DGS baseado em MLP, 4DGS, avatares neurais e redes de transformação ou aprimoramento de estilo. Ao unificar inferência e renderização diretamente no navegador, o Visionary reduz significativamente a barreira para reprodução, comparação e implantação de métodos da família 3DGS, servindo como um Transportador de Modelo de Mundo unificado para paradigmas reconstrutivos e generativos.
A substituição facial em vídeo é crucial na produção cinematográfica e de entretenimento, onde alcançar alta fidelidade e consistência temporal em sequências de vídeo longas e complexas permanece um desafio significativo. Inspirados pelos recentes avanços na edição de imagens guiada por referência, investigamos se os ricos atributos visuais de vídeos de origem podem ser similarmente aproveitados para aprimorar tanto a fidelidade quanto a coerência temporal na substituição facial em vídeo. Com base nessa percepção, este trabalho apresenta o LivingSwap, o primeiro modelo de substituição facial guiado por referência em vídeo. Nossa abordagem emprega quadros-chave como sinais de condicionamento para injetar a identidade do alvo, permitindo uma edição flexível e controlável. Ao combinar o condicionamento por quadros-chave com a orientação por referência em vídeo, o modelo realiza uma costura temporal para garantir a preservação estável da identidade e uma reconstrução de alta fidelidade em longas sequências de vídeo. Para lidar com a escassez de dados para treinamento guiado por referência, construímos um conjunto de dados pareados para substituição facial, o Face2Face, e ainda invertemos os pares de dados para garantir uma supervisão de ground-truth confiável. Experimentos extensivos demonstram que nosso método alcança resultados state-of-the-art, integrando perfeitamente a identidade do alvo com as expressões, iluminação e movimento do vídeo de origem, enquanto reduz significativamente o esforço manual nos fluxos de trabalho de produção. Página do projeto: https://aim-uofa.github.io/LivingSwap
A narrativa em vídeos do mundo real frequentemente se desenrola por meio de múltiplos planos – clipes descontínuos, mas semanticamente conectados, que juntos transmitem uma narrativa coerente. No entanto, os métodos existentes de geração de vídeo com múltiplos planos (MSV) lutam para modelar efetivamente o contexto de longo alcance entre planos, pois dependem de janelas temporais limitadas ou do condicionamento por um único fotograma-chave, levando a uma degradação do desempenho em narrativas complexas. Neste trabalho, propomos o OneStory, que permite uma modelagem de contexto entre planos global e compacta para uma geração de narrativa consistente e escalável. O OneStory reformula o MSV como uma tarefa de geração do próximo plano, permitindo a síntese autoregressiva de planos enquanto aproveita modelos pré-treinados de imagem para vídeo (I2V) para um condicionamento visual robusto. Introduzimos dois módulos-chave: um módulo de Seleção de Fotogramas que constrói uma memória global semanticamente relevante com base em fotogramas informativos de planos anteriores, e um Condicionador Adaptativo que realiza uma "patchificação" guiada por importância para gerar um contexto compacto para condicionamento direto. Além disso, curadamos um conjunto de dados de alta qualidade com múltiplos planos e legendas referenciais para espelhar padrões de narrativa do mundo real, e projetamos estratégias de treinamento eficazes sob o paradigma do próximo plano. Fine-tuneado a partir de um modelo I2V pré-treinado em nosso conjunto de dados curado de 60K amostras, o OneStory alcança uma coerência narrativa state-of-the-art em diversas cenas complexas, tanto em configurações condicionadas por texto quanto por imagem, permitindo a criação de narrativas vídeo de longa duração controláveis e imersivas.
Os recentes avanços em grandes modelos de linguagem (LLMs) deram origem a agentes de codificação poderosos, tornando possível que assistentes de código evoluam para engenheiros de código. No entanto, os métodos existentes ainda enfrentam desafios significativos para alcançar uma síntese de alta fidelidade de documento para base de código—como a conversão de artigos científicos em código—principalmente devido a um conflito fundamental entre a sobrecarga de informação e os gargalos de contexto dos LLMs. Neste trabalho, introduzimos o DeepCode, uma estrutura totalmente autônoma que aborda fundamentalmente esse desafio por meio de um gerenciamento principiado do fluxo de informação. Ao tratar a síntese de repositórios como um problema de otimização de canal, o DeepCode orquestra perfeitamente quatro operações de informação para maximizar sinais relevantes para a tarefa sob orçamentos de contexto finitos: compressão da fonte via destilação de blueprint, indexação estruturada usando memória de código com estado, injeção condicional de conhecimento via geração aumentada por recuperação e correção de erros em circuito fechado. Avaliações extensivas no benchmark PaperBench demonstram que o DeepCode alcança desempenho de ponta, superando decisivamente agentes comerciais líderes como Cursor e Claude Code e, crucialmente, superando especialistas humanos de nível doutoral de institutos de elite em métricas-chave de reprodução. Ao transformar sistematicamente especificações de artigos em implementações de nível de produção comparáveis à qualidade de especialistas humanos, este trabalho estabelece novas bases para a reprodução científica autônoma que pode acelerar a avaliação e descoberta de pesquisas.
Os grandes modelos de linguagem (LLMs) destacam-se na geração de texto, mas a decodagem autoregressiva (AR) dominante é inerentemente sequencial, criando um gargalo de produtividade. Os Modelos de Linguagem por Difusão (DLMs) – especialmente as variantes de geração em blocos – permitem geração paralela e raciocínio bidirecional intrabloco, mas o treinamento de grandes DLMs a partir do zero é dispendioso e desperdiça o conhecimento contido em checkpoints AR maduros. Tentativas anteriores de "adaptação" modificaram logits ou expandiram aleatoriamente máscaras de atenção para difusão de sequência completa, ou simplesmente transplantaram pesos AR para uma receita de difusão em blocos, deixando sem solução uma incompatibilidade fundamental entre a causalidade AR e a bidirecionalidade em blocos. Reformulamos a adaptação como um caminho intraparadigmático de AR para Difusão em Blocos, encarando a AR como Difusão em Blocos com tamanho de bloco=1. Concretamente, projetamos o percurso de adaptação da seguinte forma: usamos uma máscara de atenção contexto-causal (causal no contexto, bidirecional apenas dentro do bloco ativo), um procedimento de adaptação paralela eficiente, uma perda AR auxiliar para maximizar a utilização de dados e reter conhecimento pré-treinado, e incremento gradual do tamanho do bloco de geração. A receita integra-se perfeitamente com a difusão em blocos mascarada e mantém a consistência treino-inferência. Construídos sobre esses componentes, os modelos NBDiff-7B (Base e Instrução) puderam herdar as capacidades de modelagem de contexto longo e raciocínio, alcançando desempenho de ponta entre os DLMs da classe 7B, obtendo ganhos significativos em benchmarks de conhecimento geral, matemática e código sobre bases fortes. Esses resultados demonstram que a adaptação fundamentada de AR para difusão em blocos é uma alternativa eficaz e computacionalmente eficiente ao treinamento de DLMs a partir do zero. Códigos: https://github.com/YuchuanTian/NBDiff.
Embora os modelos visão-linguagem (VLMs) recentes de grande escala tenham aprimorado a generalização na navegação visão-linguagem (VLN), os métodos existentes geralmente dependem de pipelines de ponta a ponta que mapeiam entradas visão-linguagem diretamente para ações discretas de curto prazo. Tais projetos frequentemente produzem movimentos fragmentados, incorrem em alta latência e lutam contra desafios do mundo real, como a evitação dinâmica de obstáculos. Propomos o DualVLN, o primeiro modelo de base VLN de sistema dual que integra sinergicamente o raciocínio de alto nível com a execução de ações de baixo nível. O Sistema 2, um planejador global baseado em VLM, "aterrissa lentamente" ao prever objetivos de waypoint de médio prazo por meio de raciocínio ancorado em imagem. O Sistema 1, uma política leve de Transformer de Difusão com condicionamento multimodal, "move-se rapidamente" ao alavancar tanto objetivos de pixel explícitos quanto características latentes do Sistema 2 para gerar trajetórias suaves e precisas. O projeto de sistema dual permite controle robusto em tempo real e tomada de decisão local adaptativa em ambientes complexos e dinâmicos. Ao desacoplar o treinamento, o VLM mantém sua generalização, enquanto o Sistema 1 alcança uma navegação local interpretável e eficaz. O DualVLN supera os métodos anteriores em todos os benchmarks de VLN, e experimentos no mundo real demonstram planejamento robusto de longo prazo e adaptabilidade em tempo real em ambientes dinâmicos.
A escalabilidade da computação em tempo de inferência permitiu que os Modelos de Linguagem de Grande Porte (LLMs) atingissem um forte desempenho de raciocínio, mas a decodificação inerentemente sequencial resulta em uma latência substancial, especialmente em tarefas complexas. Trabalhos recentes sobre raciocínio paralelo adaptativo visam melhorar a eficiência da inferência decompondo o processo de resolução de problemas em linhas de raciocínio concorrentes quando benéfico. No entanto, os métodos existentes para tarefas realistas estão limitados à clonagem de comportamento supervisionada ou exibem quedas significativas de precisão em comparação com as linhas de pensamento (CoT) sequenciais longas amplamente utilizadas como baseline. Além disso, muitos requerem motores de inferência personalizados, complicando a implantação. Apresentamos o ThreadWeaver, uma estrutura para raciocínio paralelo adaptativo que atinge uma precisão equivalente aos modelos de raciocínio sequencial populares de tamanho comparável, reduzindo significativamente a latência de inferência. O desempenho do ThreadWeaver decorre de três inovações principais: 1) um gerador de trajetória paralela de dois estágios que produz dados CoT em larga escala e de alta qualidade com anotações paralelas para ajuste fino supervisionado; 2) um co-projeto de treinamento-inferência baseado em trie que permite o raciocínio paralelo em qualquer motor de inferência autoregressivo padrão sem modificar os *embeddings* posicionais ou as caches KV; e 3) uma estrutura de aprendizagem por reforço consciente da paralelização que ensina o modelo a equilibrar a precisão com uma paralelização eficaz. Em seis benchmarks desafiadores de raciocínio matemático, o ThreadWeaver treinado sobre o Qwen3-8B atinge uma precisão comparável aos modelos de raciocínio sequencial de última geração (71,9% em média e 79,9% no AIME24), ao mesmo tempo que proporciona até 1,53x de aceleração média na latência por *token*, estabelecendo uma nova fronteira de Pareto entre precisão e eficiência.
A compreensão e reconstrução da geometria e do movimento complexos de cenas dinâmicas a partir de vídeo continua a ser um desafio formidável na visão computacional. Este artigo apresenta o D4RT, um modelo *feedforward* simples, mas poderoso, concebido para resolver esta tarefa de forma eficiente. O D4RT utiliza uma arquitetura unificada de *transformers* para inferir conjuntamente a profundidade, a correspondência espaço-temporal e os parâmetros completos da câmara a partir de um único vídeo. A sua principal inovação é um novo mecanismo de consulta que contorna a computação intensiva da descodificação densa por fotograma e a complexidade de gerir múltiplos descodificadores específicos para cada tarefa. A nossa interface de descodificação permite ao modelo sondar de forma independente e flexível a posição 3D de qualquer ponto no espaço e no tempo. O resultado é um método leve e altamente escalável que permite um treino e uma inferência notavelmente eficientes. Demonstramos que a nossa abordagem estabelece um novo estado da arte, superando métodos anteriores numa ampla gama de tarefas de reconstrução 4D. Remetemos para a página web do projeto para resultados animados: https://d4rt-paper.github.io/.
Os Grandes Modelos de Linguagem Modernos alcançam capacidades impressionantes de raciocínio com longas Cadeias de Pensamento, mas incorrem em custos computacionais substanciais durante a inferência, o que motiva o desenvolvimento de técnicas para melhorar a relação custo-desempenho. Entre essas técnicas, a Decodificação Especulativa acelera a inferência empregando um modelo rascunho rápido, porém impreciso, para propor tokens de forma autoregressiva, que são então verificados em paralelo por um modelo alvo mais capaz. No entanto, devido a rejeições desnecessárias causadas por discrepâncias de tokens em etapas semanticamente equivalentes, a Decodificação Especulativa tradicional em nível de token tem dificuldades em tarefas de raciocínio. Embora trabalhos recentes tenham migrado para a verificação semântica em nível de etapa, que melhora a eficiência ao aceitar ou rejeitar etapas inteiras de raciocínio, os métodos existentes em nível de etapa ainda regeneram muitas etapas rejeitadas com pouca melhoria, desperdiçando computação valiosa do modelo alvo. Para enfrentar este desafio, propomos o Arbitrage, uma nova estrutura de geração especulativa em nível de etapa que direciona a geração dinamicamente com base na vantagem relativa entre os modelos rascunho e alvo. Em vez de aplicar um limite de aceitação fixo, o Arbitrage utiliza um roteador leve treinado para prever quando o modelo alvo provavelmente produzirá uma etapa significativamente melhor. Este roteamento aproxima-se de um Oráculo de Arbitragem ideal que sempre escolhe a etapa de maior qualidade, alcançando compensações de eficiência-precisão quase ótimas. Em vários benchmarks de raciocínio matemático, o Arbitrage supera consistentemente as linhas de base anteriores de Decodificação Especulativa em nível de etapa, reduzindo a latência de inferência em até ~2 vezes com a mesma precisão.
A aprendizagem por imitação incorporada é limitada pela escassez de dados diversos e de longo horizonte sobre manipulação robótica. Os modelos existentes de geração de vídeo para este domínio estão limitados à síntese de clipes curtos de ações simples e frequentemente dependem de trajetórias definidas manualmente. Para tal, apresentamos o MIND-V, uma estrutura hierárquica concebida para sintetizar vídeos fisicamente plausíveis e logicamente coerentes de manipulação robótica de longo horizonte. Inspirado pela ciência cognitiva, o MIND-V liga o raciocínio de alto nível à síntese a nível de pixel através de três componentes principais: um *Semantic Reasoning Hub* (SRH) que aproveita um modelo visão-linguagem pré-treinado para o planeamento de tarefas; uma *Behavioral Semantic Bridge* (BSB) que traduz instruções abstratas em representações invariantes ao domínio; e um *Motor Video Generator* (MVG) para a renderização condicional de vídeo. O MIND-V emprega *Staged Visual Future Rollouts*, uma estratégia de otimização em tempo de teste para melhorar a robustez de longo horizonte. Para alinhar os vídeos gerados com as leis físicas, introduzimos uma fase de pós-treinamento por reforço GRPO guiada por uma nova recompensa *Physical Foresight Coherence* (PFC). A PFC aproveita o modelo mundial V-JEPA para impor plausibilidade física, alinhando as evoluções dinâmicas previstas e reais no espaço de características. O MIND-V demonstra um desempenho de ponta na geração de vídeos de manipulação robótica de longo horizonte, estabelecendo um paradigma escalável e controlável para a síntese de dados incorporados.
A Segmentação de Instâncias em Vídeo (VIS) enfrenta desafios significativos de anotação devido aos seus requisitos duplos de máscaras em nível de pixel e rótulos de consistência temporal. Embora métodos não supervisionados recentes como o VideoCutLER eliminem dependências de fluxo óptico através de dados sintéticos, eles permanecem limitados pela diferença de domínio entre sintético e real. Apresentamos o AutoQ-VIS, uma nova estrutura não supervisionada que preenche esta lacuna através de auto-treinamento guiado por qualidade. Nossa abordagem estabelece um sistema de ciclo fechado entre a geração de pseudo-rótulos e a avaliação automática de qualidade, permitindo uma adaptação progressiva de vídeos sintéticos para reais. Os experimentos demonstram um desempenho de última geração com 52.6 AP_{50} no conjunto de validação do YouTubeVIS-2019, superando o VideoCutLER, anteriormente o estado da arte, em 4.4%, sem exigir anotações humanas. Isto demonstra a viabilidade do auto-treinamento consciente da qualidade para VIS não supervisionado. O código será disponibilizado em https://github.com/wcbup/AutoQ-VIS.
Apresentamos o COREA, o primeiro framework unificado que aprende conjuntamente Gaussianas 3D rerilumináveis e um Campo de Distância com Sinal (SDF) para uma reconstrução geométrica precisa e uma reriluminação fiel. Embora os métodos recentes de *Gaussian Splatting* 3D (3DGS) tenham se estendido para a reconstrução de malhas e renderização fisicamente baseada (PBR), sua geometria ainda é aprendida a partir de renderizações 2D, resultando em superfícies grosseiras e uma decomposição BRDF-iluminação pouco confiável. Para superar essas limitações, o COREA introduz uma estratégia de alinhamento bidirecional 3D-para-3D, do grosso para o fino, que permite que os sinais geométricos sejam aprendidos diretamente no espaço 3D. Dentro desta estratégia, a profundidade fornece um alinhamento grosso entre as duas representações, enquanto os gradientes de profundidade e as normais refinam a estrutura em escala fina, e a geometria resultante suporta uma decomposição BRDF-iluminação estável. Um mecanismo de controle de densidade estabiliza ainda mais o crescimento das Gaussianas, equilibrando a fidelidade geométrica com a eficiência de memória. Experimentos em benchmarks padrão demonstram que o COREA atua de forma superior na síntese de novas visões, reconstrução de malhas e PBR dentro de um framework unificado.
Os modelos de linguagem multimodal de grande escala (MLLMs) são projetados para interpretar conjuntamente visão, áudio e linguagem, porém os benchmarks de vídeo existentes raramente avaliam o raciocínio refinado sobre a fala humana. Muitas tarefas permanecem solucionáveis visualmente ou apenas avaliam a fala de forma grosseira, oferecendo insights limitados sobre se os modelos conseguem alinhar quem fala, o que é dito e quando isso ocorre. Apresentamos o AV-SpeakerBench, um benchmark curado composto por 3.212 questões de múltipla escolha focadas no raciocínio audiovisual centrado no falante em vídeos do mundo real. Ele apresenta: (1) uma formulação centrada no falante que trata os falantes – e não as cenas – como a unidade central de raciocínio; (2) um design de questões baseado em fusão, incorporando dependências audiovisuais na semântica das perguntas; e (3) anotações curadas por especialistas, garantindo precisão temporal e validade cross-modal. Avaliações abrangentes mostram que a família Gemini supera consistentemente os sistemas de código aberto, com o Gemini 2.5 Pro alcançando os melhores resultados. Entre os modelos abertos, o Qwen3-Omni-30B se aproxima do Gemini 2.0 Flash, mas permanece muito atrás do Gemini 2.5 Pro, principalmente devido a uma fusão audiovisual mais fraca, e não à percepção visual. Acreditamos que o AV-SpeakerBench estabelece uma base rigorosa para o avanço do raciocínio audiovisual refinado em futuros sistemas multimodais.
O pós-treinamento por aprendizagem por reforço (RL) é crucial para alinhar modelos generativos com as preferências humanas, mas o seu custo computacional proibitivo permanece uma grande barreira para a adoção generalizada. Apresentamos o TreeGRPO, uma nova estrutura de RL que melhora drasticamente a eficiência do treinamento ao reformular o processo de remoção de ruído como uma árvore de busca. A partir de amostras de ruído inicial compartilhadas, o TreeGRPO ramifica-se estrategicamente para gerar múltiplos percursos candidatos, reutilizando eficientemente os seus prefixos comuns. Esta abordagem estruturada em árvore oferece três vantagens principais: (1) Alta eficiência de amostragem, alcançando melhor desempenho com a mesma quantidade de amostras de treinamento; (2) Atribuição de crédito refinada através da retropropagação de recompensas que calcula vantagens específicas por passo, superando a limitação de atribuição uniforme de crédito dos métodos baseados em trajetória; e (3) Computação amortizada, onde a ramificação com múltiplos filhos permite várias atualizações da política por passagem forward. Experimentos extensivos em modelos baseados em difusão e fluxo demonstram que o TreeGRPO alcança um treinamento 2,4 vezes mais rápido, estabelecendo simultaneamente uma fronteira de Pareto superior no espaço de compromisso eficiência-recompensa. O nosso método supera consistentemente as linhas de base do GRPO em múltiplos benchmarks e modelos de recompensa, fornecendo um caminho escalável e eficaz para o alinhamento de modelos generativos visuais baseado em RL. O site do projeto está disponível em treegrpo.github.io.
Este artigo apresenta uma estrutura modular de processamento neural de sinais de imagem (ISP) que processa dados brutos e produz imagens de alta qualidade referenciadas para exibição. Diferentemente de projetos neurais de ISP anteriores, nosso método introduz um alto grau de modularidade, fornecendo controle completo sobre múltiplos estágios intermediários do processo de renderização.~Este design modular não apenas alcança alta precisão de renderização, mas também melhora a escalabilidade, a capacidade de depuração, a generalização para câmeras não vistas e a flexibilidade para adaptar-se a diferentes estilos de preferência do usuário. Para demonstrar as vantagens deste design, desenvolvemos uma ferramenta interativa de edição fotográfica que aproveita nosso ISP neural para suportar diversas operações de edição e estilos de imagem. A ferramenta foi cuidadosamente projetada para aproveitar a renderização de alta qualidade do nosso ISP neural e permitir rerrenderizações pós-editáveis ilimitadas. Nosso método é uma estrutura totalmente baseada em aprendizado com variantes de diferentes capacidades, todas de tamanho moderado (variando de ~0,5 M a ~3,9 M de parâmetros para todo o pipeline), e produz consistentemente resultados qualitativos e quantitativos competitivos em múltiplos conjuntos de teste. Assista ao vídeo suplementar em: https://youtu.be/ByhQjQSjxVM
O 3D Gaussian Splatting (3DGS) emergiu como uma poderosa representação explícita que permite a reconstrução 3D em tempo real e de alta fidelidade, bem como a síntese de novas vistas. No entanto, sua utilização prática é dificultada pelas maciças demandas de memória e computação necessárias para armazenar e renderizar milhões de Gaussianas. Esses desafios tornam-se ainda mais severos em cenas dinâmicas 4D. Para enfrentar esses problemas, o campo do *Efficient Gaussian Splatting* evoluiu rapidamente, propondo métodos que reduzem a redundância enquanto preservam a qualidade da reconstrução. Esta pesquisa fornece a primeira visão geral unificada das técnicas eficientes de 3D e 4D Gaussian Splatting. Tanto para configurações 3D quanto 4D, categorizamos sistematicamente os métodos existentes em duas direções principais, *Compressão de Parâmetros* e *Compressão por Reestruturação*, e resumimos de forma abrangente as ideias centrais e as tendências metodológicas dentro de cada categoria. Adicionalmente, cobrimos conjuntos de dados amplamente utilizados, métricas de avaliação e comparações representativas de benchmarks. Por fim, discutimos as limitações atuais e delineamos direções de pesquisa promissoras para um Gaussian Splatting escalável, compacto e em tempo real, destinado à representação de cenas 3D estáticas e dinâmicas.
O rastreamento 3D monocular visa capturar o movimento de longo prazo de pixels no espaço 3D a partir de um único vídeo monocular e tem registrado progressos rápidos nos últimos anos. No entanto, argumentamos que os métodos existentes de rastreamento 3D monocular ainda são insuficientes para separar o movimento da câmera do movimento dinâmico em primeiro plano e não conseguem rastrear densamente novos sujeitos dinâmicos que emergem nos vídeos. Para abordar essas duas limitações, propomos o TrackingWorld, um pipeline inovador para rastreamento 3D denso de quase todos os pixels dentro de um sistema de coordenadas 3D centrado no mundo. Primeiro, introduzimos um upsampler de rastreamento que eleva eficientemente rastreamentos 2D esparsos arbitrários para rastreamentos 2D densos. Em seguida, para generalizar os métodos de rastreamento atuais para objetos recém-emergentes, aplicamos o upsampler a todos os quadros e reduzimos a redundância dos rastreamentos 2D eliminando os rastreamentos em regiões sobrepostas. Finalmente, apresentamos uma estrutura eficiente baseada em otimização para retroprojetar rastreamentos 2D densos em trajetórias 3D centradas no mundo, estimando as poses da câmera e as coordenadas 3D desses rastreamentos 2D. Avaliações extensivas em conjuntos de dados sintéticos e do mundo real demonstram que nosso sistema alcança rastreamento 3D preciso e denso em um sistema de coordenadas centrado no mundo.
Os Modelos de Linguagem Grande Aumentados por Memória (LLMs) demonstraram uma consistência notável durante diálogos prolongados, armazenando memórias relevantes e incorporando-as como contexto. Essa personalização baseada em memória também é fundamental em ambientes *on-device* que permitem aos usuários manter suas conversas e dados privados. No entanto, os sistemas aumentados por memória normalmente dependem de LLMs que são demasiado dispendiosos para implantação local em dispositivos. Embora os Modelos de Linguagem Pequenos (SLMs) sejam mais adequados para inferência *on-device* do que os LLMs, eles não conseguem alcançar desempenho suficiente. Adicionalmente, esses sistemas baseados em LLMs carecem de capacidades visuais nativas, limitando sua aplicabilidade em contextos multimodais. Neste artigo, introduzimos (i) o MemLoRA, um novo sistema de memória que permite a implantação local ao equipar SLMs com adaptadores de memória especializados, e (ii) sua extensão visual MemLoRA-V, que integra Pequenos Modelos de Visão e Linguagem (SVLMs) aos sistemas de memória, permitindo a compreensão visual nativa. Seguindo os princípios da destilação de conhecimento, cada adaptador é treinado separadamente para operações específicas de memória – extração de conhecimento, atualização de memória e geração aumentada por memória. Equipados com adaptadores de memória, os modelos pequenos permitem operações de memória *on-device* precisas sem dependência da nuvem. Em operações apenas de texto, o MemLoRA supera modelos de linha de base 10 vezes maiores (por exemplo, Gemma2-27B) e alcança um desempenho comparável a modelos 60 vezes maiores (por exemplo, GPT-OSS-120B) no benchmark LoCoMo. Para avaliar operações de compreensão visual, estendemos o LoCoMo com tarefas desafiadoras de Resposta a Perguntas Visuais que exigem raciocínio visual direto. Neste, nosso MemLoRA-V integrado com VLM mostra melhorias massivas em relação a abordagens baseadas em legendas (81,3 vs. 23,7 de precisão), mantendo um forte desempenho em tarefas baseadas em texto, demonstrando a eficácia do nosso método em contextos multimodais.
Há décadas, os mundos procedurais são construídos com funções de ruído procedural como o ruído Perlin, que são rápidas e infinitas, mas fundamentalmente limitadas em realismo e coerência em larga escala. Apresentamos o Terrain Diffusion, um sucessor da era da IA para o ruído Perlin que une a fidelidade dos modelos de difusão com as propriedades que tornaram o ruído procedural indispensável: extensão infinita e sem costuras, consistência de *seed* e acesso aleatório em tempo constante. Em seu núcleo está o InfiniteDiffusion, um novo algoritmo para geração infinita, permitindo a síntese em tempo real de paisagens ilimitadas sem costuras. Uma pilha hierárquica de modelos de difusão associa o contexto planetário com detalhes locais, enquanto uma codificação Laplaciana compacta estabiliza as saídas em escalas dinâmicas de amplitude planetária. Uma estrutura de *tensor* infinito de código aberto suporta a manipulação com uso de memória constante de *tensors* ilimitados, e a destilação de consistência em poucos passos permite uma geração eficiente. Juntos, esses componentes estabelecem os modelos de difusão como uma base prática para a geração procedural de mundos, capaz de sintetizar planetas inteiros de forma coerente, controlável e sem limites.
Os grandes modelos de raciocínio alcançam forte desempenho em tarefas complexas gerando cadeias de pensamento extensas, mas frequentemente "pensam demais": continuam a raciocinar muito depois de terem informações suficientes para responder corretamente. Isso desperdiça computação no momento da inferência e pode prejudicar a precisão. As tentativas existentes de parada antecipada ou manipulam a decodificação com amostragem extra e heurísticas, dependem de modelos verificadores auxiliares, ou operam apenas como pipelines de análise post-hoc sem garantias formais. Apresentamos o LYNX, um mecanismo de saída antecipada online que transforma a autoconsciência do estado interno do modelo em decisões de parada controladas por confiança. O LYNX vincula decisões de saída a pistas de raciocínio que ocorrem naturalmente (ex: "hmm", "espera") durante a geração, treina uma sonda leve nos estados internos nesses tokens de pista usando supervisão de saídas forçadas, e encapsula as pontuações resultantes em predição conformal split para obter controle livre de distribuição sobre saídas prematuras. Crucialmente, treinamos e calibramos esta sonda uma vez em um corpus matemático genérico e a reutilizamos inalterada em benchmarks, temperaturas de decodificação e até mesmo em tarefas não matemáticas. Em três famílias de modelos abrangendo de 1,5B a 32B de parâmetros, uma única sonda treinada matematicamente por modelo base produz fortes compensações entre precisão e eficiência. No GSM8K, o LYNX iguala ou melhora a precisão da linha de base enquanto reduz os tokens em 40–65%; no MATH-500 ele melhora a precisão em até 12 pontos com aproximadamente 35–60% menos tokens; no AIME 2024 ele recupera a precisão da linha de base com economia de mais de 50% nos tokens; e no CommonsenseQA, um benchmark não matemático, ele transfere zero-shot com ganhos modestos de precisão e até 70% menos tokens. Comparado aos métodos state-of-the-art de saída antecipada, o LYNX oferece fronteiras de Pareto competitivas ou superiores, mantendo-se totalmente online, não exigindo modelos proxy na inferência e fornecendo garantias de confiança explícitas e ajustáveis pelo usuário.
Os tumores cerebrais representam uma ameaça significativa à vida humana, sendo, portanto, extremamente necessário detectá-los com precisão nos estágios iniciais para um melhor diagnóstico e tratamento. Os tumores cerebrais podem ser detectados manualmente pelo radiologista a partir das imagens de ressonância magnética dos pacientes. No entanto, a incidência de tumores cerebrais aumentou entre crianças e adolescentes nos últimos anos, resultando em um volume substancial de dados e, consequentemente, tornando a detecção manual demorada e difícil. Com o surgimento da Inteligência Artificial no mundo moderno e sua vasta aplicação no campo médico, podemos desenvolver uma abordagem para um sistema CAD (Diagnóstico Auxiliado por Computador) para a detecção automática precoce de tumores cerebrais. Todos os modelos existentes para esta tarefa não são completamente generalizados e apresentam desempenho insatisfatório nos dados de validação. Portanto, propomos duas novas arquiteturas de Aprendizado Profundo: (a) **SAETCN (Rede de Classificação de Tumores com Aprimoramento por Autoatenção)** para a classificação de diferentes tipos de tumores cerebrais. Obtivemos uma precisão de 99,38% no conjunto de dados de validação, tornando-a uma das poucas arquiteturas novas baseadas em Aprendizado Profundo capaz de detectar tumores cerebrais com precisão. Treinamos o modelo no conjunto de dados que contém imagens de 3 tipos de tumores (glioma, meningioma e tumores pituitários) e casos sem tumor. e (b) **SAS-Net (Rede de Segmentação com Autoatenção)** para a segmentação precisa de tumores cerebrais. Alcançamos uma precisão global de pixel de 99,23%.
A Recuperação de Malha Humana (HMR) tem como objetivo reconstruir a pose e a forma 3D de um humano a partir de observações 2D e é fundamental para a compreensão centrada no humano em cenários do mundo real. Embora métodos recentes de HMR baseados em imagem, como o SAM 3D Body, alcancem uma forte robustez em imagens "in-the-wild" (do mundo real), eles dependem de inferência por quadro quando aplicados a vídeos, resultando em inconsistência temporal e degradação do desempenho sob oclusões. Nós abordamos essas questões sem treinamento adicional, aproveitando a continuidade humana inerente nos vídeos. Propomos o SAM-Body4D, uma estrutura *training-free* (sem necessidade de treino) para HMR temporalmente consistente e robusto a oclusões a partir de vídeos. Primeiro, geramos *masklets* (pequenas máscaras) consistentes em identidade usando um modelo de segmentação de vídeo acionável por *prompts* (instruções), depois os refinamos com um módulo de Consciência de Oclusão para recuperar regiões faltantes. Os *masklets* refinados orientam o SAM 3D Body a produzir trajetórias de malha corporal completa consistentes, enquanto uma estratégia paralela baseada em *padding* (preenchimento) permite uma inferência eficiente para múltiplas pessoas. Resultados experimentais demonstram que o SAM-Body4D alcança uma estabilidade temporal e robustez melhoradas em vídeos "in-the-wild" desafiadores, sem qualquer retreinamento. Nosso código e demonstração estão disponíveis em: https://github.com/gaomingqi/sam-body4d.
Os agentes de base avançaram rapidamente em sua capacidade de raciocinar e interagir com ambientes reais, tornando a avaliação de suas capacidades centrais cada vez mais importante. Embora muitos benchmarks tenham sido desenvolvidos para avaliar o desempenho de agentes, a maioria concentra-se em ambientes acadêmicos ou cenários artificialmente projetados, negligenciando os desafios que surgem em aplicações reais. Para resolver esta questão, focamos num cenário do mundo real altamente prático: o domínio do comércio eletrónico, que envolve um grande volume de interações diversificadas de utilizadores, condições dinâmicas de mercado e tarefas diretamente ligadas a processos reais de tomada de decisão. Para tal, introduzimos o EcomBench, um Benchmark Holístico de Comércio Eletrónico concebido para avaliar o desempenho de agentes em ambientes realistas de e-commerce. O EcomBench é construído a partir de necessidades genuínas dos utilizadores, incorporadas nos principais ecossistemas globais de comércio eletrónico, e é cuidadosamente selecionado e anotado por especialistas humanos para garantir clareza, precisão e relevância no domínio. Abrange múltiplas categorias de tarefas dentro de cenários de e-commerce e define três níveis de dificuldade que avaliam os agentes em capacidades-chave, como recuperação profunda de informação, raciocínio multi-etapa e integração de conhecimento de múltiplas fontes. Ao fundamentar a avaliação em contextos reais de comércio eletrónico, o EcomBench fornece um teste rigoroso e dinâmico para medir as capacidades práticas dos agentes no e-commerce moderno.
Substitutos rápidos e com capacidade de generalização geométrica para escoamentos não permanentes permanecem um desafio. Apresentamos uma Rede de Operador Profundo (DeepONet) dependente do tempo e com consciência geométrica que prevê campos de velocidade para escoamentos com número de Reynolds moderado em torno de formas paramétricas e não paramétricas. O modelo codifica a geometria através de um tronco de campo de distância com sinal (SDF) e o histórico do escoamento através de um ramo de Rede Neural Convolucional (CNN), treinado com 841 simulações de alta fidelidade. Em formas excluídas do conjunto de treino, o modelo atinge um erro relativo L2 de passo único de aproximadamente 5% e acelerações de até 1000 vezes em relação à Dinâmica de Fluidos Computacional (CFD). Fornecemos diagnósticos de evolução temporal centrados na física, incluindo erro de fase em sondas e normas de divergência, para quantificar a fidelidade em horizontes longos. Estes revelam transientes precisos a curto prazo, mas acumulação de erro nos vórtices de pequena escala, mais pronunciada em geometrias com cantos vivos. Analisamos os modos de falha e delineamos medidas de mitigação práticas. Código, divisões de dados e scripts são disponibilizados publicamente em: https://github.com/baskargroup/TimeDependent-DeepONet para apoiar a reprodutibilidade e a avaliação comparativa.
A maioria dos métodos existentes para Segmentação Semântica de Vocabulário Aberto (OVSS) sem treinamento é baseada no CLIP. Embora essas abordagens tenham feito progressos, elas frequentemente enfrentam desafios na localização precisa ou exigem pipelines complexos para combinar módulos separados, especialmente em cenários de sensoriamento remoto onde existem inúmeros alvos densos e pequenos. Recentemente, o Segment Anything Model 3 (SAM 3) foi proposto, unificando segmentação e reconhecimento em uma estrutura acionável por prompts. Neste artigo, apresentamos uma exploração preliminar da aplicação do SAM 3 à tarefa de OVSS de sensoriamento remoto sem qualquer treinamento. Primeiro, implementamos uma estratégia de fusão de máscaras que combina as saídas do cabeçalho de segmentação semântica do SAM 3 e do decodificador Transformer (cabeçalho de instância). Isso nos permite aproveitar os pontos fortes de ambos os cabeçalhos para uma melhor cobertura do terreno. Segundo, utilizamos a pontuação de presença do cabeçalho de presença para filtrar categorias que não existem na cena, reduzindo falsos positivos causados pelos vastos tamanhos de vocabulário e processamento em nível de *patch* em cenas geoespaciais. Avaliamos nosso método em extensos conjuntos de dados de sensoriamento remoto. Os experimentos mostram que esta adaptação simples alcança um desempenho promissor, demonstrando o potencial do SAM 3 para OVSS de sensoriamento remoto. Nosso código está disponível em https://github.com/earth-insights/SegEarth-OV-3.
Apresentamos dois novos benchmarks, REST e REST+ (Testes de Stress de Equivalência de Renderização), para permitir a avaliação sistemática da inconsistência cross-modal em modelos de linguagem multimodal de grande escala (MLLMs). Os MLLMs são treinados para representar a visão e a linguagem no mesmo espaço de incorporação, mas não conseguem executar as mesmas tarefas em ambas as modalidades. Os nossos benchmarks contêm amostras com a mesma informação semântica em três modalidades (imagem, texto, mista) e demonstramos que os MLLMs mais avançados não conseguem raciocinar de forma consistente sobre estas diferentes modalidades. Avaliámos 15 MLLMs e descobrimos que o grau de inconsistência modal varia substancialmente, mesmo considerando os problemas com reconhecimento de texto (OCR). Nem a renderização de texto como imagem nem a renderização de uma imagem como texto resolvem a inconsistência. Mesmo quando o OCR está correto, descobrimos que as características visuais (cor e resolução do texto, mas não o tipo de letra) e o número de *tokens* visuais têm um impacto no desempenho do modelo. Por fim, descobrimos que a nossa pontuação de consistência correlaciona-se com o *gap* modal entre texto e imagens, destacando uma interpretação mecanicista dos MLLMs inconsistentes na modalidade cruzada.