Artigos de pesquisa em IA selecionados diariamente com traduções
A crescente adoção de dispositivos de XR tem alimentado uma forte demanda por vídeo estéreo de alta qualidade, mas sua produção permanece cara e propensa a artefatos. Para enfrentar este desafio, apresentamos o StereoWorld, uma estrutura de trabalho de ponta a ponta que reaproveita um gerador de vídeo pré-treinado para a geração de vídeo monoculário para estéreo de alta fidelidade. Nossa estrutura condiciona conjuntamente o modelo na entrada do vídeo monoculário, supervisionando explicitamente a geração com uma regularização consciente da geometria para garantir a fidelidade estrutural 3D. Um esquema de fragmentação espaço-temporal é ainda integrado para permitir uma síntese eficiente e de alta resolução. Para possibilitar o treinamento e avaliação em larga escala, reunimos um conjunto de dados de vídeo estéreo de alta definição contendo mais de 11 milhões de quadros alinhados à distância interpupilar (DIP) humana natural. Experimentos extensivos demonstram que o StereoWorld supera substancialmente métodos anteriores, gerando vídeos estéreo com fidelidade visual e consistência geométrica superiores. A página web do projeto está disponível em https://ke-xing.github.io/StereoWorld/.
Os recentes avanços nos modelos de difusão melhoraram significativamente a geração e edição de imagens, mas a geração ou reconstrução de arquivos PSD em camadas com canais alfa transparentes permanece um grande desafio. Propomos o OmniPSD, uma estrutura de difusão unificada construída sobre o ecossistema Flux que permite tanto a geração de texto-para-PSD quanto a decomposição de imagem-para-PSD através de aprendizado em contexto. Para a geração texto-para-PSD, o OmniPSD organiza espacialmente várias camadas-alvo em uma única tela e aprende suas relações composicionais por meio de atenção espacial, produzindo camadas semanticamente coerentes e hierarquicamente estruturadas. Para a decomposição imagem-para-PSD, ele realiza uma edição iterativa em contexto, extraindo e apagando progressivamente componentes textuais e em primeiro plano para reconstruir camadas PSD editáveis a partir de uma única imagem achatada. Um RGBA-VAE é empregado como módulo de representação auxiliar para preservar a transparência sem afetar o aprendizado estrutural. Experimentos extensivos em nosso novo conjunto de dados em camadas RGBA demonstram que o OmniPSD alcança geração de alta fidelidade, consistência estrutural e consciência de transparência, oferecendo um novo paradigma para geração e decomposição de design em camadas com transformadores de difusão.
Compreender como o cérebro humano representa conceitos visuais e em quais regiões cerebrais essas representações são codificadas permanece um desafio de longa data. Décadas de trabalho avançaram nossa compreensão das representações visuais, mas os sinais cerebrais permanecem amplos e complexos, e o espaço de possíveis conceitos visuais é vasto. Como resultado, a maioria dos estudos permanece em pequena escala, depende de inspeção manual, foca em regiões e propriedades específicas e raramente inclui validação sistemática. Apresentamos uma estrutura automatizada em larga escala para descobrir e explicar representações visuais através do córtex humano. Nosso método compreende duas etapas principais. Primeiro, descobrimos padrões interpretáveis candidatos na atividade de fMRI por meio de métodos de decomposição não supervisionados e orientados por dados. Em seguida, explicamos cada padrão identificando o conjunto de imagens naturais que o eliciam mais fortemente e gerando uma descrição em linguagem natural do seu significado visual compartilhado. Para dimensionar esse processo, introduzimos um pipeline automatizado que testa múltiplas explicações candidatas, atribui escores de confiabilidade quantitativos e seleciona a descrição mais consistente para cada padrão de voxel. Nossa estrutura revela milhares de padrões interpretáveis abrangendo muitos conceitos visuais distintos, incluindo representações refinadas não relatadas anteriormente.
A composição de conceitos visuais, que visa integrar diferentes elementos de imagens e vídeos numa única saída visual coerente, ainda apresenta limitações na extração precisa de conceitos complexos de entradas visuais e na combinação flexível de conceitos provenientes de ambos os meios. Apresentamos o Bind & Compose, um método one-shot que permite uma composição flexível de conceitos visuais através da vinculação de conceitos visuais com tokens de prompt correspondentes e da composição do prompt-alvo com tokens vinculados de várias fontes. O método adota uma estrutura de vinculador hierárquico para condicionamento por atenção cruzada em Diffusion Transformers, codificando conceitos visuais em tokens de prompt correspondentes para uma decomposição precisa de conceitos visuais complexos. Para melhorar a precisão da vinculação conceito-token, projetamos um Mecanismo de Diversificação e Absorção que utiliza um token absorvente adicional para eliminar o impacto de detalhes irrelevantes ao conceito durante o treinamento com prompts diversificados. Para aumentar a compatibilidade entre conceitos de imagem e vídeo, apresentamos uma Estratégia de Desvinculação Temporal que desacopla o processo de treinamento de conceitos de vídeo em dois estágios com uma estrutura de vinculador de duplo ramo para modelagem temporal. As avaliações demonstram que o nosso método alcança uma consistência de conceito, fidelidade ao prompt e qualidade de movimento superiores às abordagens existentes, abrindo novas possibilidades para a criatividade visual.
Apresentamos o MotionEdit, um novo conjunto de dados para edição de imagens centrada em movimento — a tarefa de modificar ações e interações do sujeito preservando identidade, estrutura e plausibilidade física. Diferente dos conjuntos de dados de edição de imagem existentes, que focam em alterações de aparência estática ou contêm apenas edições de movimento esparsas e de baixa qualidade, o MotionEdit fornece pares de imagens de alta fidelidade que retratam transformações realistas de movimento, extraídas e validadas a partir de vídeos contínuos. Esta nova tarefa não é apenas cientificamente desafiadora, mas também praticamente significativa, impulsionando aplicações subsequentes, como síntese de vídeo controlada por fotogramas e animação. Para avaliar o desempenho dos modelos nesta nova tarefa, introduzimos o MotionEdit-Bench, um benchmark que desafia os modelos em edições centradas em movimento e mede seu desempenho com métricas generativas, discriminativas e baseadas em preferência. Os resultados do benchmark revelam que a edição de movimento permanece altamente desafiadora para os modelos de edição state-of-the-art baseados em difusão existentes. Para abordar esta lacuna, propomos o MotionNFT (Motion-guided Negative-aware Fine Tuning), uma estrutura de pós-treinamento que calcula recompensas de alinhamento de movimento com base na correspondência entre o fluxo de movimento das imagens de entrada e as imagens editadas pelo modelo com o movimento real de referência, orientando os modelos para transformações de movimento precisas. Experimentos extensivos no FLUX.1 Kontext e no Qwen-Image-Edit mostram que o MotionNFT melhora consistentemente a qualidade de edição e a fidelidade de movimento de ambos os modelos base na tarefa de edição de movimento, sem sacrificar a capacidade de edição geral, demonstrando sua eficácia.
A atenção por janela e a atenção linear representam duas estratégias principais para mitigar a complexidade quadrática e o crescimento contínuo da cache KV (chave-valor) em Modelos de Linguagem Visual (VLMs). No entanto, observamos que os VLMs baseados em janela sofrem degradação de desempenho quando o comprimento da sequência excede o tamanho da janela, enquanto a atenção linear tem desempenho inferior em tarefas intensivas em informação, como OCR e compreensão de documentos. Para superar essas limitações, propomos o InfiniteVL, uma arquitetura VLM de complexidade linear que sinergiza a atenção por janela deslizante (SWA) com o Gated DeltaNet. Para alcançar um desempenho multimodal competitivo sob recursos limitados, projetamos uma estratégia de treinamento em três estágios, compreendendo pré-treinamento por destilação, ajuste instrucional e SFT de sequência longa. Notavelmente, usando menos de 2% dos dados de treinamento exigidos pelos principais VLMs, o InfiniteVL não apenas supera substancialmente os VLMs anteriores de complexidade linear, mas também iguala o desempenho dos principais VLMs baseados em Transformer, demonstrando ao mesmo tempo uma retenção eficaz de memória de longo prazo. Em comparação com VLMs baseados em Transformer de tamanho similar acelerados pelo FlashAttention-2, o InfiniteVL alcança uma aceleração de inferência superior a 3,6x, mantendo latência e consumo de memória constantes. Em cenários de compreensão de vídeo em streaming, ele mantém uma velocidade de preenchimento prévio em tempo real estável de 24 FPS, preservando a cache de memória de longo prazo. O código e os modelos estão disponíveis em https://github.com/hustvl/InfiniteVL.
A razão de cadeia de pensamento (CoT) tem sido extremamente bem-sucedida na resolução de tarefas complexas no processamento de linguagem natural, e os recentes modelos de linguagem multimodal (MLLMs) estenderam este paradigma para o raciocínio em vídeo. No entanto, estes modelos normalmente baseiam-se em cadeias de raciocínio longas e num grande número de *tokens* visuais de entrada. Motivados por observações empíricas do nosso estudo de referência, formulamos a hipótese de que um raciocínio conciso, combinado com um conjunto reduzido de *tokens* visuais, pode ser suficiente para um raciocínio em vídeo eficaz. Para avaliar esta hipótese, concebemos e validamos uma estrutura eficiente de pós-treinamento e inferência que melhora a capacidade de raciocínio de um MLLM de vídeo. A nossa estrutura permite que os modelos operem em *tokens* visuais comprimidos e gerem traços de raciocínio breves antes de responder. Os modelos resultantes alcançam uma eficiência de inferência substancialmente melhorada, oferecem um desempenho competitivo em diversos benchmarks e evitam a dependência de anotações CoT manuais ou de afinação supervisionada. Coletivamente, os nossos resultados sugerem que um raciocínio CoT longo, semelhante ao humano, pode não ser necessário para o raciocínio geral em vídeo, e que o raciocínio conciso pode ser simultaneamente eficaz e eficiente. O nosso código será disponibilizado em https://github.com/LaVi-Lab/Rethink_CoT_Video.
Os agentes, sistemas baseados em modelos de linguagem (LM) capazes de raciocinar, planejar e agir, estão a tornar-se o paradigma dominante para aplicações de IA no mundo real. Apesar desta adoção generalizada, os princípios que determinam o seu desempenho permanecem pouco explorados, levando os profissionais a depender de heurísticas em vez de escolhas de desenho fundamentadas. Nós abordamos esta lacuna derivando princípios de escalonamento quantitativos para sistemas de agentes. Avaliamos isto em quatro *benchmarks* diversos: Finance-Agent, BrowseComp-Plus, PlanCraft e Workbench. Utilizando cinco arquiteturas canónicas (Único, Independente, Centralizada, Descentralizada, Híbrida) instanciadas em três famílias de LLM, realizamos uma avaliação controlada abrangendo 180 configurações com ferramentas e orçamentos de *tokens* padronizados. Derivamos um modelo preditivo usando métricas de coordenação empíricas, incluindo eficiência, sobrecarga, amplificação de erros e redundância, que atinge um R²=0,513 na validação cruzada. Identificamos três efeitos dominantes: (1) um compromisso (*trade-off*) coordenação-ferramenta: sob orçamentos computacionais fixos, tarefas intensivas em ferramentas sofrem desproporcionalmente com a sobrecarga de multiagentes. (2) uma saturação de capacidade: a coordenação produz retornos decrescentes ou negativos (beta=-0,408, p<0,001) quando as linhas de base de agente único excedem ~45%. (3) amplificação de erros dependente da topologia: agentes independentes amplificam os erros 17,2x através de propagação não verificada, enquanto a coordenação centralizada contém isto a 4,4x. A coordenação centralizada melhora o desempenho em 80,9% em tarefas paralelizáveis como o raciocínio financeiro, enquanto a coordenação descentralizada se destaca na navegação web dinâmica (+9,2% vs. +0,2%). No entanto, para tarefas de raciocínio sequencial, todas as variantes de multiagentes degradaram o desempenho em 39-70%. O *framework* prevê a estratégia de coordenação ótima para 87% das configurações retidas, fornecendo um princípio preditivo de escalonamento agentivo baseado em propriedades de tarefa mensuráveis.
Os modelos Visão-Linguagem-Ação (VLA) têm recentemente possibilitado a manipulação robótica ao fundamentar pistas visuais e linguísticas em ações. No entanto, a maioria dos VLAs assume a propriedade de Markov, dependendo apenas da observação atual e, portanto, sofrendo de miopia temporal que degrada a coerência de longo horizonte. Neste trabalho, encaramos o movimento como uma representação mais compacta e informativa do contexto temporal e da dinâmica do mundo, capturando mudanças entre estados enquanto filtra ruídos estáticos a nível de pixel. Com base nesta ideia, propomos o HiF-VLA (Retrospetiva, Perspetiva e Previsão para VLAs), uma estrutura unificada que aproveita o movimento para um raciocínio temporal bidirecional. O HiF-VLA codifica a dinâmica passada através de prioridades de retrospetiva, antecipa o movimento futuro via raciocínio de previsão, e integra ambos através de um perito conjunto modulado por retrospetiva para permitir um paradigma de "pensar-enquanto-age" para manipulação de longo horizonte. Como resultado, o HiF-VLA supera linhas de base fortes nos benchmarks LIBERO-Long e CALVIN ABC-D, enquanto incorre em latência de inferência adicional negligenciável. Além disso, o HiF-VLA alcança melhorias substanciais em tarefas de manipração de longo horizonte do mundo real, demonstrando a sua ampla eficácia em contextos robóticos práticos.
Os modelos de linguagem de grande porte baseados em difusão (dLLMs) representam uma alternativa promissora aos modelos autorregressivos, mas sua utilidade prática é severamente limitada pela amostragem iterativa e lenta. Apresentamos o SchED, um algoritmo de saída antecipada agnóstico ao modelo e que não requer treinamento, que agrega margens de logit de extensão total e interrompe a decodificação assim que um limite de confiança suave e dependente do progresso é atingido. Avaliamos o SchED em duas famílias de dLLMs (Dream e LLaDA), em variantes base e ajustadas por instrução, em dez benchmarks abrangendo tarefas downstream, incluindo respostas a perguntas de múltipla escolha (MCQ), matemática, QA/resumo de formato longo e tradução. O SchED oferece grandes acelerações estáveis: em modelos ajustados por instrução, alcança acelerações de 3,8 a 4,0 vezes, mantendo 99,8% a 100% da pontuação de linha de base em média. Em modelos base, o SchED produz ganhos consistentes de aceleração com retenção de desempenho de 99,1% a 100%, chegando a até 2,34 vezes em configurações mais agressivas. Usando uma métrica de velocidade conservadora que penaliza fortemente a perda de qualidade (QPS, γ=4), demonstramos que o SchED é robusto e supera claramente métodos anteriores de saída antecipada baseados em confiança, que falham na geração de formato longo. Uma análise de entropia das previsões de token do modelo revela que o ajuste por instrução acelera o decaimento da entropia preditiva. Ao transformar a estabilização genuína da confiança em economia computacional, o SchED torna a decodificação de dLLMs substancialmente mais eficiente.
Apresentamos a WonderZoom, uma nova abordagem para gerar cenas 3D com conteúdos em múltiplas escalas espaciais a partir de uma única imagem. Os modelos existentes de geração de mundos 3D permanecem limitados à síntese em escala única e não conseguem produzir conteúdos de cena coerentes em diferentes granularidades. O desafio fundamental é a falta de uma representação 3D consciente da escala, capaz de gerar e renderizar conteúdos com tamanhos espaciais largamente diferentes. A WonderZoom aborda este problema através de duas inovações principais: (1) *surfels* Gaussianos adaptativos à escala para geração e renderização em tempo real de cenas 3D multi-escala, e (2) um sintetizador de detalhes progressivo que gera iterativamente conteúdos 3D em escalas mais finas. Nossa abordagem permite que os usuários "ampliem" uma região 3D e sintetizem de forma autoregressiva detalhes finos previamente inexistentes, desde paisagens até características microscópicas. Experimentos demonstram que a WonderZoom supera significativamente os modelos state-of-the-art de vídeo e 3D tanto em qualidade quanto em alinhamento, permitindo a criação de mundos 3D multi-escala a partir de uma única imagem. Mostramos resultados em vídeo e um visualizador interativo dos mundos 3D multi-escala gerados em https://wonderzoom.github.io/.
Os sistemas de condução autónoma (CA) enfrentam dificuldades em cenários de cauda longa devido ao conhecimento limitado do mundo e à fraca modelação dinâmica visual. Os métodos existentes baseados em visão-linguagem-ação (VLA) não conseguem aproveitar vídeos não anotados para aprendizagem causal visual, enquanto os métodos baseados em modelos do mundo carecem de capacidades de raciocínio provenientes de grandes modelos de linguagem. Neste artigo, construímos múltiplos conjuntos de dados especializados que fornecem anotações de raciocínio e planeamento para cenários complexos. Em seguida, é proposto um framework unificado de Compreensão-Geração-Planeamento, denominado UniUGP, para sinergizar o raciocínio de cena, a geração de vídeos futuros e o planeamento de trajetórias através de uma arquitetura híbrida de especialistas. Ao integrar modelos VLM e modelos de geração de vídeo pré-treinados, o UniUGP aproveita a dinâmica visual e o raciocínio semântico para melhorar o desempenho do planeamento. Recebendo como entrada observações multi-frame e instruções linguísticas, produz raciocínio interpretável em cadeia de pensamento, trajetórias fisicamente consistentes e vídeos futuros coerentes. Introduzimos uma estratégia de treino em quatro fases que constrói progressivamente estas capacidades em múltiplos conjuntos de dados de CA existentes, juntamente com os conjuntos de dados especializados propostos. Experiências demonstram desempenho state-of-the-art em perceção, raciocínio e tomada de decisão, com generalização superior para situações desafiadoras de cauda longa.
Os Modelos de Linguagem de Difusão (Grandes) (dLLMs) agora igualam o desempenho em tarefas específicas (downstream) de suas contrapartes autoregressivas em muitas tarefas, ao mesmo tempo que prometem ser mais eficientes durante a inferência. Uma variante particularmente bem-sucedida é a difusão discreta mascarada, na qual um buffer preenchido com tokens especiais de máscara é progressivamente substituído por tokens amostrados do vocabulário do modelo. A eficiência pode ser obtida ao desmascarar vários tokens em paralelo, mas fazer muitos de uma vez corre o risco de degradar a qualidade da geração. Assim, um aspecto crítico de projeto dos dLLMs é o procedimento de amostragem que seleciona, a cada passo do processo de difusão, quais tokens substituir. De fato, trabalhos recentes descobriram que estratégias heurísticas, como o limiar de confiança (confidence thresholding), levam a uma maior qualidade e taxa de processamento de tokens (throughput) em comparação com o desmascaramento aleatório. No entanto, tais heurísticas têm desvantagens: elas exigem ajuste manual, e observamos que seu desempenho se degrada com tamanhos de buffer maiores. Neste trabalho, propomos, em vez disso, treinar procedimentos de amostragem usando aprendizado por reforço. Especificamente, formalizamos a amostragem por difusão mascarada como um processo de decisão de Markov no qual o dLLM atua como o ambiente, e propomos uma arquitetura de política leve (lightweight policy) baseada em um transformador de camada única que mapeia as confianças dos tokens do dLLM para decisões de desmascaramento. Nossos experimentos mostram que essas políticas treinadas igualam o desempenho das heurísticas state-of-the-art quando combinadas com geração semi-autoregressiva, ao mesmo tempo que as superam no cenário de difusão completa. Também examinamos a transferibilidade dessas políticas, constatando que elas podem generalizar para novos dLLMs subjacentes e comprimentos de sequência maiores. No entanto, também observamos que seu desempenho se degrada quando aplicadas a dados fora do domínio (out-of-domain), e que o ajuste fino do compromisso (trade-off) entre precisão e eficiência pode ser desafiador com nossa abordagem.
Com base no sucesso do 3D Gaussian Splatting (3DGS) na representação de cenas 3D estáticas, a sua extensão para cenas dinâmicas, geralmente designada por 4DGS ou 3DGS dinâmico, tem atraído uma atenção crescente. No entanto, a conceção de esquemas de deformação mais compactos e eficientes, juntamente com estratégias de compressão otimizadas para a taxa-de-distorção para representações de 3DGS dinâmico, permanece uma área pouco explorada. Os métodos anteriores baseiam-se quer em 4DGS espaço-temporal com primitivas Gaussianas de vida curta e sobrespecificadas, quer em 3DGS canónico com deformação que carece de controlo temporal explícito. Para resolver isto, apresentamos o TED-4DGS, um esquema de deformação baseado em incorporações e ativação temporal para compressão 4DGS otimizada para a taxa-de-distorção que unifica os pontos fortes de ambas as famílias. O TED-4DGS é construído sobre uma representação esparsa de 3DGS baseada em âncoras. A cada âncora canónica são atribuídos parâmetros de ativação temporal treináveis para especificar as suas transições de aparecimento e desaparecimento ao longo do tempo, enquanto uma incorporação temporal leve por âncora consulta um banco de deformação partilhado para produzir deformação específica da âncora. Para compressão de taxa-de-distorção, incorporamos um hiperprior baseado em representação neural implícita (INR) para modelar as distribuições de atributos das âncoras, juntamente com um modelo autoregressivo por canal para capturar correlações intra-âncora. Com estes novos elementos, o nosso esquema atinge um desempenho estado da arte em taxa-de-distorção em vários conjuntos de dados do mundo real. Tanto quanto sabemos, este trabalho representa uma das primeiras tentativas de perseguir uma estrutura de compressão otimizada para a taxa-de-distorção para representações de 3DGS dinâmico.
A edição de conhecimento visa atualizar factos específicos em modelos de linguagem de grande escala (LLMs) sem necessidade de re-treinamento completo. Esforços anteriores procuraram ajustar as camadas de conhecimento dos LLMs, demonstrando eficácia na realização de edições seletivas. No entanto, existe uma lacuna significativa entre o seu desempenho em avaliações controladas com *teacher-forcing* e a sua eficácia real em cenários de aprendizagem ao longo da vida, o que limita grandemente a sua aplicabilidade prática. A análise empírica deste trabalho revela dois problemas recorrentes associados a esta lacuna: (1) A maioria dos métodos tradicionais leva o modelo editado a sofrer de sobre-ajuste (*overfitting*) ao novo facto, degradando assim as capacidades pré-treinadas; (2) Existe uma ausência crítica de uma fase de consolidação de conhecimento, deixando os novos factos insuficientemente integrados no comportamento do LLM em tempo de inferência sob geração autoregressiva, levando assim a um desajuste entre o conhecimento paramétrico e o comportamento de geração real. Para tal, propomos *Edit-then-Consolidate* (Editar-e-Depois-Consolidar), um novo paradigma de edição de conhecimento que visa colmatar a lacuna entre os métodos teóricos de edição de conhecimento e a sua aplicabilidade no mundo real. Especificamente, (1) a nossa estrutura mitiga o sobre-ajuste através de *Targeted Proximal Supervised Fine-Tuning* (Ajuste Fino Supervisionado Proximal Direcionado - TPSFT), que localiza a edição através de um objetivo de região de confiança para limitar o desvio da política; (2) De seguida, uma fase de consolidação que utiliza *Group Relative Policy Optimization* (Otimização de Política Relativa de Grupo - GRPO) alinha o conhecimento editado com a política de inferência baseada em *Chain-of-Thought* (CoT), otimizando o comportamento ao nível do trajeto sob sinais de recompensa abrangentes. Experiências extensivas demonstram que a nossa estrutura melhora consistentemente a fiabilidade e a generalização da edição em avaliações do mundo real, preservando melhor a localidade e as capacidades pré-treinadas.
O diálogo clínico representa uma dualidade complexa que exige tanto a fluência empática da conversa natural quanto o rigor preciso da medicina baseada em evidências. Embora os Modelos de Linguagem de Grande Escala possuam capacidades linguísticas sem precedentes, sua dependência arquitetônica no processamento reativo e sem estado frequentemente favorece a plausibilidade probabilística em detrimento da veracidade factual. Esta limitação estrutural catalisou uma mudança de paradigma na IA médica, da previsão de texto generativa para a autonomia agentiva, onde o modelo funciona como um motor de raciocínio central capaz de planejamento deliberado e memória persistente. Indo além das revisões existentes que primariamente catalogam aplicações downstream, este estudo fornece uma análise de primeiros princípios da arquitetura cognitiva que sustenta essa mudança. Introduzimos uma taxonomia nova estruturada ao longo dos eixos ortogonais de fonte de conhecimento e objetivo de agência para delinear a proveniência do conhecimento clínico contra o escopo operacional do sistema. Esta estrutura facilita uma análise sistemática dos trade-offs intrínsecos entre criatividade e confiabilidade, categorizando os métodos em quatro arquétipos: Clínicos do Espaço Latente, Planejadores Emergentes, Sintetizadores Aterrados e Autômatos de Fluxo de Trabalho Verificáveis. Para cada paradigma, desconstruímos a realização técnica em todo o pipeline cognitivo, abrangendo planejamento estratégico, gestão de memória, execução de ações, colaboração e evolução, para revelar como escolhas arquitetônicas distintas equilibram a tensão entre autonomia e segurança.
A difusão autorregressiva (AR) permite a geração *streaming* e interativa de vídeos longos ao produzir quadros de forma causal, mas manter a coerência em horizontes de escala de minutos continua desafiador devido a erros acumulados, deriva de movimento e repetição de conteúdo. Abordamos este problema a partir de uma perspectiva de memória, tratando a síntese de vídeo como um processo dinâmico recorrente que requer contexto coordenado de curto e longo prazo. Propomos o VideoSSM, um Modelo de Vídeo Longo que unifica a difusão AR com uma memória híbrida de espaço de estados. O modelo de espaço de estados (SSM) atua como uma memória global em evolução da dinâmica da cena em toda a sequência, enquanto uma janela de contexto fornece memória local para pistas de movimento e detalhes finos. Este projeto híbrido preserva a consistência global sem padrões congelados e repetitivos, suporta interação adaptativa a *prompts* e escala em tempo linear com o comprimento da sequência. Experimentos em benchmarks de curto e longo alcance demonstram consistência temporal e estabilidade de movimento de última geração entre geradores de vídeo autorregressivos, especialmente em horizontes de escala de minutos, permitindo diversidade de conteúdo e controle interativo baseado em *prompts*, estabelecendo assim uma estrutura escalável e consciente da memória para geração de vídeos longos.
Os recentes avanços nos modelos de linguagem grandes multimodais (MLLMs) têm levado a progressos impressionantes em vários benchmarks. No entanto, a sua capacidade de compreender imagens infravermelhas permanece inexplorada. Para colmatar esta lacuna, introduzimos o IF-Bench, o primeiro benchmark de alta qualidade concebido para avaliar a compreensão multimodal de imagens infravermelhas. O IF-Bench é composto por 499 imagens provenientes de 23 conjuntos de dados infravermelhos e 680 pares pergunta-resposta visuais cuidadosamente elaborados, abrangendo 10 dimensões essenciais da compreensão de imagens. Com base neste benchmark, avaliamos sistematicamente mais de 40 MLLMs de código aberto e proprietários, empregando estratégias de avaliação cíclica, avaliação bilíngue e julgamento híbrido para aumentar a fiabilidade dos resultados. A nossa análise revela como a escala do modelo, a arquitetura e os paradigmas de inferência afetam a compreensão de imagens infravermelhas, fornecendo informações valiosas para esta área. Além disso, propomos um método generativo de *prompting* visual sem necessidade de treino (GenViP), que aproveita modelos avançados de edição de imagens para traduzir imagens infravermelhas em contrapartidas RGB alinhadas semântica e espacialmente, mitigando assim os desvios de distribuição de domínio. Experiências extensivas demonstram que o nosso método produz consistentemente melhorias significativas de desempenho numa vasta gama de MLLMs. O benchmark e o código estão disponíveis em https://github.com/casiatao/IF-Bench.
Sistemas leves de conversão de texto em fala em tempo real são cruciais para acessibilidade. No entanto, os modelos de TTS mais eficientes frequentemente dependem de fonetizadores leves que lutam com desafios dependentes de contexto. Em contraste, fonetizadores mais avançados, com um entendimento linguístico mais profundo, normalmente incorrem em altos custos computacionais, o que impede o desempenho em tempo real. Este artigo examina o compromisso (*trade-off*) entre a qualidade da fonetização e a velocidade de inferência em sistemas de TTS auxiliados por G2P (Grapheme-to-Phoneme), introduzindo uma estrutura prática para preencher essa lacuna. Propomos estratégias leves para fonetização consciente do contexto e uma arquitetura de TTS orientada a serviços que executa esses módulos como serviços independentes. Este projeto desacopla os componentes pesados e conscientes do contexto do núcleo do motor de TTS, quebrando efetivamente a barreira de latência e permitindo o uso em tempo real de modelos de fonetização de alta qualidade. Resultados experimentais confirmam que o sistema proposto melhora a solidez da pronúncia e a precisão linguística, mantendo a capacidade de resposta em tempo real, tornando-o bem adequado para aplicações de TTS offline e em dispositivos finais.
A aquisição de hardware para mineração de Bitcoin requer um timing estratégico devido à volatilidade dos mercados, à rápida obsolescência tecnológica e aos ciclos de receita determinados pelo protocolo. Apesar da evolução da mineração para uma indústria intensiva em capital, existe pouca orientação sobre quando adquirir novos hardwares de Circuito Integrado de Aplicação Específica (ASIC), e nenhum framework computacional anterior aborda este problema de decisão. Nós colmatamos esta lacuna ao formular a aquisição de hardware como uma tarefa de classificação de séries temporais, prevendo se a compra de máquinas ASIC gera retornos lucrativos (Retorno sobre o Investimento (ROI) >= 1), marginais (0 < ROI < 1) ou não lucrativos (ROI <= 0) no prazo de um ano. Propomos a MineROI-Net, uma arquitetura de código aberto baseada em Transformer, projetada para capturar padrões temporais multiescala na rentabilidade da mineração. Avaliada com dados de 20 mineradores ASIC lançados entre 2015 e 2024 em diversos regimes de mercado, a MineROI-Net supera as baselines baseadas em LSTM e TSLANet, alcançando 83,7% de precisão e 83,1% de macro F1-score. O modelo demonstra forte relevância económica, alcançando 93,6% de precisão na deteção de períodos não lucrativos e 98,5% de precisão para os lucrativos, evitando a classificação incorreta de cenários lucrativos como não lucrativos e vice-versa. Estes resultados indicam que a MineROI-Net oferece uma ferramenta prática e baseada em dados para o timing de aquisições de hardware de mineração, podendo reduzir o risco financeiro em operações de mineração intensivas em capital. O modelo está disponível em: https://github.com/AMAAI-Lab/MineROI-Net.
Para resolver o compromisso entre robustez e desempenho em VLMs robustos, observamos que as palavras funcionais podem induzir vulnerabilidade em VLMs contra ataques adversariais cross-modal e propomos, consequentemente, o Function-word De-Attention (FDA) para mitigar o impacto das palavras funcionais. Semelhante a amplificadores diferenciais, nosso FDA calcula a atenção cruzada original e a atenção cruzada das palavras funcionais dentro dos cabeçalhos de atenção, e subtrai diferencialmente a última da primeira para obter VLMs mais alinhados e robustos. Experimentos abrangentes incluem 2 baselines state-of-the-art sob 6 ataques diferentes em 2 tarefas downstream, 3 conjuntos de dados e 3 modelos. No geral, nosso FDA produz uma redução média de 18/13/53% na Taxa de Sucesso de Ataque (ASR) com quedas de desempenho de apenas 0,2/0,3/0,6% nos 3 modelos testados em recuperação, e uma redução de 90% na ASR com um ganho de desempenho de 0,3% em *visual grounding*. Demonstramos experimentalmente a escalabilidade, generalização e desempenho *zero-shot* do FDA, bem como estudos de ablação e análises aprofundadas. O código será disponibilizado publicamente em https://github.com/michaeltian108/FDA.
Os recentes avanços na geração de texto para vídeo alcançaram um realismo notável, mas o controle refinado sobre o movimento e a orientação da câmera permanece um desafio. As abordagens existentes geralmente codificam trajetórias de câmera por meio de representações relativas ou ambíguas, limitando o controle geométrico explícito. Apresentamos o GimbalDiffusion, uma estrutura que permite o controle da câmera baseado em coordenadas do mundo físico, utilizando a gravidade como referência global. Em vez de descrever o movimento em relação aos quadros anteriores, nosso método define trajetórias de câmera em um sistema de coordenadas absoluto, permitindo um controle preciso e interpretável sobre os parâmetros da câmera sem exigir um quadro de referência inicial. Utilizamos vídeos panorâmicos de 360 graus para construir uma ampla variedade de trajetórias de câmera, indo muito além das trajetórias predominantemente retas e frontais observadas em dados de vídeo convencionais. Para melhorar ainda mais a orientação da câmera, introduzimos o condicionamento de inclinação nula (null-pitch), uma estratégia de anotação que reduz a dependência do modelo no conteúdo textual quando este entra em conflito com as especificações da câmera (por exemplo, gerar grama enquanto a câmera aponta para o céu). Por fim, estabelecemos um benchmark para geração de vídeo com consciência da câmera, reequilibrando o SpatialVID-HQ para avaliação abrangente sob ampla variação de inclinação da câmera. Juntas, essas contribuições avançam a controlabilidade e a robustez dos modelos de texto para vídeo, permitindo uma manipulação precisa e alinhada com a gravidade da câmera dentro de estruturas generativas.