Artigos de pesquisa em IA selecionados diariamente com traduções
A compreensão abrangente de séries temporais permanece um desafio significativo para os Grandes Modelos de Linguagem (LLMs). A pesquisa atual é dificultada por definições de tarefas fragmentadas e benchmarks com ambiguidades inerentes, impedindo uma avaliação rigorosa e o desenvolvimento de Modelos de Raciocínio de Séries Temporais (TSRMs) unificados. Para preencher esta lacuna, formalizamos o Raciocínio de Séries Temporais (TSR) por meio de uma taxonomia de quatro níveis de complexidade cognitiva crescente. Apresentamos o HiTSR, um conjunto de dados hierárquico de raciocínio de séries temporais composto por 83 mil amostras com diversas combinações de tarefas e trajetórias de Cadeia de Pensamento (CoT) verificadas. Utilizando o HiTSR, propomos o LLaTiSA, um TSRM robusto que integra padrões visualizados com tabelas numéricas de precisão calibrada para aprimorar a percepção temporal de Modelos de Linguagem Visual (VLMs). Por meio de uma estratégia de fine-tuning curricular multiestágio, o LLaTiSA alcança desempenho superior e exibe generalização robusta fora da distribuição em diversas tarefas de TSR e cenários do mundo real. Nosso código está disponível em https://github.com/RainingNovember/LLaTiSA.
Modelos de geração de vídeo interativo como Genie, YUME, HY-World e Matrix-Game estão avançando rapidamente, mas cada modelo é avaliado em seu próprio benchmark com cenas e trajetórias privadas, tornando impossível uma comparação justa entre modelos. Benchmarks públicos existentes oferecem métricas úteis como erro de trajetória, pontuações estéticas e avaliações baseadas em VLMs, mas nenhum fornece as condições padronizadas de teste – cenas idênticas, sequências de ação idênticas e uma interface de controle unificada – necessárias para tornar essas métricas comparáveis entre modelos com entradas heterogêneas. Apresentamos o WorldMark, o primeiro benchmark que fornece esse campo comum para modelos de mundo interativos do tipo Imagem-para-Vídeo. O WorldMark contribui com: (1) uma camada unificada de mapeamento de ações que traduz um vocabulário de ação compartilhado no estilo WASD para o formato de controle nativo de cada modelo, permitindo comparação direta entre seis modelos principais em cenas e trajetórias idênticas; (2) um conjunto de testes hierárquico com 500 casos de avaliação cobrando perspectivas em primeira e terceira pessoa, cenas realistas e estilizadas, e três níveis de dificuldade (Fácil, Médio, Difícil) abrangendo 20-60 segundos; e (3) um kit de ferramentas de avaliação modular para Qualidade Visual, Alinhamento de Controle e Consistência do Mundo, projetado para que pesquisadores possam reutilizar nossas entradas padronizadas enquanto inserem suas próprias métricas conforme o campo evolui. Liberaremos todos os dados, código de avaliação e saídas dos modelos para facilitar pesquisas futuras. Além das métricas offline, lançamos a World Model Arena (warena.ai), uma plataforma online onde qualquer pessoa pode colocar os principais modelos de mundo em competição lado a lado e acompanhar a tabela de classificação em tempo real.
A escalabilidade de modelos base para humanoides é limitada pela escassez de dados robóticos. Embora dados maciços de egocentrismo humano ofereçam uma alternativa escalável, superar o abismo de incorporação cruzada permanece um desafio fundamental devido a incompatibilidades cinemáticas. Apresentamos o UniT (Tokenizador de Ação Latente Unificado via Ancoragem Visual), uma estrutura que estabelece uma linguagem física unificada para transferência humano-humanoide. Fundamentado na filosofia de que cinemáticas heterogêneas compartilham consequências visuais universais, o UniT emprega um mecanismo de reconstrução cruzada triplo: ações preveem visão para ancorar cinemática a resultados físicos, enquanto visão reconstrói ações para filtrar confundidores visuais irrelevantes. Simultaneamente, um ramo de fusão sinergiza essas modalidades purificadas em um espaço latente discreto compartilhado de intenções físicas independentes da incorporação. Validamos o UniT em dois paradigmas: 1) Aprendizado de Políticas (VLA-UniT): Ao prever esses tokens unificados, ele aproveita efetivamente dados humanos diversos para alcançar eficiência de dados state-of-the-art e generalização robusta fora da distribuição (OOD) em benchmark de simulação de humanoide e implantações no mundo real, demonstrando notavelmente transferência de tarefa zero-shot. 2) Modelagem do Mundo (WM-UniT): Ao alinhar dinâmicas de incorporação cruzada via tokens unificados como condições, ele realiza transferência direta de ação humano-humanoide. Este alinhamento garante que dados humanos sejam traduzidos perfeitamente em maior controlabilidade de ação para geração de vídeo de humanoide. Finalmente, ao induzir uma representação de incorporação cruzada altamente alinhada (verificado empiricamente por visualizações t-SNE revelando a convergência de características humanas e de humanoide em uma variedade compartilhada), o UniT oferece um caminho escalável para destilar vasto conhecimento humano em capacidades de humanoide de propósito geral.
A estilização facial criativa visa representar retratos em diversos estilos visuais, como caricaturas, esboços e pinturas, mantendo a identidade reconhecível. No entanto, os codificadores de identidade atuais, geralmente treinados e calibrados em fotografias naturais, apresentam severa fragilidade sob estilização. Eles frequentemente confundem alterações na textura ou paleta de cores com desvio de identidade ou falham em detectar exagerações geométricas. Isso revela a falta de uma estrutura independente de estilo para avaliar e supervisionar a consistência da identidade em diferentes estilos e intensidades. Para preencher essa lacuna, introduzimos o StyleID, um conjunto de dados e estrutura de avaliação consciente da percepção humana para identidade facial sob estilização. O StyleID compreende dois conjuntos de dados: (i) StyleBench-H, um benchmark que captura julgamentos humanos de verificação de semelhança/diferença em estilizações baseadas em difusão e fluxo em múltiplas intensidades de estilo, e (ii) StyleBench-S, um conjunto de supervisão derivado de curvas psicométricas de força de reconhecimento obtidas através de experimentos controlados de escolha forçada entre duas alternativas (2AFC). Aproveitando o StyleBench-S, ajustamos finamente codificadores semânticos existentes para alinhar suas ordenações de similaridade com a percepção humana entre estilos e intensidades. Experimentos demonstram que nossos modelos calibrados produzem correlação significativamente maior com julgamentos humanos e robustez aprimorada para retratos desenhados por artistas fora do domínio. Todos os nossos conjuntos de dados, código e modelos pré-treinados estão publicamente disponíveis em https://kwanyun.github.io/StyleID_page/
Ambientes interativos de longo horizonte são uma plataforma de teste para avaliar as capacidades de utilização de habilidades por agentes. Estes ambientes exigem raciocínio multi-etapa, o encadeamento de múltiplas habilidades ao longo de muitos intervalos de tempo e tomada de decisão robusta sob condições de recompensas atrasadas e observabilidade parcial. Os jogos são um bom ambiente de teste para avaliar a utilização de habilidades por agentes. Os Modelos de Linguagem de Grande Escala (LLMs) oferecem uma alternativa promissora como agentes jogadores, mas frequentemente lutam com uma tomada de decisão consistente em horizontes longos porque carecem de um mecanismo para descobrir, reter e reutilizar habilidades estruturadas entre episódios. Apresentamos o COSPLAY, uma estrutura de co-evolução na qual um agente de decisão LLM recupera habilidades de um banco de habilidades aprendível para orientar a tomada de ação, enquanto um pipeline de habilidades gerenciado por agente descobre habilidades reutilizáveis a partir das execuções não rotuladas do agente para formar um banco de habilidades. Nossa estrutura melhora tanto o agente de decisão para aprender uma melhor recuperação de habilidades e geração de ações, enquanto o agente do banco de habilidades extrai, refina e atualiza continuamente as habilidades juntamente com seus contratos. Experimentos em seis ambientes de jogo mostram que o COSPLAY com um modelo base de 8B alcança uma melhoria média de recompensa superior a 25,1 por cento contra quatro linhas de base de LLMs de fronteira em benchmarks de jogos para um jogador, mantendo-se competitivo em jogos de raciocínio social multijogador.
Como podemos determinar se um vídeo foi acelerado ou desacelerado? Como podemos gerar vídeos em diferentes velocidades? Embora os vídeos tenham sido centrais para a pesquisa moderna em visão computacional, pouca atenção foi dada à percepção e ao controle da passagem do tempo. Neste artigo, estudamos o tempo como um conceito visual aprendível e desenvolvemos modelos para raciocinar sobre e manipular o fluxo do tempo em vídeos. Primeiro, exploramos as pistas multimodais e a estrutura temporal naturalmente presentes nos vídeos para aprender, de maneira auto supervisionada, a detectar mudanças de velocidade e estimar a velocidade de reprodução. Em seguida, mostramos que esses modelos de raciocínio temporal aprendidos nos permitem curar o maior conjunto de dados de vídeo em câmera lenta até o momento, a partir de fontes ruidosas do mundo real. Essas filmagens em câmera lenta, geralmente gravadas por câmeras de alta velocidade, contêm detalhes temporais substancialmente mais ricos do que os vídeos padrão. Usando esses dados, desenvolvemos ainda mais modelos capazes de controle temporal, incluindo a geração de vídeo condicionada por velocidade, que produz movimento em uma velocidade de reprodução especificada, e a super-resolução temporal, que transforma vídeos borrados e de baixo FPS em sequências de alto FPS com detalhes temporais refinados. Nossos resultados destacam o tempo como uma dimensão perceptual manipulável no aprendizado de vídeo, abrindo portas para a geração de vídeo temporalmente controlável, a detecção forense temporal e, potencialmente, modelos de mundo mais ricos que compreendem como os eventos se desdobram ao longo do tempo.
Os agentes autónomos de interface gráfica enfrentam dois desafios fundamentais: a paragem prematura, em que os agentes declaram sucesso antecipadamente sem evidências verificáveis, e os ciclos repetitivos, em que os agentes repetem as mesmas ações falhadas sem capacidade de recuperação. Apresentamos o VLAA-GUI, um framework modular de agentes para GUI construído em torno de três componentes integrados que orientam o sistema sobre quando Parar, Recuperar e Procurar. Primeiro, um Verificador de Completude obrigatório aplica critérios de sucesso observáveis na UI e verificação em cada passo final — com um verificador a nível de agente que interroga as alegações de conclusão com regras de decisão, rejeitando aquelas que carecem de evidência visual direta. Segundo, um Quebrador de Ciclos obrigatório fornece uma filtragem multi-nível: alternando o modo de interação após falhas repetidas, forçando mudanças de estratégia após a recorrência persistente do estado do ecrã e vinculando sinais de reflexão a mudanças de estratégia. Terceiro, um Agente de Pesquisa sob demanda procura online por fluxos de trabalho desconhecidos, consultando diretamente um LLM capacitado com capacidade de pesquisa e devolvendo os resultados em texto simples. Integramos adicionalmente um Agente de Codificação para ações intensivas em código e um Agente de Aterragem Semântica para uma baseação precisa de ações, ambos invocados sob demanda quando necessário. Avaliamos o VLAA-GUI em cinco *backbones* de topo, incluindo Opus 4.5, 4.6 e Gemini 3.1 Pro, em dois benchmarks com tarefas de Linux e Windows, alcançando o melhor desempenho em ambos (77,5% no OSWorld e 61,0% no WindowsAgentArena). Notavelmente, três dos cinco *backbones* superam o desempenho humano (72,4%) no OSWorld numa única passagem. Estudos de ablação mostram que todos os três componentes propostos melhoram consistentemente um *backbone* forte, enquanto um *backbone* mais fraco beneficia mais destas ferramentas quando o orçamento de passos é suficiente. Uma análise mais aprofundada também mostra que o Quebrador de Ciclos reduz quase para metade os passos desperdiçados por modelos propensos a ciclos.
A destilação de conhecimento (KD) é um paradigma poderoso para comprimir grandes modelos de linguagem (LLMs), cuja eficácia depende de escolhas interligadas de direção de divergência, estratégia de otimização e regime de dados. Desagregamos o projeto dos métodos de KD existentes e apresentamos uma visão unificada que estabelece conexões entre eles, reformulando a KD como um objetivo de verossimilhança logarítmica ponderada ao nível do *token*. Propomos ainda a Destilação de Política Híbrida (HPD), que integra as vantagens complementares do KL direto e reverso para equilibrar a cobertura de modos e a busca de modos, e combina dados *off-policy* com uma amostragem *on-policy* leve e aproximada. Validamos a HPD em raciocínio matemático de geração longa, bem como em tarefas de diálogo e código de geração curta, demonstrando melhoria na estabilidade de otimização, eficiência computacional e desempenho final em diversas famílias e escalas de modelos. O código relacionado a este trabalho está disponível em https://github.com/zwhong714/Hybrid-Policy-Distillation.
A detecção e mitigação em tempo real de anomalias técnicas são críticas para serviços em grande escala baseados em nuvem nativa, onde mesmo minutos de indisponibilidade podem resultar em perdas financeiras massivas e diminuição da confiança dos utilizadores. Embora os incidentes reportados pelos clientes constituam um sinal vital para a descoberta de riscos não captados pela monitorização, a extração de informações acionáveis a partir destes dados permanece um desafio devido ao ruído extremo, alta taxa de transferência e complexidade semântica das diversas linhas de negócio. Neste artigo, apresentamos o TingIS, um sistema de ponta a ponta concebido para a descoberta de incidentes de nível empresarial. O núcleo do TingIS é um motor de ligação de eventos em múltiplos estágios que combina técnicas de indexação eficientes com Modelos de Linguagem de Grande Escala (LLMs) para tomar decisões fundamentadas sobre a fusão de eventos, permitindo a extração estável de incidentes acionáveis a partir de um pequeno número de descrições diversificadas dos utilizadores. Este motor é complementado por um mecanismo de encaminhamento em cascata para atribuição precisa do negócio e por um pipeline de redução de ruído multidimensional que integra conhecimento de domínio, padrões estatísticos e filtragem comportamental. Implementado num ambiente de produção que processa um pico de mais de 2.000 mensagens por minuto e 300.000 mensagens por dia, o TingIS alcança uma latência P90 de alerta de 3,5 minutos e uma taxa de descoberta de 95% para incidentes de alta prioridade. *Benchmarks* construídos a partir de dados do mundo real demonstram que o TingIS supera significativamente os métodos de base em precisão de encaminhamento, qualidade de agrupamento e Relação Sinal-Ruído.
Propomos o EditCrafter, um método de edição de imagens de alta resolução que opera sem ajustes, aproveitando modelos de difusão texto-para-imagem (T2I) pré-treinados para processar imagens em resoluções significativamente superiores às utilizadas durante o treinamento. Aproveitar os *priors* generativos de modelos de difusão T2I de grande escala possibilita o desenvolvimento de uma ampla gama de novas aplicações de geração e edição. Embora inúmeros métodos de edição de imagem tenham sido propostos com base em modelos de difusão e exibam resultados de edição de alta qualidade, eles são difíceis de aplicar a imagens com proporções de aspecto arbitrárias ou resoluções mais altas, pois funcionam apenas nas resoluções de treinamento (512x512 ou 1024x1024). A aplicação ingênua de edição baseada em *patches* falha, resultando em estruturas de objetos irreais e repetição. Para enfrentar esses desafios, introduzimos o EditCrafter, um *pipeline* de edição simples, porém eficaz. O EditCrafter opera realizando primeiro uma inversão em blocos (*tiled inversion*), que preserva a identidade original da imagem de alta resolução de entrada. Propomos ainda um guiamento *classifier-free* com restrição de variedade e amortecimento de ruído (NDCFG++), que é adaptado para a edição de imagens de alta resolução a partir do latente invertido. Nossos experimentos mostram que o nosso EditCrafter pode alcançar resultados de edição impressionantes em várias resoluções sem *fine-tuning* e otimização.
Apresentamos o Omni, um modelo multimodal unificado treinado nativamente em diversas modalidades, incluindo texto, imagens, vídeos, geometria 3D e representações ocultas. Descobrimos que esse treinamento possibilita o Desdobramento Contextual, onde o modelo raciocina explicitamente através de múltiplas representações modais antes de produzir previsões. Esse processo permite ao modelo agregar informações complementares entre modalidades heterogêneas, facilitando uma aproximação mais fiel da variedade de conhecimento multimodal compartilhada e melhorando a fidelidade do raciocínio subsequente. Como resultado, o Omni alcança desempenho sólido em benchmarks de geração e compreensão multimodal, demonstrando capacidades avançadas de raciocínio multimodal, incluindo geração contextual de texto, imagem, vídeo e geometria 3D.
Apresentamos o Vista4D, uma estrutura robusta e flexível para regravação de vídeos que ancora o vídeo de entrada e as câmeras-alvo em uma nuvem de pontos 4D. Especificamente, dado um vídeo de entrada, nosso método ressintetiza a cena com a mesma dinâmica a partir de uma trajetória e ponto de vista de câmera diferentes. Os métodos existentes de regravação de vídeo frequentemente lutam com artefatos de estimativa de profundidade em vídeos dinâmicos do mundo real, ao mesmo tempo que falham em preservar a aparência do conteúdo e em manter um controle preciso da câmera para novas trajetórias desafiadoras. Construímos uma representação de nuvem de pontos ancorada em 4D com segmentação de pixels estáticos e reconstrução 4D para preservar explicitamente o conteúdo visualizado e fornecer sinais ricos da câmera, e treinamos com dados dinâmicos multivia reconstruídos para robustez contra artefatos da nuvem de pontos durante a inferência no mundo real. Nossos resultados demonstram uma consistência 4D, controle de câmera e qualidade visual melhorados em comparação com as linhas de base state-of-the-art sob uma variedade de vídeos e caminhos de câmera. Além disso, nosso método generaliza para aplicações do mundo real, como expansão de cena dinâmica e recomposição de cena 4D. Consulte nossa página do projeto para resultados, código e modelos: https://eyeline-labs.github.io/Vista4D.
Nos últimos anos, foram feitos progressos significativos tanto na geração de imagens quanto na detecção de imagens geradas. Apesar do seu desenvolvimento rápido, mas em grande parte independente, essas duas áreas evoluíram com paradigmas arquitetônicos distintos: a primeira baseia-se predominantemente em redes generativas, enquanto a segunda privilegia estruturas discriminativas. Uma tendência recente em ambos os domínios é o uso de informação adversarial para melhorar o desempenho, revelando um potencial de sinergia. Contudo, a significativa divergência arquitetónica entre elas apresenta desafios consideráveis. Afastando-nos de abordagens anteriores, propomos o UniGenDet: uma estrutura unificada generativa-discriminativa para a Geração de imagens e a Deteção de imagens geradas em co-evolução. Para colmatar a lacuna de tarefas, concebemos um mecanismo de autoatenção multimodal simbiótico e um algoritmo de afinação unificado. Esta sinergia permite que a tarefa de geração melhore a interpretabilidade da identificação de autenticidade, enquanto os critérios de autenticidade orientam a criação de imagens com maior fidelidade. Além disso, introduzimos um mecanismo de alinhamento generativo informado por detetor para facilitar a troca de informações sem interrupções. Experiências extensas em múltiplos conjuntos de dados demonstram que o nosso método atinge um desempenho de ponta. Código: https://github.com/Zhangyr2022/UniGenDet{https://github.com/Zhangyr2022/UniGenDet}.
Embora os Modelos de Língua Grande (LLMs) se destaquem na geração de código a nível de função, tarefas a nível de projeto, como a geração de sites multi-página funcionais e visualmente estéticos, permanecem altamente desafiadoras. Os trabalhos existentes frequentemente limitam-se a sites estáticos de página única, enquanto os frameworks agentes normalmente dependem de execução multi-turno com modelos proprietários, resultando em custos substanciais de tokens, alta latência e integração frágil. Treinar um pequeno LLM de ponta a ponta com aprendizado por reforço (RL) é uma alternativa promissora, mas enfrenta um gargalo crítico na criação de recompensas confiáveis e computacionalmente viáveis para a geração de sites. Diferente de tarefas de codificação de arquivo único que podem ser verificadas por testes unitários, a geração de sites requer a avaliação de estética inerentemente subjetiva, interações entre páginas e correção funcional. Para isso, propomos o WebGen-R1, um framework RL de ponta a ponta desenvolvido para geração de sites a nível de projeto. Primeiro, introduzimos um paradigma de geração estruturada orientada por scaffold que restringe o grande espaço de ação aberto e preserva a integridade arquitetônica. Em seguida, projetamos uma nova recompensa multimodal em cascata que acopla perfeitamente garantias estruturais com feedback funcional baseado em execução e supervisão estética baseada em visão. Experimentos extensivos demonstram que nosso WebGen-R1 transforma substancialmente um modelo base de 7B, que gerava sites quase não funcionais, em um produtor de sites multi-página implantáveis e esteticamente alinhados. Notavelmente, nosso WebGen-R1 não apenas supera consistentemente modelos de código aberto altamente escalados (até 72B), mas também rivaliza com o estado da arte DeepSeek-R1 (671B) em sucesso funcional, enquanto o supera substancialmente em renderização válida e alinhamento estético. Esses resultados posicionam o WebGen-R1 como um caminho viável para escalar pequenos modelos abertos da geração de código a nível de função para a geração de aplicações web a nível de projeto.
A modelagem generativa conjunta de imagem e características surgiu recentemente como uma estratégia eficaz para melhorar o treinamento de modelos de difusão, ao acoplar latentes de VAE de baixo nível com características semânticas de alto nível extraídas de codificadores visuais pré-treinados. No entanto, as abordagens existentes dependem de um espaço de representação fixo, construído independentemente do objetivo generativo e mantido inalterado durante o treinamento. Argumentamos que o espaço de representação que orienta a difusão deve, ele próprio, adaptar-se à tarefa generativa. Para esse fim, propomos a Difusão com Representação Coevolutiva (CoReDi), uma estrutura na qual o espaço de representação semântica evolui durante o treinamento, aprendendo uma projeção linear leve em conjunto com o modelo de difusão. Embora a otimização ingênua desta projeção leve a soluções degeneradas, demonstramos que uma coevolução estável pode ser alcançada através de uma combinação de alvos de *stop-gradient*, normalização e regularização direcionada que previne o colapso das características. Esta formulação permite que o espaço semântico se especialize progressivamente para as necessidades da síntese de imagens, melhorando sua complementaridade com os latentes de imagem. Aplicamos o CoReDi tanto à difusão latente com VAE quanto à difusão no espaço de pixels, demonstrando que representações semânticas adaptativas melhoram a modelagem generativa em ambos os cenários. Experimentos mostram que o CoReDi alcança convergência mais rápida e qualidade amostral superior em comparação com modelos de difusão conjunta que operam em espaços de representação fixos.
Os Grandes Modelos de Linguagem (LLMs) demonstraram notável fluência e versatilidade numa vasta gama de tarefas de PLN, mas continuam propensos a imprecisões factuais e alucinações. Esta limitação representa riscos significativos em domínios de alta responsabilidade, como saúde, direito e comunicação científica, onde a confiança e a verificabilidade são primordiais. Neste artigo, introduzimos o DAVinCI - uma estrutura de Dupla Atribuição e Verificação concebida para melhorar a fiabilidade factual e a interpretabilidade das saídas dos LLMs. O DAVinCI opera em duas fases: (i) atribui afirmações geradas a componentes internos do modelo e a fontes externas; (ii) verifica cada afirmação utilizando raciocínio baseado em *entailment* e calibração de confiança. Avaliamos o DAVinCI em vários conjuntos de dados, incluindo FEVER e CLIMATE-FEVER, e comparamos o seu desempenho com linhas de base padrão de apenas verificação. Os nossos resultados mostram que o DAVinCI melhora significativamente a precisão de classificação, a precisão de atribuição, o *recall* e a pontuação F1 em 5-20%. Através de um extenso estudo de ablação, isolamos as contribuições da seleção de intervalos de evidência, dos limiares de recalibração e da qualidade da recuperação de informação. Também disponibilizamos uma implementação modular do DAVinCI que pode ser integrada em *pipelines* existentes de LLMs. Ao unir a atribuição e a verificação, o DAVinCI oferece um caminho escalável para sistemas de IA auditáveis e confiáveis. Este trabalho contribui para o esforço crescente de tornar os LLMs não apenas poderosos, mas também responsáveis.
Os modelos de base de eletroencefalografia (EEG) demonstraram um forte potencial para aprender representações generalizáveis a partir de dados neurais em larga escala. No entanto, a sua implantação clínica é dificultada por desvios de distribuição entre contextos clínicos, dispositivos e populações. A adaptação em tempo de teste (TTA) oferece uma solução promissora, permitindo que os modelos se adaptem a dados-alvo não rotulados durante a inferência, sem acesso aos dados de origem – uma propriedade valiosa em contextos de saúde limitados por regulamentações de privacidade e dados rotulados escassos. Contudo, a sua eficácia para EEG permanece amplamente inexplorada. Neste trabalho, apresentamos o NeuroAdapt-Bench, um benchmark sistemático para avaliar métodos de adaptação em tempo de teste em modelos de base de EEG sob desvios de distribuição realistas. Avaliamos abordagens de TTA representativas de outros domínios em múltiplos modelos de base pré-treinados, diversas tarefas subsequentes e conjuntos de dados heterogéneos que abrangem desvios dentro da distribuição, fora da distribuição e mudanças extremas de modalidade (por exemplo, Ear-EEG). Os nossos resultados mostram que os métodos padrão de TTA produzem ganhos inconsistentes e frequentemente degradam o desempenho, sendo as abordagens baseadas em gradiente particularmente propensas a uma degradação severa. Em contraste, os métodos livres de otimização demonstram maior estabilidade e melhorias mais confiáveis. Estas descobertas destacam as limitações das técnicas de TTA existentes em EEG, fornecem orientações para o desenvolvimento futuro e sublinham a necessidade de estratégias de adaptação específicas para o domínio.
A aprendizagem de representações robustas do estilo autoral é crucial para a atribuição de autoria e a deteção de texto gerado por IA. No entanto, os métodos existentes frequentemente lutam com o entrelaçamento conteúdo-estilo, em que os modelos aprendem correlações espúrias entre os estilos de escrita dos autores e os tópicos, levando a uma fraca generalização entre domínios. Para enfrentar este desafio, propomos o *Explainable Authorship Variational Autoencoder* (EAVAE), uma nova estrutura que desembaraça explicitamente o estilo do conteúdo através de uma separação arquitetónica por design. O EAVAE pré-treina primeiro codificadores de estilo usando aprendizagem contrastiva supervisionada em dados de autoria diversos, e depois afina a arquitetura com um *Variational Autoencoder* (VAE) utilizando codificadores separados para as representações de estilo e conteúdo. O desembaraçamento é imposto através de um novo discriminador que não só distingue se pares de representações de estilo/conteúdo pertencem ao mesmo autor ou a autores/fontes de conteúdo diferentes, mas também gera uma explicação em linguagem natural para a sua decisão, mitigando simultaneamente informações de confusão e melhorando a interpretabilidade. Experiências extensivas demonstram a eficácia do EAVAE. Na atribuição de autoria, alcançámos um desempenho de ponta em vários conjuntos de dados, incluindo *Amazon Reviews*, PAN21 e HRS. Para a deteção de texto gerado por IA, o EAVAE sobressai na aprendizagem *few-shot* sobre o conjunto de dados M4. Os repositórios de código e dados estão disponíveis online: https://github.com/hieum98/avae e https://huggingface.co/collections/Hieuman/document-level-authorship-datasets.
Os modelos de Mistura de Especialistas (MoE), agora populares para escalar a capacidade mantendo a velocidade de inferência fixa, alternam especialistas em quase todos os tokens. Quando um modelo excede a memória disponível da GPU, essa alternância frequente pode tornar ineficazes otimizações como descarregamento e pré-busca de dados. Defendemos que a estrutura de opções no aprendizado por reforço é ideal para resolver esse problema e propomos camadas de mistura de especialistas com extensão temporal. Com base na estrutura option-critic com custos de deliberação, adicionamos um controlador a cada camada que aprende quando alternar conjuntos de especialistas e quais carregar. Ao aplicar isso ao gpt-oss-20b com adaptadores de baixo posto e uma recompensa de auto-distilação, nosso método reduz as taxas de alternância de mais de 50% para menos de 5%, mantendo até 90% da precisão do modelo base em MATH, MMLU e MMMLU. Isso demonstra que mesmo modelos pré-treinados existentes podem ser convertidos em MoEs temporalmente estendidos com treinamento leve, onde o custo de deliberação permite aos treinadores negociar taxas de alternância versus capacidade. Esperamos que isso abra um caminho fundamentado na estrutura de opções para servir modelos de forma eficiente em memória e para aprendizado contínuo em modelos MoE em constante crescimento.
O conhecimento mundial e as capacidades de raciocínio dos grandes modelos de linguagem (LLMs) baseados em texto estão avançando rapidamente, porém as abordagens atuais para compreensão de movimento humano, incluindo resposta a perguntas e legendagem sobre movimento, ainda não exploraram plenamente essas capacidades. Os métodos existentes baseados em LLMs geralmente aprendem o alinhamento movimento-linguagem através de codificadores dedicados que projetam características do movimento no espaço de incorporação do LLM, permanecendo limitados pela representação e alinhamento cross-modal. Inspirados pela análise biomecânica, onde ângulos articulares e cinemática de partes corporais há muito servem como uma linguagem descritiva precisa para o movimento humano, propomos a Descrição Estruturada de Movimento (SMD), uma abordagem determinística baseada em regras que converte sequências de posições articulares em descrições em linguagem natural estruturadas de ângulos articulares, movimentos de partes do corpo e trajetória global. Ao representar movimento como texto, o SMD permite que os LLMs apliquem seu conhecimento pré-treinado sobre partes do corpo, direções espaciais e semântica de movimento diretamente ao raciocínio sobre movimento, sem exigir codificadores aprendidos ou módulos de alinhamento. Demonstramos que esta abordagem supera os resultados mais avançados tanto em resposta a perguntas sobre movimento (66,7% no BABEL-QA, 90,1% no HuMMan-QA) quanto em legendagem de movimento (R@1 de 0,584, CIDEr de 53,16 no HumanML3D), ultrapassando todos os métodos anteriores. O SMD oferece ainda benefícios práticos: a mesma entrada de texto funciona em diferentes LLMs com apenas uma adaptação leve LoRA (validada em 8 LLMs de 6 famílias de modelos), e sua representação legível por humanos permite uma análise de atenção interpretável sobre as descrições de movimento. Código, dados e adaptadores LoRA pré-treinados estão disponíveis em https://yaozhang182.github.io/motion-smd/.
A personalização de modelos de linguagem através da incorporação eficaz do histórico de interações do usuário permanece um desafio central no desenvolvimento de sistemas de IA adaptativos. Embora os grandes modelos de linguagem (LLMs), combinados com a Geração Aumentada por Recuperação (RAG), tenham melhorado a precisão factual, eles frequentemente carecem de memória estruturada e falham em escalar em interações complexas e de longo prazo. Para resolver isso, propomos uma estrutura flexível de memória externa baseada em um grafo de conhecimento que é construído e atualizado automaticamente pelo LLM. Com base na arquitetura AriGraph, introduzimos um novo design híbrido de grafo que suporta tanto arestas padrão quanto dois tipos de hiperarestas, permitindo representações semânticas e temporais ricas e dinâmicas. Nossa estrutura também suporta diversos mecanismos de recuperação, incluindo travessia A*, WaterCircles, busca em feixe e métodos híbridos, tornando-a adaptável a diferentes conjuntos de dados e capacidades de LLM. Avaliamos nosso sistema nos benchmarks TriviaQA, HotpotQA e DiaASQ e demonstramos que diferentes configurações de memória e recuperação produzem desempenho ideal dependendo da tarefa. Adicionalmente, estendemos o benchmark DiaASQ com anotações temporais e declarações internamente contraditórias, mostrando que nosso sistema permanece robusto e eficaz no gerenciamento de dependências temporais e no raciocínio consciente do contexto.
Os modelos multimodais de grande escala são cada vez mais utilizados como núcleo de raciocínio de agentes incorporados que operam em ambientes 3D, no entanto, eles permanecem propensos a alucinações que podem produzir decisões inseguras e sem fundamento. Os métodos existentes de mitigação de alucinações em tempo de inferência visam principalmente configurações de linguagem visual 2D e não se transferem para o raciocínio incorporado em 3D, onde as falhas surgem da presença de objetos, do layout espacial e da fundamentação geométrica, e não de inconsistências a nível de pixel. Apresentamos o 3D-VCD, o primeiro *framework* de decodificação contrastiva visual em tempo de inferência para mitigação de alucinações em agentes incorporados 3D. O 3D-VCD constrói um grafo de cena 3D distorcido aplicando perturbações semânticas e geométricas a representações centradas em objetos, como substituições de categoria e corrupção de coordenadas ou extensões. Ao contrastar previsões sob os contextos 3D originais e distorcidos, nosso método suprime *tokens* que são insensíveis a evidências fundamentadas da cena e, portanto, provavelmente impulsionados por *priors* linguísticos. Avaliamos o 3D-VCD nos *benchmarks* 3D-POPE e HEAL e mostramos que ele melhora consistentemente o raciocínio fundamentado sem qualquer retreinamento, estabelecendo a decodificação contrastiva em tempo de inferência sobre representações 3D estruturadas como uma rota eficaz e prática para uma inteligência incorporada mais confiável.