Artigos de pesquisa em IA selecionados diariamente com traduções
A geração molecular com modelos de difusão emergiu como uma direção promissora para a descoberta de medicamentos e a ciência de materiais orientadas por IA. Embora os modelos de difusão em grafos tenham sido amplamente adotados devido à natureza discreta dos grafos moleculares 2D, os modelos existentes sofrem com baixa validade química e dificuldade em atender às propriedades desejadas quando comparados à modelagem 1D. Neste trabalho, apresentamos o MolHIT, uma estrutura poderosa para geração de grafos moleculares que supera limitações de desempenho persistentes em métodos existentes. O MolHIT é baseado no Modelo de Difusão Discreta Hierárquica, que generaliza a difusão discreta para categorias adicionais que codificam conhecimentos prévios químicos, e na codificação atômica desacoplada que separa os tipos de átomos de acordo com seus papéis químicos. No geral, o MolHIT alcança um novo desempenho state-of-the-art no conjunto de dados MOSES com validade quase perfeita pela primeira vez na difusão em grafos, superando fortes linhas de base 1D em múltiplas métricas. Demonstramos ainda um forte desempenho em tarefas subsequentes, incluindo geração guiada por múltiplas propriedades e extensão de arcabouços moleculares.
A modelagem de longas sequências de comportamentos do usuário emergiu como uma fronteira crítica na recomendação generativa. No entanto, as soluções existentes enfrentam um dilema: os mecanismos de atenção linear alcançam eficiência ao custo da precisão de recuperação devido à capacidade limitada de estado, enquanto a atenção softmax sofre com uma sobrecarga computacional proibitiva. Para enfrentar este desafio, propomos o HyTRec, um modelo que apresenta uma arquitetura de Atenção Híbrida que desacopla explicitamente as preferências estáveis de longo prazo dos picos de intenção de curto prazo. Atribuindo sequências históricas massivas a um ramo de atenção linear e reservando um ramo especializado de atenção softmax para interações recentes, nossa abordagem restaura capacidades de recuperação precisas em contextos de escala industrial envolvendo dez mil interações. Para mitigar o atraso na captura de mudanças rápidas de interesse dentro das camadas lineares, projetamos ainda a Rede Delta com Consciência Temporal (TADN) para ponderar dinamicamente os sinais comportamentais recentes, suprimindo efetivamente o ruído histórico. Resultados empíricos em conjuntos de dados de escala industrial confirmam a superioridade do nosso modelo, que mantém a velocidade de inferência linear e supera bases de comparação robustas, destacando-se por entregar uma melhoria de mais de 8% na Taxa de Acerto para usuários com sequências ultra-longas, com grande eficiência.
O SkyReels V4 é um modelo de base de vídeo multimodal unificado para geração, preenchimento e edição conjunta de vídeo e áudio. O modelo adota uma arquitetura de Transformador de Difusão Multimodal (MMDiT) de fluxo duplo, onde um ramo sintetiza vídeo e o outro gera áudio temporalmente alinhado, compartilhando um poderoso codificador de texto baseado em Modelos de Linguagem de Grande Escala Multimodal (MMLM). O SkyReels V4 aceita instruções multimodais ricas, incluindo texto, imagens, clipes de vídeo, máscaras e referências de áudio. Ao combinar a capacidade de seguimento de instruções multimodais dos MMLMs com o aprendizado em contexto no ramo de vídeo MMDiT, o modelo pode injetar orientação visual de granularidade fina sob condicionamento complexo, enquanto o ramo de áudio MMDiT aproveita simultaneamente referências de áudio para orientar a geração de som. No lado do vídeo, adotamos uma formulação de concatenação de canais que unifica uma ampla gama de tarefas de estilo de preenchimento, como imagem para vídeo, extensão de vídeo e edição de vídeo em uma única interface, e se estende naturalmente para preenchimento e edição com referência visual por meio de prompts multimodais. O SkyReels V4 suporta até resolução 1080p, 32 FPS e duração de 15 segundos, permitindo a geração de vídeo de alta fidelidade, com múltiplas cenas e nível cinematográfico, com áudio sincronizado. Para tornar essa geração de alta resolução e longa duração computacionalmente viável, introduzimos uma estratégia de eficiência: geração conjunta de sequências completas em baixa resolução e quadros-chave em alta resolução, seguida por modelos dedicados de super-resolução e interpolação de quadros. Até onde sabemos, o SkyReels V4 é o primeiro modelo de base de vídeo que suporta simultaneamente entrada multimodal, geração conjunta de vídeo e áudio, e um tratamento unificado de geração, preenchimento e edição, mantendo forte eficiência e qualidade em resoluções e durações cinematográficas.
O desempenho da inferência de LLMs agentivos com múltiplos turnos é cada vez mais dominado pelas operações de I/O do armazenamento da KV-Cache, em vez da computação. Nas arquiteturas desagregadas predominantes, o carregamento da KV-Cache massiva a partir do armazenamento externo cria um desequilíbrio fundamental: os NICs de armazenamento nos motores de preenchimento (prefill) ficam saturados de largura de banda, enquanto os dos motores de decodificação permanecem inativos. Esta assimetria restringe severamente a taxa de transferência (throughput) geral do sistema. Apresentamos o DualPath, um sistema de inferência que quebra este gargalo através da introdução de um carregamento de KV-Cache de caminho duplo. Para além do caminho tradicional de armazenamento-para-preenchimento, o DualPath permite um novo caminho de armazenamento-para-decodificação, no qual a KV-Cache é carregada nos motores de decodificação e depois transferida eficientemente para os motores de preenchimento via RDMA através da rede de computação. O DualPath combina este caminho de dados otimizado – que evita inerentemente a congestão da rede e evita interferências com as comunicações críticas de latência da execução do modelo – com um escalonador global que equilibra dinamicamente a carga entre os motores de preenchimento e decodificação. A nossa avaliação em três modelos com cargas de trabalho agentivas de produção demonstra que o DualPath melhora a taxa de transferência de inferência offline em até 1,87x no nosso sistema de inferência interno. Também pode melhorar a taxa de transferência de serviço online por um fator médio de 1,96x sem violar o SLO.
Os recentes avanços em modelos de base revolucionaram a geração conjunta de áudio e vídeo. No entanto, as abordagens existentes geralmente tratam tarefas centradas no ser humano — incluindo geração áudio-vídeo baseada em referência (R2AV), edição de vídeo (RV2AV) e animação de vídeo dirigida por áudio (RA2V) — como objetivos isolados. Além disso, alcançar um controle preciso e desacoplado sobre múltiplas identidades de personagens e timbres de voz dentro de uma única estrutura continua sendo um desafio em aberto. Neste artigo, propomos o DreamID-Omni, uma estrutura unificada para geração controlada de áudio-vídeo centrada no ser humano. Especificamente, projetamos um Transformer de Difusão Condicional Simétrico que integra sinais de condicionamento heterogéneos através de um esquema simétrico de injeção condicional. Para resolver as falhas generalizadas de vinculação identidade-timbre e a confusão entre locutores em cenários multipessoa, introduzimos uma estratégia de Desacoplamento Dual: RoPE Sincronizado a nível de sinal para garantir uma vinculação rígida no espaço de atenção, e Legendas Estruturadas a nível semântico para estabelecer mapeamentos explícitos entre atributos e sujeitos. Adicionalmente, concebemos um esquema de Treino Progressivo Multi-Tarefa que aproveita prévios generativos fracamente restritos para regularizar tarefas fortemente restritas, prevenindo sobreajuste e harmonizando objetivos díspares. Experimentos extensivos demonstram que o DreamID-Omni alcança um desempenho abrangente de última geração em vídeo, áudio e consistência áudio-visual, superando até mesmo os principais modelos comerciais proprietários. Disponibilizaremos nosso código para colmatar a lacuna entre a investigação académica e as aplicações de nível comercial.
Os modelos existentes de geração de vídeo condicionada por ações (modelos de mundo em vídeo) estão limitados a perspectivas de agente único, não conseguindo capturar as interações multiagentes dos ambientes do mundo real. Apresentamos Solaris, um modelo de mundo em vídeo multijogador que simula observações consistentes de múltiplas perspectivas. Para viabilizar isto, desenvolvemos um sistema de dados multijogador concebido para uma recolha de dados robusta, contínua e automatizada em videojogos como o Minecraft. Ao contrário de plataformas anteriores construídas para ambientes de um único jogador, o nosso sistema suporta interação multiagente coordenada e a captura sincronizada de vídeos + ações. Utilizando este sistema, recolhemos 12,64 milhões de frames multijogador e propomos um quadro de avaliação para movimento multijogador, memória, contextualização, construção e consistência de perspetiva. Treinamos o Solaris usando um pipeline em fases que transita progressivamente da modelação single-player para multijogador, combinando treino bidirecional, causal e de Autoforçamento. Na fase final, introduzimos o Autoforçamento com Pontos de Controlo, uma variante eficiente em memória do Autoforçamento que permite um professor de horizonte mais longo. Os resultados mostram que a nossa arquitetura e desenho de treino superam as linhas de base existentes. Ao disponibilizar em código aberto o nosso sistema e modelos, esperamos lançar as bases para uma nova geração de modelos de mundo multiagente.
O aprendizado por reforço agentivo (ARL) rapidamente ganhou atenção como um paradigma promissor para treinar agentes na resolução de tarefas interativas complexas e multi-etapa. Apesar de resultados iniciais encorajadores, o ARL permanece altamente instável, frequentemente levando a um colapso do treinamento. Essa instabilidade limita a escalabilidade para ambientes maiores e horizontes de interação mais longos, e restringe a exploração sistemática de escolhas de design algorítmico. Neste artigo, propomos primeiro o ARLArena, uma receita de treinamento estável e uma estrutura de análise sistemática que examina a estabilidade do treinamento em um ambiente controlado e reproduzível. O ARLArena primeiro constrói um banco de testes limpo e padronizado. Em seguida, decompomos o gradiente de política em quatro dimensões centrais de design e avaliamos o desempenho e a estabilidade de cada dimensão. Por meio dessa análise refinada, destilamos uma perspectiva unificada sobre o ARL e propomos o SAMPO, um método estável de otimização de política agentiva projetado para mitigar as principais fontes de instabilidade no ARL. Empiricamente, o SAMPO alcança treinamento consistentemente estável e alto desempenho em diversas tarefas agentivas. No geral, este estudo fornece uma perspectiva unificada do gradiente de política para o ARL e oferece orientação prática para a construção de pipelines de treinamento de agentes baseados em LLM que sejam estáveis e reproduzíveis.
Os agentes de GUI nativos de código aberto ainda ficam atrás dos sistemas proprietários em tarefas de navegação de longo horizonte. Essa lacuna decorre de duas limitações: a escassez de dados de raciocínio de alta qualidade alinhados com ações e a adoção direta de pipelines genéricos de pós-treinamento que ignoram os desafios exclusivos dos agentes de GUI. Identificamos dois problemas fundamentais nesses pipelines: (i) o SFT padrão com raciocínio CoT frequentemente prejudica o grounding, e (ii) o treinamento RLVR passo a passo enfrenta a verificabilidade parcial, onde múltiplas ações podem estar corretas, mas apenas uma única ação demonstrada é usada para verificação. Isso torna as métricas passo a passo offline preditores fracos do sucesso online da tarefa. Neste trabalho, apresentamos o GUI-Libra, uma receita de treinamento personalizada que aborda esses desafios. Primeiro, para mitigar a escassez de dados de raciocínio alinhados com ações, introduzimos um pipeline de construção e filtragem de dados e disponibilizamos um conjunto de dados curado de 81K para raciocínio em GUI. Segundo, para reconciliar o raciocínio com o grounding, propomos um SFT consciente da ação que mistura dados de raciocínio-para-ação e ação-direta e repondera tokens para enfatizar ação e grounding. Terceiro, para estabilizar o RL sob verificabilidade parcial, identificamos a importância negligenciada da regularização de KL no RLVR e mostramos que uma região de confiança de KL é crítica para melhorar a previsibilidade offline-online; introduzimos ainda um escalonamento adaptativo ao sucesso para reduzir o peso de gradientes negativos não confiáveis. Em diversos benchmarks web e móveis, o GUI-Libra melhora consistentemente tanto a precisão passo a passo quanto a conclusão de tarefas end-to-end. Nossos resultados sugerem que um pós-treinamento e uma curadoria de dados cuidadosamente projetados podem desbloquear capacidades de resolução de tarefas significativamente mais fortes sem a custosa coleta de dados online. Disponibilizamos nosso conjunto de dados, código e modelos para facilitar pesquisas futuras sobre pós-treinamento eficiente em dados para agentes de GUI com capacidade de raciocínio.
Apresentamos o Sphere Encoder, uma estrutura generativa eficiente capaz de produzir imagens em uma única passagem direta e competir com modelos de difusão de múltiplas etapas usando menos de cinco passos. Nossa abordagem funciona aprendendo um codificador que mapeia imagens naturais uniformemente para um espaço latente esférico, e um decodificador que mapeia vetores latentes aleatórios de volta para o espaço da imagem. Treinado exclusivamente por meio de perdas de reconstrução de imagem, o modelo gera uma imagem simplesmente decodificando um ponto aleatório na esfera. Nossa arquitetura suporta naturalmente a geração condicional, e o loop entre o codificador e o decodificador por algumas iterações pode aprimorar ainda mais a qualidade da imagem. Em diversos conjuntos de dados, a abordagem do sphere encoder produz desempenho competitivo com as difusões state of the art, mas com uma pequena fração do custo de inferência. A página do projeto está disponível em https://sphere-encoder.github.io.
A AIGC expandiu-se rapidamente da geração de texto para imagem para a síntese multimodal de alta qualidade abrangendo vídeo e áudio. Neste contexto, a geração conjunta áudio-vídeo (JAVG) emergiu como uma tarefa fundamental que produz som e imagem sincronizados e semanticamente alinhados a partir de descrições textuais. No entanto, comparados com modelos comerciais avançados como o Veo3, os métodos de código aberto existentes ainda apresentam limitações na qualidade de geração, sincronia temporal e alinhamento com as preferências humanas. Para preencher esta lacuna, este artigo apresenta o JavisDiT++, uma estrutura concisa mas poderosa para modelação e otimização unificada de JAVG. Primeiro, introduzimos um design de mistura de especialistas específica por modalidade (MS-MoE) que permite uma eficácia de interação multimodal enquanto melhora a qualidade de geração unimodal. Em seguida, propomos uma estratégia RoPE com alinhamento temporal (TA-RoPE) para alcançar uma sincronização explícita ao nível do fotograma entre os tokens de áudio e vídeo. Além disso, desenvolvemos um método de otimização direta de preferências áudio-vídeo (AV-DPO) para alinhar as saídas do modelo com a preferência humana nas dimensões de qualidade, consistência e sincronia. Construído sobre o Wan2.1-1.3B-T2V, o nosso modelo alcança um desempenho de última geração com apenas cerca de 1 milhão de entradas de treino públicas, superando significativamente as abordagens anteriores em avaliações qualitativas e quantitativas. Foram realizados estudos de ablação abrangentes para validar a eficácia dos nossos módulos propostos. Todo o código, modelo e conjunto de dados estão disponíveis em https://JavisVerse.github.io/JavisDiT2-page.
A edição de imagens baseada em instruções alcançou sucesso notável no alinhamento semântico, porém os modelos mais avançados frequentemente falham em produzir resultados fisicamente plausíveis quando a edição envolve dinâmicas causais complexas, como refração ou deformação de materiais. Atribuímos esta limitação ao paradigma dominante que trata a edição como um mapeamento discreto entre pares de imagens, o que fornece apenas condições de contorno e deixa as dinâmicas de transição subespecificadas. Para resolver isso, reformulamos a edição com consciência física como transições preditivas de estado físico e introduzimos o PhysicTran38K, um conjunto de dados em larga escala baseado em vídeo contendo 38 mil trajetórias de transição em cinco domínios físicos, construído através de um pipeline de anotação em duas etapas com filtragem e restrições conscientes. Com base nesta supervisão, propomos o PhysicEdit, uma estrutura de trabalho de ponta a ponta equipada com um mecanismo de duplo pensamento textual-visual. Ele combina um modelo Qwen2.5-VL congelado para raciocínio fisicamente fundamentado com consultas de transição aprendíveis que fornecem orientação visual adaptável ao timestep para um backbone de difusão. Experimentos mostram que o PhysicEdit supera o Qwen-Image-Edit em 5,9% no realismo físico e 10,1% na edição fundamentada em conhecimento, estabelecendo um novo estado da arte para métodos de código aberto, enquanto mantém competitividade com os principais modelos proprietários.
A utilização da modelagem de observações futuras para facilitar a geração de ações apresenta um caminho promissor para aprimorar as capacidades dos modelos Visão-Linguagem-Ação (VLA). No entanto, as abordagens existentes lutam para encontrar um equilíbrio entre a manutenção de representações futuras eficientes e previsíveis e a preservação de informações suficientemente detalhadas para orientar a geração precisa de ações. Para superar essa limitação, propomos o WoG (World Guidance), uma estrutura que mapeia observações futuras em condições compactas, injetando-as no pipeline de inferência de ações. O modelo VLA é então treinado para prever simultaneamente essas condições comprimidas juntamente com as ações futuras, alcançando assim uma modelagem eficaz do mundo dentro do espaço de condições para a inferência de ações. Demonstramos que modelar e prever este espaço de condições não só facilita a geração de ações de granularidade fina, mas também exibe capacidades de generalização superiores. Além disso, o método aprende eficazmente a partir de um grande número de vídeos de manipulação humana. Experimentos extensos em ambientes de simulação e do mundo real validam que nosso método supera significativamente os métodos existentes baseados em previsão futura. A página do projeto está disponível em: https://selen-suyue.github.io/WoGNet/
Os glifos vetoriais são as unidades atômicas da tipografia digital, no entanto, a maioria dos pipelines baseados em aprendizagem ainda depende de folhas de exemplos cuidadosamente curadas e de pós-processamento de raster para vetor, o que limita a acessibilidade e a editabilidade. Apresentamos o VecGlypher, um único modelo de linguagem multimodal que gera glifos vetoriais de alta fidelidade diretamente a partir de descrições textuais ou exemplos de imagem. Dado um prompt de estilo, glifos de referência opcionais e um caractere alvo, o VecGlypher emite tokens de caminho SVG de forma autoregressiva, evitando intermediários raster e produzindo contornos editáveis e fechados em uma única passagem. Uma receita de dados e treinamento consciente da tipografia torna isso possível: (i) um estágio de continuação em larga escala com 39 mil fontes Envato ruidosas para dominar a sintaxe SVG e a geometria de longo horizonte, seguido por (ii) pós-treinamento em 2,5 mil Google Fonts anotadas por especialistas com tags descritivas e exemplos para alinhar linguagem e imagens com a geometria; o pré-processamento normaliza os sistemas de coordenadas, canoniza os caminhos, remove duplicatas de famílias e quantiza as coordenadas para uma decodificação estável de sequências longas. Na avaliação OOD entre famílias, o VecGlypher supera substancialmente tanto os LLMs de propósito geral quanto as linhas de base especializadas em fontes vetoriais para geração apenas textual, enquanto a geração com referência de imagem atinge um desempenho de última geração, com ganhos marcantes sobre o DeepVecFont-v2 e o DualVector. Ablações mostram que a escala do modelo e a receita de dois estágios são críticas e que a serialização de coordenadas absolutas produz a melhor geometria. O VecGlypher reduz a barreira para a criação de fontes ao permitir que os usuários projetem com palavras ou exemplos, e fornece uma base escalável para futuras ferramentas de design multimodal.
Como os grandes modelos de linguagem (LLMs) sabem o que sabem? Responder a esta pergunta tem sido difícil porque os dados de pré-treinamento são frequentemente uma "caixa preta" — desconhecidos ou inacessíveis. O recente lançamento do nanochat — uma família de pequenos LLMs com dados de pré-treinamento totalmente abertos — aborda esta questão, fornecendo uma visão transparente sobre a origem do conhecimento paramétrico de um modelo. Com o objetivo de entender como o conhecimento é codificado pelos LLMs, lançamos o NanoKnow, um conjunto de dados de referência que divide questões do Natural Questions e do SQuAD em subconjuntos com base na presença ou ausência das suas respostas no corpus de pré-treinamento do nanochat. Utilizando estas divisões, podemos agora distinguir adequadamente as fontes de conhecimento nas quais os LLMs se baseiam ao produzir uma saída. Para demonstrar a utilidade do NanoKnow, realizamos experiências utilizando oito *checkpoints* do nanochat. As nossas descobertas mostram: (1) a precisão em modo *closed-book* é fortemente influenciada pela frequência da resposta nos dados de pré-treinamento, (2) fornecer evidências externas pode mitigar esta dependência da frequência, (3) mesmo com evidências externas, os modelos são mais precisos quando as respostas foram vistas durante o pré-treinamento, demonstrando que o conhecimento paramétrico e externo são complementares, e (4) informações não relevantes são prejudiciais, com a precisão a diminuir com base tanto na posição como no número de contextos não relevantes. Disponibilizamos todos os artefactos do NanoKnow em https://github.com/castorini/NanoKnow.
O diagnóstico do Carcinoma Hepatocelular depende fortemente da interpretação de Imagens de Lâmina Completa em escala de gigapixels. No entanto, as abordagens computacionais atuais são limitadas por mecanismos de processamento de resolução fixa e agregação ineficiente de características, o que inevitavelmente leva a uma grave perda de informação ou a uma alta redundância de *features*. Para enfrentar esses desafios, propomos o Hepato-LLaVA, um Modelo de Linguagem Grande Multimodal especializado, projetado para análise patológica hepática de granularidade fina. Introduzimos um novo mecanismo de Atenção por Pacote Topológico Esparsificado que modela explicitamente a topologia tissular bidimensional. Este mecanismo agrega eficazmente evidências diagnósticas locais em *tokens* de resumo semântico, preservando ao mesmo tempo o contexto global. Adicionalmente, para superar a carência de dados em múltiplas escalas, apresentamos o HepatoPathoVQA, um conjunto de dados clinicamente fundamentado que compreende 33 mil pares de perguntas e respostas hierarquicamente estruturados, validados por patologistas especialistas. Nossos experimentos demonstram que o Hepato-LLaVA atinge um desempenho de ponta em tarefas de diagnóstico e descrição de CHC, superando significativamente os métodos existentes. Nosso código e detalhes de implementação estão disponíveis em https://pris-cv.github.io/Hepto-LLaVA/.
Os modelos de difusão são uma base robusta para geração visual, mas seu processo inerentemente sequencial de remoção de ruído resulta em inferência lenta. Métodos anteriores aceleram a amostragem armazenando em cache e reutilizando saídas intermediárias com base em distâncias de características entre intervalos de tempo adjacentes. No entanto, as estratégias de cache existentes geralmente dependem de diferenças brutas de características que entrelaçam conteúdo e ruído. Este projeto ignora a evolução espectral, onde a estrutura de baixa frequência aparece primeiro e o detalhe de alta frequência é refinado posteriormente. Introduzimos o Spectral-Evolution-Aware Cache (SeaCache), um agendamento de cache livre de treinamento que baseia decisões de reutilização em uma representação alinhada espectralmente. Através de análise teórica e empírica, derivamos um filtro Spectral-Evolution-Aware (SEA) que preserva componentes relevantes ao conteúdo enquanto suprime ruído. Empregar características de entrada filtradas por SEA para estimar redundância leva a agendamentos dinâmicos que se adaptam ao conteúdo enquanto respeitam os pré-requisitos espectrais subjacentes ao modelo de difusão. Experimentos extensos em diversos modelos de geração visual e nas linhas de base mostram que o SeaCache alcança compensações estado da arte entre latência e qualidade.
A pesquisa aprofunda emergiu como uma tarefa importante que visa abordar consultas complexas por meio de exploração extensiva na web aberta. Para lidar com isso, a maioria dos trabalhos anteriores equipa agentes baseados em grandes modelos de linguagem (LLMs) com APIs opacas de busca na web, permitindo que os agentes emitam iterativamente consultas de pesquisa, recuperem evidências externas e raciocinem sobre elas. Apesar do papel essencial da busca na pesquisa aprofunda, as APIs de busca na web em formato de caixa preta impedem uma análise sistemática dos componentes de pesquisa, deixando amplamente obscuro o comportamento dos métodos estabelecidos de classificação de texto na pesquisa aprofunda. Para preencher esta lacuna, reproduzimos uma seleção de descobertas-chave e melhores práticas para métodos de classificação de texto de RI no contexto da pesquisa aprofunda. Em particular, examinamos a sua eficácia a partir de três perspetivas: (i) unidades de recuperação (documentos vs. passagens), (ii) configurações de pipeline (diferentes recuperadores, reclassificadores e profundidades de reclassificação), e (iii) características da consulta (o desajuste entre as consultas emitidas pelo agente e as consultas de treino dos classificadores de texto). Realizamos experiências no BrowseComp-Plus, um conjunto de dados de pesquisa aprofunda com um corpus fixo, avaliando 2 agentes de código aberto, 5 recuperadores e 3 reclassificadores em diversas configurações. Descobrimos que as consultas emitidas pelo agente seguem tipicamente uma sintaxe de estilo de busca na web (por exemplo, correspondências exatas entre aspas), favorecendo recuperadores léxicos, esparsos aprendidos e de vetores múltiplos; as unidades a nível de passagem são mais eficientes sob janelas de contexto limitadas e evitam as dificuldades da normalização do comprimento do documento na recuperação léxica; a reclassificação é altamente eficaz; traduzir as consultas emitidas pelo agente para perguntas em linguagem natural reduz significativamente o desajuste de consultas.
Os métodos recentes de Dropout baseados em 3D Gaussian Splatting (3DGS) abordam o sobreajuste em condições de visão esparsa anulando aleatoriamente as opacidades Gaussianas. No entanto, identificamos um efeito de compensação vizinha nestas abordagens: as Gaussianas removidas são frequentemente compensadas pelos seus vizinhos, enfraquecendo a regularização pretendida. Além disso, estes métodos ignoram a contribuição dos coeficientes esféricos harmónicos (SH) de alto grau para o sobreajuste. Para resolver estas questões, propomos o DropAnSH-GS, uma nova estratégia de Dropout baseada em âncoras. Em vez de remover Gaussianas independentemente, o nosso método seleciona aleatoriamente certas Gaussianas como âncoras e remove simultaneamente os seus vizinhos espaciais. Isto perturba efetivamente as redundâncias locais próximas das âncoras e incentiva o modelo a aprender representações mais robustas e globalmente informadas. Adicionalmente, estendemos o Dropout aos atributos de cor, removendo aleatoriamente SH de grau mais elevado para concentrar a informação de aparência em SH de grau inferior. Esta estratégia mitiga ainda mais o sobreajuste e permite uma compressão flexível do modelo após o treino via truncagem de SH. Resultados experimentais demonstram que o DropAnSH-GS supera substancialmente os métodos de Dropout existentes com sobrecarga computacional insignificante, e pode ser facilmente integrado em várias variantes do 3DGS para melhorar o seu desempenho. Site do Projeto: https://sk-fun.fun/DropAnSH-GS
Os modelos de difusão discreta emergiram como fortes alternativas aos modelos de linguagem autoregressivos, com trabalhos recentes inicializando e ajustando um modelo unimodal base para geração bimodal. Divergindo de abordagens anteriores, introduzimos o primeiro modelo de difusão mascarada trimodal pré-treinado desde o início com dados de texto, texto-imagem e texto-áudio. Analisamos sistematicamente as leis de escalonamento multimodal, proporções de mistura de modalidades, cronogramas de ruído e efeitos de tamanho de lote, e fornecemos padrões otimizados de amostragem inferencial. Nossa análise do tamanho do lote produz uma nova reparametrização baseada em equações diferenciais estocásticas (SDE) que elimina a necessidade de ajustar o tamanho ideal do lote, conforme relatado em trabalhos recentes. Essa reparametrização desacopla o tamanho físico do lote, frequentemente escolhido com base em restrições computacionais (saturação de GPU, eficiência de FLOP, tempo de execução), do tamanho lógico do lote, escolhido para equilibrar a variância do gradiente durante a otimização estocástica. Por fim, pré-treinamos um modelo trimodal preliminar de 3 bilhões de parâmetros em 6,4 trilhões de tokens, demonstrando as capacidades de um design unificado e alcançando resultados sólidos em geração de texto, tarefas de texto para imagem e tarefas de texto para fala. Nosso trabalho representa o maior estudo aberto sistemático de modelos de difusão discreta multimodal já conduzido, fornecendo insights sobre comportamentos de escalonamento em múltiplas modalidades.
Os modelos de fundação de vídeo visam integrar compreensão, geração, edição e seguimento de instruções em vídeo dentro de um único framework, tornando-se uma direção central para os sistemas multimodais de próxima geração. No entanto, os benchmarks de avaliação existentes permanecem fragmentados e limitados em escopo, pois cada um foca em uma única tarefa, depende de métricas específicas por tarefa e geralmente utiliza clipes de vídeo curtos ou simples. Como resultado, eles não capturam as capacidades unificadas que esses modelos são projetados para entregar. Para abordar essa lacuna, introduzimos o UniVBench, um benchmark construído especificamente para avaliar modelos de fundação de vídeo em quatro habilidades centrais: compreensão de vídeo, geração de vídeo, edição de vídeo e uma nova tarefa proposta, a reconstrução de vídeo, que avalia quão fielmente um modelo pode reproduzir o conteúdo de vídeo que encontrou. Nosso benchmark expande substancialmente a complexidade da avaliação ao incorporar 200 vídeos diversos, de alta qualidade e com múltiplas tomadas, cada um acompanhado de legendas detalhadas, instruções de edição em múltiplos formatos e imagens de referência. Todos os vídeos são criados por humanos e cuidadosamente validados, oferecendo informações cinematográficas mais ricas do que benchmarks anteriores. Além disso, desenvolvemos um sistema de avaliação agentico unificado (UniV-Eval) que padroniza a elicitação de prompts, a análise de instruções e a pontuação em todas as tarefas, permitindo comparações justas, escaláveis e reproduzíveis de modelos de vídeo unificados. Ao fundamentar a avaliação em tarefas de vídeo com múltiplas tomadas baseadas em instruções, o UniVBench fornece o primeiro framework para medir as capacidades integradas que os modelos de fundação de vídeo visam alcançar. Anotações humanas extensivas garantem que nossa avaliação esteja alinhada com o julgamento humano, permitindo uma avaliação rigorosa e acelerando o progresso em direção a uma inteligência de vídeo robusta.
O Model Context Protocol (MCP) introduz uma especificação padrão que define como agentes baseados em Modelos de Base (Foundation Models - FMs) devem interagir com sistemas externos através da invocação de ferramentas. No entanto, para compreender a finalidade e as funcionalidades de uma ferramenta, os FMs dependem de descrições em linguagem natural, tornando essas descrições um componente crítico para orientar os FMs a selecionar a ferramenta ideal para uma determinada (sub)tarefa e a passar os argumentos corretos para a ferramenta. Embora defeitos ou "maus cheiros" (smells) nessas descrições possam desorientar agentes baseados em FMs, a sua prevalência e consequências no ecossistema MCP permanecem pouco claras. Portanto, examinamos empiricamente 856 ferramentas distribuídas por 103 servidores MCP, avaliamos a qualidade das suas descrições e o seu impacto no desempenho do agente. Identificamos seis componentes das descrições de ferramentas a partir da literatura, desenvolvemos uma matriz de avaliação utilizando esses componentes e, em seguida, formalizamos os maus cheiros nas descrições de ferramentas com base nesta matriz. Ao operacionalizar esta matriz através de um scanner baseado em FM, descobrimos que 97,1% das descrições de ferramentas analisadas contêm pelo menos um mau cheiro, com 56% a não declarar claramente a sua finalidade. Embora o enriquecimento dessas descrições com todos os componentes melhore as taxas de sucesso das tarefas em uma mediana de 5,85 pontos percentuais e aumente a conclusão parcial de objetivos em 15,12%, também aumenta o número de passos de execução em 67,46% e degrada o desempenho em 16,67% dos casos. Estes resultados indicam que obter ganhos de desempenho não é simples; embora o custo de execução possa atuar como uma compensação, o contexto de execução também pode ter impacto. Além disso, as ablações de componentes mostram que variantes compactas de diferentes combinações de componentes frequentemente preservam a confiabilidade comportamental, reduzindo a sobrecarga desnecessária de tokens, permitindo um uso mais eficiente da janela de contexto do FM e custos de execução mais baixos.
Os modelos linguísticos audiovisuais de grande escala (AV-LLMs) atuais estão predominantemente restritos à percepção 2D, dependendo de vídeo RGB e áudio monoaural. Esta escolha de projeto introduz uma incompatibilidade fundamental de dimensionalidade que impede a localização confiável de fontes e o raciocínio espacial em ambientes 3D complexos. Nós abordamos esta limitação apresentando o JAEGER, uma estrutura que estende os AV-LLMs para o espaço 3D, para permitir a ancoragem espacial conjunta e o raciocínio através da integração de observações RGB-D e ambisonia multicanal de primeira ordem. Uma contribuição central do nosso trabalho é o vetor de intensidade neural (Neural IV), uma representação de áudio espacial aprendida que codifica pistas direcionais robustas para melhorar a estimativa da direção de chegada, mesmo em cenários acústicos adversos com fontes sobrepostas. Para facilitar o treinamento em larga escala e a avaliação sistemática, propomos o SpatialSceneQA, um benchmark de 61 mil amostras de ajuste por instrução curadas a partir de ambientes físicos simulados. Experimentos extensivos demonstram que a nossa abordagem supera consistentemente as linhas de base centradas em 2D em diversas tarefas de percepção e raciocínio espacial, destacando a necessidade de modelagem 3D explícita para avançar a IA em ambientes físicos. Nosso código-fonte, *checkpoints* de modelos pré-treinados e conjuntos de dados serão divulgados após a aceitação.
Apresentamos o ISO-Bench, um benchmark para agentes de programação testarem suas capacidades em tarefas de otimização de inferência do mundo real. Essas tarefas foram extraídas do vLLM e do SGLang, duas das estruturas de serviço de LLM mais populares. Cada tarefa fornece a um agente uma base de código e uma descrição do gargalo, mediante as quais o agente deve produzir um patch de otimização avaliado em comparação com soluções humanas especializadas. Selecionamos 54 tarefas a partir de pull requests consolidados com melhorias de desempenho mensuráveis. Embora os benchmarks existentes utilizem fortemente métricas baseadas em tempo de execução, tais abordagens podem ser manipuladas para passar nos testes sem capturar a intenção real das alterações de código. Portanto, combinamos métricas duras (baseadas em execução) e suaves (baseadas em LLM) para mostrar que ambas são necessárias para uma avaliação completa. Ao avaliar agentes de programação tanto proprietários quanto de código aberto, descobrimos que nenhum agente único domina todas as bases de código. Surpreendentemente, os agentes frequentemente identificam os gargalos corretos, mas falham em executar soluções funcionais. Também demonstramos que agentes com modelos subjacentes idênticos diferem substancialmente, sugerindo que a estrutura de suporte é tão importante quanto o modelo.
Nosso objetivo é aprender uma representação conjunta entre sinais de unidades de medição inercial (IMU) e sequências de poses 2D extraídas de vídeo, permitindo recuperação multimodal precisa, sincronização temporal, localização de sujeitos e partes do corpo, e reconhecimento de ações. Para isso, introduzimos o MoBind, uma estrutura hierárquica de aprendizado contrastivo projetada para abordar três desafios: (1) filtrar o fundo visual irrelevante, (2) modelar configurações estruturadas de IMUs multi-sensor e (3) alcançar alinhamento temporal de granularidade fina, em nível subsegundo. Para isolar pistas relevantes para o movimento, o MoBind alinha sinais de IMU com sequências de movimento esquelético em vez de pixels brutos. Decompomos ainda mais o movimento corporal completo em trajetórias locais de partes do corpo, emparelhando cada uma com seu IMU correspondente para permitir um alinhamento multi-sensor semanticamente fundamentado. Para capturar correspondência temporal detalhada, o MoBind emprega uma estratégia contrastiva hierárquica que primeiro alinha segmentos temporais em nível de token, depois funde o alinhamento local (parte do corpo) com a agregação de movimento global (corpo inteiro). Avaliado em mRi, TotalCapture e EgoHumans, o MoBind supera consistentemente baselines fortes em todas as quatro tarefas, demonstrando alinhamento temporal de granularidade fina robusto, preservando ao mesmo tempo a consistência semântica coarse entre as modalidades. O código está disponível em https://github.com/bbvisual/MoBind.
A extração de informação clínica a partir de transcrições médicas em línguas com poucos recursos continua a ser um desafio significativo no processamento de linguagem natural (PLN) em saúde. Este estudo avalia um *pipeline* de duas etapas que combina o Aya-expanse-8B como modelo de tradução persa-inglês com cinco modelos de linguagem pequenos (SLMs) de código aberto -- Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct e Gemma-3-1B-it -- para a extração binária de 13 características clínicas a partir de 1.221 transcrições persas anonimizadas, recolhidas num call center de cuidados paliativos oncológicos. Utilizando uma estratégia de *prompting* *few-shot* sem afinação (*fine-tuning*), os modelos foram avaliados com base na pontuação F1 macro-média, no Coeficiente de Correlação de Matthews (MCC), na sensibilidade e na especificidade, para ter em conta o desequilíbrio de classes. O Qwen2.5-7B-Instruct alcançou o melhor desempenho global (mediana da macro-F1: 0,899; MCC: 0,797), enquanto o Gemma-3-1B-it apresentou os resultados mais fracos. Modelos maiores (7B--8B parâmetros) superaram consistentemente os seus homólogos mais pequenos em sensibilidade e MCC. Uma análise bilingue do Aya-expanse-8B revelou que a tradução das transcrições persas para inglês melhorou a sensibilidade, reduziu as saídas em falta e aumentou as métricas robustas ao desequilíbrio de classes, embora à custa de uma especificidade e precisão ligeiramente inferiores. Os resultados a nível das características mostraram uma extração fiável de sintomas fisiológicos na maioria dos modelos, enquanto que queixas psicológicas, pedidos administrativos e características somáticas complexas permaneceram desafiadores. Estes resultados estabelecem um plano prático e de preservação da privacidade para a implementação de SLMs de código aberto em contextos clínicos de PLN multilingues com infraestrutura e recursos de anotação limitados, e destacam a importância de otimizar conjuntamente a escala do modelo e a estratégia de língua de entrada para aplicações sensíveis em saúde.
Os modelos de difusão surgiram recentemente como priors poderosos para resolver problemas inversos. Embora a tomografia computadorizada (TC) seja teoricamente um problema inverso linear, ela apresenta muitos desafios práticos. Estes incluem ruído correlacionado, estruturas de artefatos, dependência da geometria do sistema e intervalos de valores desalinhados, o que torna a aplicação direta de modelos de difusão mais difícil do que em domínios como a geração de imagens naturais. Para avaliar sistematicamente o desempenho dos modelos de difusão neste contexto e compará-los com métodos de reconstrução estabelecidos, introduzimos o DM4CT, um benchmark abrangente para reconstrução de TC. O DM4CT inclui conjuntos de dados dos domínios médico e industrial com configurações de vistas esparsas e ruidosas. Para explorar os desafios da implantação de modelos de difusão na prática, adquirimos adicionalmente um conjunto de dados de TC de alta resolução numa instalação de sincrotron de alta energia e avaliamos todos os métodos em condições experimentais reais. Avaliamos dez métodos recentes baseados em difusão, juntamente com sete linhas de base fortes, incluindo abordagens baseadas em modelos, não supervisionadas e supervisionadas. A nossa análise fornece informações detalhadas sobre o comportamento, pontos fortes e limitações dos modelos de difusão para reconstrução de TC. O conjunto de dados do mundo real está publicamente disponível em zenodo.org/records/15420527, e a base de código é de código aberto em github.com/DM4CT/DM4CT.
A deteção de sarcasmo representa um desafio fundamental na semântica computacional, exigindo que os modelos resolvam as disparidades entre o significado literal e a intenção comunicativa. O desafio é amplificado em línguas com poucos recursos, onde conjuntos de dados anotados são escassos ou inexistentes. Apresentamos o Yor-Sarc, o primeiro conjunto de dados padrão-ouro para deteção de sarcasmo em Yorùbá, uma língua tonal do grupo Niger-Congo falada por mais de 50 milhões de pessoas. O conjunto de dados compreende 436 instâncias anotadas por três falantes nativos de origens dialetais diversas, utilizando um protocolo de anotação especificamente concebido para o sarcasmo em Yorùbá que tem em conta aspetos culturais. Este protocolo incorpora uma interpretação sensível ao contexto e diretrizes baseadas no conhecimento da comunidade, sendo acompanhado por uma análise abrangente do acordo interanotadores para apoiar a replicação noutras línguas africanas. Foi alcançado um acordo substancial a quase perfeito (κ de Fleiss = 0,7660; κ de Cohen pareado = 0,6732--0,8743), com 83,3% de consenso unânime. Um par de anotadores alcançou um acordo quase perfeito (κ = 0,8743; acordo bruto de 93,8%), superando vários benchmarks reportados em trabalhos de investigação sobre sarcasmo em inglês. Os restantes 16,7% de casos de acordo por maioria são preservados como etiquetas suaves (soft labels) para modelação consciente da incerteza. Espera-se que o Yor-Sarc (https://github.com/toheebadura/yor-sarc) facilite a investigação sobre interpretação semântica e PLN culturalmente informado para línguas africanas com poucos recursos.
Relatos indicam que modelos de linguagem de grande escala (LLMs) codificam a veracidade de forma linear, no entanto trabalhos recentes questionam a generalidade desta descoberta. Nós reconciliamos estas perspetivas com a hipótese do espetro de veracidade: o espaço representacional contém direções que variam desde domínios amplamente gerais até domínios estritamente específicos. Para testar esta hipótese, avaliamos sistematicamente a generalização de sondagens (probes) através de cinco tipos de verdade (definicional, empírica, lógica, ficcional e ética), mentiras sicofânticas e com expectativas invertidas, e benchmarks existentes de honestidade. Sondagens lineares generalizam bem na maioria dos domínios, mas falham em mentiras sicofânticas e com expectativas invertidas. No entanto, o treino em todos os domínios em conjunto recupera um forte desempenho, confirmando que existem direções de domínio geral, apesar da fraca transferência par a par. A geometria das direções das sondagens explica estes padrões: a similaridade do cosseno de Mahalanobis entre sondagens prevê quase perfeitamente a generalização cruzada de domínios (R^2=0.98). Métodos de supressão de conceitos (concept-erasure) isolam ainda mais direções de verdade que são (1) de domínio geral, (2) de domínio específico, ou (3) partilhadas apenas por subconjuntos específicos de domínios. Intervenções causais revelam que as direções de domínio específico direcionam mais eficazmente do que as de domínio geral. Finalmente, o pós-treinamento remodela a geometria da verdade, afastando as mentiras sicofânticas de outros tipos de verdade, sugerindo uma base representacional para as tendências sicofânticas dos modelos de chat. Em conjunto, os nossos resultados suportam a hipótese do espetro de veracidade: direções de verdade de variada generalidade coexistem no espaço representacional, com o pós-treinamento a remodelar a sua geometria. O código para todas as experiências é disponibilizado em https://github.com/zfying/truth_spec.
A alucinação de objetos é um problema crítico nos Grandes Modelos de Visão e Linguagem (LVLMs), onde as saídas incluem objetos que não aparecem na imagem de entrada. Uma questão natural surge deste fenômeno: Qual componente do pipeline do LVLM contribui principalmente para as alucinações de objetos? O codificador de visão, para perceber informações visuais, ou o decodificador de linguagem, para gerar respostas textuais? Neste trabalho, nos esforçamos para responder a esta questão através do desenho de uma experiência sistemática para analisar os papéis do codificador de visão e do decodificador de linguagem na geração de alucinações. Nossas observações revelam que as alucinações de objetos estão predominantemente associadas aos fortes *priors* (prioridades) do decodificador de linguagem. Com base nesta descoberta, propomos uma estrutura simples e sem necessidade de treinamento, chamada Decodificação Sem Alucinação de Linguagem (No-Language-Hallucination Decoding), ou NoLan, que refina a distribuição de saída suprimindo dinamicamente os *priors* de linguagem, modulados com base na diferença da distribuição de saída entre entradas multimodais e apenas de texto. Resultados experimentais demonstram que o NoLan reduz efetivamente as alucinações de objetos em vários LVLMs em diferentes tarefas. Por exemplo, o NoLan alcança melhorias substanciais no POPE, aumentando a precisão do LLaVA-1.5 7B e do Qwen-VL 7B em até 6,45 e 7,21, respectivamente. O código está publicamente disponível em: https://github.com/lingfengren/NoLan.
A análise de séries temporais não estacionárias requer a compreensão dos seus padrões locais e globais com interpretabilidade física. No entanto, algoritmos tradicionais de suavização, como B-splines, filtragem de Savitzky-Golay e Decomposição Modal Empírica (EMD), carecem da capacidade de realizar otimização paramétrica com continuidade garantida. Neste artigo, propomos a Decomposição Contínua Funcional (FCD), uma estrutura acelerada por JAX que realiza otimização paramétrica contínua numa ampla gama de funções matemáticas. Ao utilizar a otimização de Levenberg-Marquardt para alcançar um ajuste contínuo de até C^1, a FCD transforma dados brutos de séries temporais em M modos que capturam diferentes padrões temporais, desde tendências de curto até longo prazo. As aplicações da FCD incluem física, medicina, análise financeira e aprendizado de máquina, onde é comumente utilizada para a análise de padrões temporais de sinais, parâmetros otimizados, derivadas e integrais da decomposição. Adicionalmente, a FCD pode ser aplicada para análise física e extração de características com um SRMSE médio de 0,735 por segmento e uma velocidade de 0,47s na decomposição completa de 1.000 pontos. Por fim, demonstramos que uma Rede Neural Convolucional (CNN) aprimorada com características da FCD, como valores de função otimizados, parâmetros e derivadas, alcançou uma convergência 16,8% mais rápida e uma precisão 2,5% superior em comparação com uma CNN padrão.
Avaliamos sistematicamente a qualidade dos conjuntos de dados de segurança de IA amplamente utilizados sob duas perspectivas: isoladamente e na prática. Isoladamente, examinamos o quanto esses conjuntos de dados refletem ataques adversariais do mundo real com base em três propriedades-chave: serem impulsionados por intenção oculta, bem elaborados e fora da distribuição. Constatamos que esses conjuntos de dados dependem excessivamente de "gatilhos contextuais": palavras ou frases com conotações negativas/sensíveis explícitas, destinadas a acionar os mecanismos de segurança de forma direta, o que é irrealista em comparação com ataques do mundo real. Na prática, avaliamos se esses conjuntos de dados medem genuinamente os riscos de segurança ou apenas provocam recusas por meio desses gatilhos contextuais. Para explorar isso, introduzimos a "lavagem de intenção": um procedimento que abstrai os gatilhos contextuais dos ataques adversariais (pontos de dados), preservando estritamente sua intenção maliciosa e todos os detalhes relevantes. Nossos resultados indicam que os conjuntos de dados atuais de segurança de IA falham em representar fielmente o comportamento adversarial do mundo real devido à sua excessiva dependência de gatilhos contextuais. Uma vez removidos esses gatilhos, todos os modelos previamente avaliados como "razoavelmente seguros" tornam-se inseguros, incluindo o Gemini 3 Pro e o Claude Sonnet 3.7. Além disso, quando a lavagem de intenção é adaptada como técnica de jailbreaking, ela atinge consistentemente altas taxas de sucesso de ataque, variando de 90% a mais de 98%, sob acesso totalmente black-box. No geral, nossas descobertas expõem uma lacuna significativa entre a forma como a segurança dos modelos é avaliada pelos conjuntos de dados existentes e como os adversários do mundo real se comportam.