Artigos de pesquisa em IA selecionados diariamente com traduções
Sonhamos com um futuro onde as nuvens de pontos de todos os domínios possam unir-se para moldar um único modelo que beneficie a todos. Em direção a este objetivo, apresentamos a Utonia, um primeiro passo para treinar um único codificador de transformador para pontos, auto-supervisionado, através de diversos domínios, abrangendo sensoriamento remoto, LiDAR externo, sequências RGB-D internas, modelos CAD centrados em objetos e nuvens de pontos extraídas de vídeos exclusivamente RGB. Apesar das suas distintas geometrias de sensoriamento, densidades e premissas, a Utonia aprende um espaço de representação consistente que se transfere entre domínios. Esta unificação melhora a capacidade de percepção enquanto revela comportamentos emergentes intrigantes que surgem apenas quando os domínios são treinados em conjunto. Para além da perceção, observamos que as representações da Utonia também podem beneficiar o raciocínio incorporado e multimodal: condicionar políticas visão-linguagem-ação em características da Utonia melhora a manipulação robótica, e integrá-las em modelos de visão-linguagem produz ganhos no raciocínio espacial. Esperamos que a Utonia possa servir como um passo em direção a modelos de base para dados 3D esparsos e suportar aplicações subsequentes em RA/RV, robótica e condução autónoma.
Os modelos multimodais unificados têm demonstrado recentemente capacidades generativas robustas, contudo, permanece pouco claro se e quando a geração melhora a compreensão. Os benchmarks existentes carecem de uma exploração sistemática das tarefas específicas onde a geração facilita o entendimento. Para tal, introduzimos o UniG2U-Bench, um benchmark abrangente que categoriza a avaliação de geração-para-compreensão (G2U) em 7 regimes e 30 subtarefas, exigindo diferentes graus de transformações visuais implícitas ou explícitas. A avaliação extensiva de mais de 30 modelos revela três descobertas principais: 1) Modelos unificados geralmente têm desempenho inferior aos seus Modelos de Visão e Linguagem (VLMs) base, e a inferência Gerar-e-depois-Responder (GtA) tipicamente degrada o desempenho em relação à inferência direta. 2) Surgem melhorias consistentes em subtarefas de inteligência espacial, ilusões de ótica ou raciocínio multi-etapas, onde a percepção espacial e de formas aprimorada, bem como estados de imagem intermediários multi-etapas, mostram-se benéficos. 3) Tarefas com estruturas de raciocínio similares e modelos que partilham arquiteturas exibem comportamentos correlacionados, sugerindo que o acoplamento geração-compreensão induz vieses indutivos consistentes por classe sobre tarefas, dados de pré-treinamento e arquiteturas de modelo. Estas descobertas destacam a necessidade de dados de treino mais diversificados e novos paradigmas para libertar plenamente o potencial da modelação multimodal unificada.
O mundo visual oferece um eixo crítico para avançar os modelos de base além da linguagem. Apesar do crescente interesse nesta direção, o espaço de projeto para modelos multimodais nativos permanece opaco. Nós fornecemos clareza empírica através de experimentos controlados de pré-treinamento a partir do zero, isolando os fatores que governam o pré-treinamento multimodal sem interferência do pré-treinamento de linguagem. Adotamos a arquitetura Transfusion, usando previsão do próximo token para linguagem e difusão para visão, para treinar em dados diversos, incluindo texto, vídeo, pares de imagem-texto e até vídeo condicionado por ações. Nossos experimentos geram quatro insights principais: (i) o Autoencoder de Representação (RAE) fornece uma representação visual unificada ideal ao se destacar tanto na compreensão quanto na geração visual; (ii) dados visuais e linguísticos são complementares e produzem sinergia para capacidades de tarefas posteriores; (iii) o pré-treinamento multimodal unificado leva naturalmente à modelagem do mundo, com capacidades emergindo do treinamento geral; e (iv) a arquitetura Mistura de Especialistas (MoE) permite um escalonamento multimodal eficiente e eficaz, induzindo naturalmente a especialização por modalidade. Através da análise IsoFLOP, calculamos as leis de escalonamento para ambas as modalidades e descobrimos uma assimetria de escalonamento: a visão é significativamente mais carente de dados do que a linguagem. Demonstramos que a arquitetura MoE harmoniza essa assimetria de escalonamento ao fornecer a alta capacidade de modelo exigida pela linguagem, acomodando ao mesmo tempo a natureza intensiva em dados da visão, abrindo caminho para modelos multimodais verdadeiramente unificados.
Os benchmarks atuais para agentes de código avaliam principalmente correções específicas e limitadas a repositórios, negligenciando desafios críticos do mundo real, como o raciocínio entre repositórios, a resolução de problemas especializados por domínio, a migração orientada por dependências e a geração completa de repositórios. Para preencher essa lacuna, apresentamos o BeyondSWE, um benchmark abrangente que amplia as avaliações existentes ao longo de dois eixos - escopo de resolução e escopo de conhecimento - utilizando 500 instâncias reais em quatro contextos distintos. Resultados experimentais revelam uma lacuna significativa de capacidade: mesmo os modelos de fronteira estagnam abaixo de 45% de sucesso, e nenhum modelo individual apresenta desempenho consistente entre os tipos de tarefa. Para investigar sistematicamente o papel do conhecimento externo, desenvolvemos o SearchSWE, um framework que integra busca profunda com habilidades de programação. Nossos experimentos mostram que a augmentação por busca produz ganhos inconsistentes e pode, em alguns casos, degradar o desempenho, destacando a dificuldade de emular fluxos de trabalho semelhantes aos de desenvolvedores que intercalam busca e raciocínio durante tarefas de programação. Este trabalho oferece tanto um benchmark de avaliação realista e desafiador quanto um framework flexível para avançar a pesquisa rumo a agentes de código mais capazes.
Apresentamos o Qwen3-Coder-Next, um modelo de linguagem de pesos abertos especializado para agentes de codificação. O Qwen3-Coder-Next é um modelo com 80 mil milhões de parâmetros que ativa apenas 3 mil milhões de parâmetros durante a inferência, permitindo uma forte capacidade de codificação com inferência eficiente. Neste trabalho, exploramos até que ponto receitas de treino robustas podem elevar os limites de capacidade de modelos com uma pegada reduzida de parâmetros. Para tal, realizamos um treino agentício através da síntese em larga escala de tarefas de codificação verificáveis emparelhadas com ambientes executáveis, permitindo a aprendizagem direta a partir do *feedback* do ambiente via *mid-training* e aprendizagem por reforço. Em *benchmarks* centrados em agentes, incluindo o SWE-Bench e o Terminal-Bench, o Qwen3-Coder-Next atinge um desempenho competitivo em relação à sua contagem de parâmetros ativos. Disponibilizamos versões de pesos abertos, tanto base como afinadas por instrução, para apoiar a investigação e o desenvolvimento de agentes de codificação no mundo real.
Avanços recentes em Modelos de Recompensa Generativos (GRMs) demonstraram que a escalagem do comprimento do raciocínio em Cadeia de Pensamento (CoT) aumenta consideravelmente a confiabilidade da avaliação. No entanto, os trabalhos atuais dependem predominantemente de escalagem de comprimento não estruturada, ignorando a eficácia divergente de diferentes mecanismos de raciocínio: CoT de Largura (B-CoT, ou seja, cobertura multidimensional de princípios) e CoT de Profundidade (D-CoT, ou seja, solidez de julgamento substantivo). Para resolver isso, introduzimos o Mix-GRM, uma estrutura que reconfigura racionais brutos em B-CoT e D-CoT estruturados por meio de um pipeline de síntese modular, empregando subsequentemente Ajuste Fino Supervisionado (SFT) e Aprendizado por Reforço com Recompensas Verificáveis (RLVR) para internalizar e otimizar esses mecanismos. Experimentos abrangentes demonstram que o Mix-GRM estabelece um novo estado da arte em cinco benchmarks, superando os principais RMs de código aberto em uma média de 8,2%. Nossos resultados revelam uma divergência clara no raciocínio: o B-CoT beneficia tarefas de preferência subjetiva, enquanto o D-CoT se destaca em tarefas de correção objetiva. Consequentemente, o desalinhamento do mecanismo de raciocínio com a tarefa degrada diretamente o desempenho. Além disso, demonstramos que o RLVR atua como um amplificador de chaveamento, induzindo uma polarização emergente em que o modelo aloca espontaneamente seu estilo de raciocínio para corresponder às demandas da tarefa. Os dados e modelos sintetizados são disponibilizados em https://huggingface.co/collections/DonJoey/mix-grm, e o código é disponibilizado em https://github.com/Don-Joey/Mix-GRM.
A animação de personagens visa gerar vídeos realistas transferindo a dinâmica do movimento de um vídeo de condução para uma imagem de referência. Avanços recentes em modelos generativos abriram caminho para animação de personagens de alta fidelidade. Neste trabalho, apresentamos o Kling-MotionControl, uma estrutura unificada baseada em DiT, projetada especificamente para animação holística de personagens robusta, precisa e expressiva. Aproveitando uma estratégia de dividir e conquistar dentro de um sistema coeso, o modelo orquestra representações de movimento heterogêneas adaptadas às características distintas do corpo, rosto e mãos, reconciliando efetivamente a estabilidade estrutural em larga escala com a expressividade articulatória de granularidade fina. Para garantir uma generalização robusta entre identidades, incorporamos um aprendizado adaptativo agnóstico à identidade, facilitando a retargeting natural de movimento para diversos personagens, desde humanos realistas até desenhos animados estilizados. Simultaneamente, garantimos uma preservação fiel da aparência através de projetos meticulosos de injeção e fusão de identidade, apoiados ainda por um mecanismo de biblioteca de sujeitos que aproveita contextos de referência abrangentes. Para garantir utilidade prática, implementamos uma estrutura avançada de aceleração utilizando destilação multiestágio, aumentando a velocidade de inferência em mais de 10x. O Kling-MotionControl distingue-se pela compreensão inteligente do movimento semântico e pela resposta precisa ao texto, permitindo um controle flexível para além dos inputs visuais. Avaliações de preferência humana demonstram que o Kling-MotionControl oferece um desempenho superior em comparação com as principais soluções comerciais e de código aberto, alcançando uma fidelidade excecional no controlo holístico do movimento, generalização em domínio aberto, e qualidade visual e coerência. Estes resultados estabelecem o Kling-MotionControl como uma solução robusta para animação de personagens de alta qualidade, controlável e realista.
Os Modelos de Linguagem de Grande Porte (LLMs) estão cada vez mais implantados em domínios socialmente sensíveis, mas os seus comportamentos imprevisíveis, desde intenções desalinhadas até personalidades inconsistentes, representam riscos significativos. Apresentamos o SteerEval, um benchmark hierárquico para avaliar a controlabilidade dos LLMs em três domínios: características linguísticas, sentimento e personalidade. Cada domínio é estruturado em três níveis de especificação: L1 (o que expressar), L2 (como expressar) e L3 (como instanciar), conectando a intenção comportamental de alto nível à produção textual concreta. Utilizando o SteerEval, avaliamos sistematicamente métodos contemporâneos de direcionamento, revelando que o controle frequentemente se degrada em níveis mais refinados. O nosso benchmark oferece uma estrutura fundamentada e interpretável para um comportamento de LLM seguro e controlável, servindo como base para pesquisas futuras.
Os métodos DEEPTHINK melhoram o raciocínio através da geração, refinamento e agregação de populações de soluções candidatas, o que permite um desempenho robusto em tarefas matemáticas e científicas complexas. No entanto, as estruturas existentes frequentemente carecem de sinais de correção confiáveis durante a inferência, criando um gargalo de aprimoramento populacional no qual uma deliberação mais profunda amplifica erros, suprime soluções corretas minoritárias e produz retornos fracos para computação adicional. Neste artigo, introduzimos uma decomposição funcional dos sistemas DEEPTHINK e propomos o PRISM, um algoritmo de inferência guiado por um Modelo de Recompensa de Processo (PRM) que utiliza verificação em nível de etapa para orientar tanto o refinamento populacional quanto a agregação de soluções. Durante o refinamento, o PRISM trata as soluções candidatas como partículas em um panorama de energia definido pelo PRM e remodela a população através de reamostragem guiada por pontuação e refinamento estocástico, o que concentra a massa de probabilidade em raciocínios de maior qualidade, preservando a diversidade. Em benchmarks de matemática e ciências, o PRISM é competitivo ou supera os métodos DEEPTHINK existentes, atingindo 90,0%, 75,4% e 71,4% com o modelo gpt-oss-20b no AIME25, HMMT25 e GPQA Diamond, respectivamente, enquanto equipara ou excede o desempenho do modelo gpt-oss-120b. Adicionalmente, nossa análise mostra que o PRISM produz correção líquida direcional consistente durante o refinamento, mantém-se confiável quando a população inicial contém poucos candidatos corretos e frequentemente situa-se na fronteira de Pareto entre precisão e custo computacional.
A edição de vídeo baseada em instruções tem testemunhado progressos rápidos, contudo, os métodos atuais frequentemente lutam com o controle visual preciso, uma vez que a linguagem natural é inerentemente limitada para descrever nuances visuais complexas. Embora a edição guiada por referência ofereça uma solução robusta, seu potencial está atualmente limitado pela escassez de dados de treinamento pareados de alta qualidade. Para preencher esta lacuna, introduzimos um pipeline escalável de geração de dados que transforma pares existentes de edição de vídeo em quartetos de treinamento de alta fidelidade, aproveitando modelos generativos de imagem para criar estruturas de referência sintetizadas. Utilizando este pipeline, construímos o RefVIE, um conjunto de dados em larga escala adaptado para tarefas de seguimento de instruções e referência, e estabelecemos o RefVIE-Bench para avaliação abrangente. Além disso, propomos uma arquitetura de edição unificada, a Kiwi-Edit, que sinergiza consultas aprendíveis e características visuais latentes para orientação semântica de referência. Nosso modelo alcança ganhos significativos no seguimento de instruções e na fidelidade de referência através de um currículo de treinamento progressivo multiestágio. Experimentos extensivos demonstram que nossos dados e arquitetura estabelecem um novo estado da arte em edição de vídeo controlável. Todos os conjuntos de dados, modelos e código são disponibilizados em https://github.com/showlab/Kiwi-Edit.
A captura de dependências temporais é crítica para o aprendizado por reforço baseado em modelo (MBRL) em domínios parcialmente observáveis e de alta dimensionalidade. Apresentamos o NE-Dreamer, um agente MBRL livre de *decoder* que utiliza um *transformer* temporal para prever as incorporações (*embeddings*) do codificador da próxima etapa a partir de sequências de estados latentes, otimizando diretamente o alinhamento preditivo temporal no espaço de representação. Essa abordagem permite que o NE-Dreamer aprenda representações de estado coerentes e preditivas sem perdas de reconstrução ou supervisão auxiliar. Na *DeepMind Control Suite*, o NE-Dreamer iguala ou supera o desempenho do DreamerV3 e dos principais agentes livres de *decoder*. Em um subconjunto desafiador de tarefas do DMLab que envolvem memória e raciocínio espacial, o NE-Dreamer obtém ganhos substanciais. Esses resultados estabelecem a previsão de *embeddings* futuros com *transformers* temporais como uma estrutura eficaz e escalável para MBRL em ambientes complexos e parcialmente observáveis.
À medida que os modelos de linguagem de grande escala (LLMs) avançam suas capacidades matemáticas em direção ao nível da Olimpíada Internacional de Matemática (IMO), a escassez de problemas desafiadores e de alta qualidade para treinamento e avaliação tornou-se um gargalo significativo. Simultaneamente, agentes de código recentes demonstraram habilidades sofisticadas em codificação e raciocínio agentivo, sugerindo que a execução de código pode servir como um ambiente escalável para experimentação matemática. Neste artigo, investigamos o potencial de agentes de código para evoluir autonomamente problemas matemáticos existentes em variações mais complexas. Introduzimos uma estrutura multiagente projetada para realizar a evolução de problemas, validando a solucionabilidade e a maior dificuldade dos problemas gerados. Nossos experimentos demonstram que, dada uma exploração suficiente em tempo de teste, os agentes de código podem sintetizar novos problemas, solucionáveis e estruturalmente distintos dos originais, além de serem mais desafiadores. Este trabalho fornece evidências empíricas de que agentes baseados em código podem servir como um mecanismo viável para sintetizar problemas de raciocínio matemático de alta dificuldade dentro de ambientes computacionais escaláveis. Nossos dados estão disponíveis em https://github.com/TarferSoul/Code2Math.
A melhoria das capacidades de raciocínio de Modelos de Linguagem de Grande Porte (LLMs) através do pós-treinamento é frequentemente limitada pelo compromisso entre eficiência e o esquecimento catastrófico. Embora pesquisas anteriores enfatizem o papel dos dados *on-policy* na mitigação do esquecimento, nós revelamos – e validamos tanto teoricamente quanto empiricamente – um mecanismo negligenciado, porém crítico: a regularização implícita inerente à estimativa de recompensa da Otimização Direta de Preferências (DPO). Isso motiva nosso *Surgical Post-Training* (SPoT), um novo paradigma projetado para otimizar o raciocínio de forma eficiente, preservando o conhecimento prévio aprendido. O SPoT consiste em: (1) um *pipeline* de retificação de dados que emprega um Oráculo para corrigir cirurgicamente passos errôneos por meio de edições mínimas, gerando dados próximos à distribuição do modelo; e (2) um objetivo de entropia cruzada binária baseado em recompensa. Diferente do ranqueamento relativo na DPO, este objetivo trata a correção do raciocínio como um problema de classificação binária, aplicando sinais de supervisão desacoplados. Empiricamente, com apenas 4k pares de dados matemáticos retificados, o SPoT melhora a precisão do Qwen3-8B em 6,2% em média em tarefas *in-domain* e de fora da distribuição (OOD), exigindo meros 28 minutos de treinamento em 8 GPUs H800. Código: https://github.com/Visual-AI/SPoT
O raciocínio humano frequentemente envolve trabalhar com informações limitadas para chegar a conclusões probabilísticas. Em sua forma mais simples, isso envolve fazer uma inferência que não é estritamente implicada por uma premissa, mas apenas provável dada a premissa. Embora os LLMs de raciocínio tenham demonstrado um forte desempenho em tarefas lógicas e matemáticas, o seu comportamento em tais inferências abertas e não determinísticas permanece amplamente inexplorado. Apresentamos o ProbCOPA, um conjunto de dados com 210 inferências probabilísticas elaboradas manualmente em inglês, cada uma anotada quanto à probabilidade da inferência por 25 a 30 participantes humanos. Descobrimos que as respostas humanas são graduais e variadas, revelando julgamentos probabilísticos sobre as inferências em nosso conjunto de dados. Comparando esses julgamentos com respostas de oito LLMs de raciocínio de última geração, mostramos que os modelos falham consistentemente em produzir distribuições semelhantes às humanas. Por fim, analisando as cadeias de raciocínio dos LLMs, encontramos evidências de um padrão de raciocínio comum usado para avaliar tais inferências. Nossas descobertas revelam diferenças persistentes entre humanos e LLMs e ressaltam a necessidade de avaliar o raciocínio para além de contextos determinísticos.
Os modelos de linguagem agentes operam em um regime de segurança fundamentalmente diferente dos modelos de chat: eles devem planejar, chamar ferramentas e executar ações de longo prazo, onde um único passo em falso, como acessar arquivos ou inserir credenciais, pode causar danos irreversíveis. Os métodos de alinhamento existentes, amplamente otimizados para geração estática e conclusão de tarefas, falham nesses cenários devido à tomada de decisão sequencial, ao feedback adversário de ferramentas e ao raciocínio intermediário excessivamente confiante. Apresentamos o MOSAIC, uma estrutura de pós-treinamento que alinha agentes para o uso seguro de ferramentas em múltiplas etapas, tornando as decisões de segurança explícitas e aprendíveis. O MOSAIC estrutura a inferência como um loop de planejar, verificar, depois agir ou recusar, com raciocínio de segurança explícito e recusa como ações de primeira classe. Para treinar sem rótulos a nível de trajetória, usamos aprendizado por reforço baseado em preferências com comparações pareadas de trajetórias, o que captura distinções de segurança frequentemente perdidas por recompensas escalares. Avaliamos o MOSAIC *zero-shot* em três famílias de modelos, Qwen2.5-7B, Qwen3-4B-Thinking e Phi-4, e em *benchmarks* fora da distribuição abrangendo tarefas nocivas, injeção de *prompts*, uso benigno de ferramentas e vazamento de privacidade entre domínios. O MOSAIC reduz o comportamento nocivo em até 50%, aumenta a recusa de tarefas nocivas em mais de 20% em ataques de injeção, reduz o vazamento de privacidade e preserva ou melhora o desempenho em tarefas benignas, demonstrando generalização robusta entre modelos, domínios e configurações agentes.
A estimativa da trajetória 3D de cada pixel a partir de um vídeo monocular é crucial e promissora para uma compreensão abrangente da dinâmica 3D dos vídeos. Trabalhos recentes de rastreamento 3D monocular demonstram desempenho impressionante, mas estão limitados ao rastreamento de pontos esparsos no primeiro *frame* ou a uma estrutura lenta baseada em otimização para rastreamento denso. Neste artigo, propomos um modelo *feedforward*, denominado Track4World, que possibilita um rastreamento 3D holístico eficiente de cada pixel no sistema de coordenadas centrado no mundo. Construído sobre a representação da cena 3D global codificada por um ViT no estilo VGGT, o Track4World aplica um novo esquema de correlação 3D para estimar simultaneamente o fluxo denso 2D e 3D a nível de pixel entre pares de *frames* arbitrários. O fluxo de cena estimado, juntamente com a geometria 3D reconstruída, permite o subsequente rastreamento 3D eficiente de cada pixel deste vídeo. Experimentos extensivos em múltiplos *benchmarks* demonstram que nossa abordagem supera consistentemente os métodos existentes na estimativa de fluxo 2D/3D e no rastreamento 3D, destacando sua robustez e escalabilidade para tarefas de reconstrução 4D do mundo real.
Reinterpretamos o classificador softmax final do Modelo de Linguagem de Grande Porte (LLM) como um Modelo Baseado em Energia (EBM), decompondo a cadeia de probabilidade sequência-para-sequência em múltiplos EBMs interagentes durante a inferência. Esta abordagem fundamentada permite-nos rastrear "derramamentos de energia" durante a descodificação, que empiricamente demonstramos correlacionarem-se com erros factuais, vieses e falhas. Semelhante a Orgad et al. (2025), o nosso método localiza o token de resposta exato e subsequentemente testa alucinações. Crucialmente, porém, alcançamos isto sem exigir classificadores de sonda treinados ou ablações de ativação. Em vez disso, introduzimos duas métricas completamente livres de treino, derivadas diretamente dos logits de saída: a energia derramada, que capta a discrepância entre os valores de energia em passos de geração consecutivos que teoricamente deveriam coincidir, e a energia marginalizada, que é mensurável num único passo. Avaliado em nove benchmarks abrangendo LLMs state-of-the-art (incluindo LLaMA, Mistral e Gemma) e em operações algébricas sintéticas (Qwen3), a nossa abordagem demonstra deteção robusta e competitiva de alucinações e generalização cruzada de tarefas. Notavelmente, estes resultados mantêm-se tanto para variantes pré-treinadas como para variantes ajustadas por instrução, sem introduzir qualquer sobrecarga de treino. Código disponível em: github.com/OmnAI-Lab/spilled-energy
Os pedidos de usuários do mundo real a agentes de LLM são frequentemente subespecificados. Os agentes devem interagir para adquirir informações ausentes e tomar decisões corretas a jusante. No entanto, os métodos atuais baseados em GRPO multiturma frequentemente dependem do cálculo de recompensa a nível de trajetória, o que leva a problemas de atribuição de crédito e sinais de vantagem insuficientes dentro dos grupos de rollout. Uma abordagem viável é identificar turnos de interação valiosos em uma granularidade fina para impulsionar um aprendizado mais direcionado. Para resolver isso, introduzimos o InfoPO (Otimização de Política Orientada por Informação), que enquadra a interação multiturma como um processo de redução ativa de incerteza e calcula uma recompensa de ganho de informação que credita turnos cujo feedback altera mensuravelmente a distribuição de ações subsequentes do agente em comparação com um contrafactual de feedback mascarado. Ele então combina este sinal com os resultados da tarefa por meio de uma fusão adaptativa com portão de variância para identificar a importância da informação, mantendo ao mesmo tempo a direção do objetivo orientado à tarefa. Em diversas tarefas, incluindo clarificação de intenção, codificação colaborativa e tomada de decisão aumentada por ferramentas, o InfoPO supera consistentemente os métodos de prompting e os baselines de RL multiturma. Ele também demonstra robustez sob mudanças no simulador de usuário e generaliza efetivamente para tarefas interativas com o ambiente. No geral, o InfoPO fornece um mecanismo fundamentado e escalável para otimizar a colaboração complexa entre agente e usuário. O código está disponível em https://github.com/kfq20/InfoPO.
Os modelos de texto-para-imagem avançaram rapidamente em realismo e controlabilidade, com abordagens recentes a aproveitar legendas longas e detalhadas para suportar geração de granularidade fina. No entanto, persiste uma lacuna paramétrica fundamental: os modelos existentes dependem de linguagem descritiva, enquanto os fluxos de trabalho profissionais exigem controlo numérico preciso sobre a localização, dimensão e cor dos objetos. Neste trabalho, introduzimos o BBQ, um modelo de texto-para-imagem de grande escala que se condiciona diretamente a caixas delimitadoras numéricas e trios RGB dentro de uma estrutura de texto estruturado unificada. Obtemos controlo espacial e cromático preciso através do treino com legendas enriquecidas com anotações paramétricas, sem modificações arquitetónicas ou otimização no momento da inferência. Isto também permite interfaces de utilizador intuitivas, como o arrastar de objetos e seletores de cor, substituindo a promptagem iterativa ambígua por controlos precisos e familiares. Em avaliações abrangentes, o BBQ alcança um forte alinhamento de caixas e melhora a fidelidade da cor RGB em relação às linhas de base state-of-the-art. De forma mais ampla, os nossos resultados suportam um novo paradigma no qual a intenção do utilizador é traduzida para uma linguagem estruturada intermédia, consumida por um transformer baseado em fluxo que atua como um renderizador e acomoda naturalmente parâmetros numéricos.
Os modelos recentes de edição de vídeo têm alcançado resultados impressionantes, mas a maioria ainda depende de grandes conjuntos de dados emparelhados. A coleta desses pares naturalmente alinhados em larga escala permanece um grande desafio e constitui um gargalo crítico, especialmente para dados de edição de vídeo locais. Soluções alternativas existentes transferem a edição de imagem para vídeo por meio de controle de movimento global para edição sem pares, mas tais projetos lutam com a consistência de fundo e temporal. Neste artigo, propomos o NOVA: Controle Esparso & Síntese Densaa, uma nova estrutura para edição de vídeo não emparelhada. Especificamente, o ramo esparso fornece orientação semântica por meio de quadros-chave editados pelo usuário distribuídos ao longo do vídeo, e o ramo denso incorpora continuamente informações de movimento e textura do vídeo original para manter alta fidelidade e coerência. Além disso, introduzimos uma estratégia de treinamento por simulação de degradação que permite ao modelo aprender a reconstrução de movimento e a consistência temporal treinando em vídeos artificialmente degradados, eliminando assim a necessidade de dados emparelhados. Nossos extensivos experimentos demonstram que o NOVA supera as abordagens existentes em fidelidade de edição, preservação de movimento e coerência temporal.
A Orientação Livre de Classificador (CFG) emergiu como uma abordagem central para melhorar o alinhamento semântico em modelos de difusão baseados em fluxo. Neste artigo, exploramos uma estrutura unificada chamada CFG-Ctrl, que reinterpreta a CFG como um controle aplicado ao fluxo gerativo contínuo de primeira ordem, usando a discrepância condicional-incondicional como um sinal de erro para ajustar o campo de velocidade. Desta perspectiva, resumimos a CFG padrão como um controlador proporcional (controle-P) com ganho fixo, e as variantes típicas subsequentes desenvolvem projetos de lei de controle estendidos derivados dela. No entanto, os métodos existentes dependem principalmente de controle linear, levando inerentemente a instabilidade, *overshooting* e degradação da fidelidade semântica, especialmente em escalas de orientação grandes. Para resolver isso, introduzimos o Controle CFG por Modos Deslizantes (SMC-CFG), que força o fluxo gerativo em direção a uma variedade deslizante de convergência rápida. Especificamente, definimos uma superfície de modo deslizante exponencial sobre o erro de predição semântica e introduzimos um termo de controle chaveado para estabelecer uma correção guiada por realimentação não linear. Além disso, fornecemos uma análise de estabilidade de Lyapunov para apoiar teoricamente a convergência em tempo finito. Experimentos em modelos de geração de texto para imagem, incluindo Stable Diffusion 3.5, Flux e Qwen-Image, demonstram que o SMC-CFG supera a CFG padrão no alinhamento semântico e aumenta a robustez em uma ampla gama de escalas de orientação. Página do Projeto: https://hanyang-21.github.io/CFG-Ctrl
Os modelos Visão-Linguagem-Ação (VLA) representam um caminho promissor para a inteligência incorporada, mas frequentemente negligenciam a estrutura preditiva e temporal-causal subjacente à dinâmica visual. Os VLAs de modelo de mundo abordam isso prevendo quadros futuros, mas desperdiçam capacidade reconstruindo fundos redundantes. Os VLAs de ação latente codificam de forma compacta as transições entre quadros, mas carecem de modelagem dinâmica temporalmente contínua e de conhecimento de mundo. Para superar essas limitações, introduzimos o CoWVLA (Chain-of-World VLA), um novo paradigma de "Cadeia de Mundo" que unifica o raciocínio temporal do modelo de mundo com uma representação de movimento latente desacoplada. Primeiro, um VAE de vídeo pré-treinado serve como um extrator de movimento latente, fatorando explicitamente segmentos de vídeo em latentes de estrutura e movimento. Em seguida, durante o pré-treinamento, o VLA aprende a partir de uma instrução e de um quadro inicial para inferir uma cadeia de movimento latente contínua e prever o quadro final do segmento. Finalmente, durante o co-ajuste fino, essa dinâmica latente é alinhada com a previsão de ação discreta através da modelagem conjunta de quadros-chave esparsos e sequências de ação em um decodificador autorregressivo unificado. Este projeto preserva os benefícios do modelo de mundo de raciocínio temporal e conhecimento de mundo, mantendo a compactação e interpretabilidade das ações latentes, permitindo uma aprendizagem visuomotora eficiente. Experimentos extensivos em benchmarks de simulação robótica mostram que o CoWVLA supera as abordagens existentes de modelo de mundo e ação latente e alcança eficiência computacional moderada, destacando seu potencial como um paradigma de pré-treinamento VLA mais eficaz. O site do projeto pode ser encontrado em https://fx-hit.github.io/cowvla-io.
A transição dos Grandes Modelos de Linguagem (LLMs) de ferramentas exploratórias para "sujeitos de silício" ativos nas ciências sociais carece de uma validação extensiva da validade operacional. Este estudo introduz a Predição de Comentário Condicionada (CCP), uma tarefa na qual um modelo prevê como um utilizador comentaria um determinado estímulo, comparando os resultados gerados com traços digitais autênticos. Este quadro permite uma avaliação rigorosa das capacidades atuais dos LLMs no que diz respeito à simulação do comportamento de utilizadores de redes sociais. Avaliámos modelos abertos de 8B (Llama3.1, Qwen3, Ministral) em cenários de língua inglesa, alemã e luxemburguesa. Ao comparar sistematicamente estratégias de *prompting* (explícita vs. implícita) e o impacto do Ajuste Fino Supervisionado (SFT), identificamos um desacoplamento crítico entre forma e conteúdo em contextos de baixos recursos: embora o SFT alinhe a estrutura de superfície da saída de texto (comprimento e sintaxe), este degrada o enraizamento semântico. Além disso, demonstramos que o condicionamento explícito (biografias geradas) se torna redundante sob ajuste fino, uma vez que os modelos realizam com sucesso inferência latente diretamente a partir de históricos comportamentais. As nossas descobertas desafiam os atuais paradigmas de "*prompting* ingénuo" e oferecem diretrizes operacionais que priorizam traços comportamentais autênticos em detrimento de personas descritivas para uma simulação de alta fidelidade.
A descoberta científica automatizada com modelos de linguagem de grande escala está a transformar o ciclo de vida da investigação, desde a ideação até à experimentação, contudo, os agentes existentes lutam por processar autonomamente dados brutos recolhidos de experiências científicas. Apresentamos o SciDER, um sistema centrado nos dados e de ponta a ponta que automatiza o ciclo de vida da investigação. Ao contrário de estruturas tradicionais, os nossos agentes especializados analisam e processam colaborativamente dados científicos brutos, geram hipóteses e desenhos experimentais fundamentados em características específicas dos dados, e escrevem e executam o código correspondente. A avaliação em três benchmarks mostra que o SciDER se destaca na descoberta científica especializada e orientada por dados e supera agentes de propósito geral e modelos state-of-the-art através da sua memória auto-evolutiva e ciclo de feedback liderado por críticas. Distribuído como um pacote Python modular, disponibilizamos também pacotes PyPI de fácil utilização com uma interface web leve para acelerar a investigação autónoma e orientada por dados, com o objetivo de ser acessível a todos os investigadores e desenvolvedores.
A unificação da aprendizagem de representações visuais e da geração de texto para imagem (T2I) num único modelo continua a ser um desafio central na aprendizagem multimodal. Apresentamos o DREAM, uma estrutura unificada que otimiza conjuntamente objetivos discriminativos e generativos, enquanto aprende representações visuais robustas. O DREAM é construído com base em duas técnicas fundamentais: Durante o treino, o *Masking Warmup*, uma programação de mascaramento progressivo, começa com um mascaramento mínimo para estabelecer o alinhamento contrastivo necessário para a aprendizagem de representações, transitando depois gradualmente para um mascaramento total para um treino generativo estável. Na inferência, o DREAM emprega o *Semantically Aligned Decoding* para alinhar candidatos de imagem parcialmente mascarados com o texto alvo e selecionar o melhor para uma descodificação adicional, melhorando a fidelidade texto-imagem (+6,3%) sem recurso a sistemas externos de reclassificação. Treinado exclusivamente com o conjunto CC12M, o DREAM atinge uma precisão de 72,7% em *linear-probing* no ImageNet (+1,1% face ao CLIP) e um FID de 4,25 (+6,2% face ao FLUID), com ganhos consistentes em classificação *few-shot*, segmentação semântica e estimativa de profundidade. Estes resultados demonstram que os objetivos discriminativos e generativos podem ser sinérgicos, permitindo modelos multimodais unificados que se destacam tanto na compreensão visual como na geração.
À medida que os Modelos de Linguagem de Grande Porte (LLMs) saturam benchmarks elementares, a fronteira da pesquisa deslocou-se da geração para a confiabilidade da avaliação automatizada. Demonstramos que os protocolos padrão de "LLM-como-juiz" sofrem de uma Lacuna de Alinhamento sistemática quando aplicados à matemática de nível superior de graduação a início de pós-graduação. Para quantificar isso, introduzimos o QEDBench, o primeiro benchmark de alinhamento de dupla rubrica em larga escala para medir sistematicamente o alinhamento com especialistas humanos em provas matemáticas de nível universitário, contrastando rubricas específicas de disciplinas contra critérios de conhecimento comum de especialistas. Ao implantar uma matriz de dupla avaliação (7 juízes x 5 solucionadores) contra mais de 1.000 horas de avaliação humana, revelamos que certos avaliadores de fronteira, como Claude Opus 4.5, DeepSeek-V3, Qwen 2.5 Max e Llama 4 Maverick, exibem um viés positivo significativo (inflação média de pontuação de até +0,18, +0,20, +0,30 e +0,36, respectivamente). Além disso, descobrimos uma lacuna crítica de raciocínio no domínio discreto: enquanto o Gemini 3.0 Pro atua no estado da arte (pontuação média de avaliação humana de 0,91), outros modelos de raciocínio, como o GPT-5 Pro e o Claude Sonnet 4.5, veem seu desempenho degradar-se significativamente em domínios discretos. Especificamente, suas pontuações médias de avaliação humana caem para 0,72 e 0,63 em Matemática Discreta, e para 0,74 e 0,50 em Teoria dos Grafos. Além desses resultados de pesquisa, também disponibilizamos o QEDBench como um benchmark público para avaliar e melhorar os juízes de IA. Nosso benchmark é publicado publicamente em https://github.com/qqliu/Yale-QEDBench.
Os modelos de linguagem de grande escala exibem capacidades sofisticadas, mas compreender como funcionam internamente continua a ser um desafio central. Um obstáculo fundamental é que o treinamento seleciona o comportamento, não a circuitaria, de modo que muitas configurações de pesos podem implementar a mesma função. Quais estruturas internas refletem a computação e quais são acidentes de uma execução de treinamento específica? Este trabalho extrai núcleos algorítmicos: subespaços compactos necessários e suficientes para o desempenho da tarefa. Transformadores treinados independentemente aprendem pesos diferentes, mas convergem para os mesmos núcleos. Transformadores de cadeia de Markov incorporam núcleos 3D em subespaços quase ortogonais, mas recuperam espectros de transição idênticos. Transformadores de adição modular descobrem operadores cíclicos compactos no "grokking" que posteriormente se inflam, produzindo um modelo preditivo da transição da memorização para a generalização. Os modelos de linguagem GPT-2 governam a concordância sujeito-verbo através de um único eixo que, quando invertido, inverte o número gramatical em toda a geração, através de escalas. Estes resultados revelam invariantes de baixa dimensão que persistem através de execuções de treinamento e escalas, sugerindo que as computações do transformador são organizadas em torno de estruturas algorítmicas compactas e partilhadas. A interpretabilidade mecanicista poderia beneficiar-se de direcionar tais invariantes – a essência computacional – em vez de detalhes específicos da implementação.
A transição da computação sequencial para a paralela é essencial para aplicações modernas de alto desempenho, mas é dificultada pela curva de aprendizagem íngreme da programação concorrente. Este desafio é ampliado para estruturas de dados irregulares (como grafos esparsos, árvores desbalanceadas e malhas não uniformes), onde o escalonamento estático falha e as dependências de dados são imprevisíveis. Os atuais Modelos de Linguagem de Grande Porte (LLMs) frequentemente falham de forma catastrófica nessas tarefas, gerando código prejudicado por condições de corrida subtis, *deadlocks* e escalabilidade subótima. Nós colmatamos esta lacuna com o ParEVO, uma estrutura concebida para sintetizar algoritmos paralelos de alto desempenho para dados irregulares. As nossas contribuições incluem: (1) O Parlay-Instruct Corpus, um conjunto de dados curado de 13.820 tarefas sintetizadas através de um pipeline "Crítico-Refinador" que filtra explicitamente algoritmos empiricamente performantes que utilizam eficazmente primitivas paralelas Work-Span; (2) modelos especializados de DeepSeek, Qwen e Gemini afinados para alinhar a geração probabilística com a semântica rigorosa da biblioteca ParlayLib; e (3) um Agente de Codificação Evolutivo (ECA) que melhora a "última milha" da correção reparando iterativamente o código usando *feedback* de compiladores, detetores dinâmicos de condições de corrida e *profilers* de desempenho. No benchmark ParEval, o ParEVO alcança uma aceleração média de 106x (com um máximo de 1103x) em todo o conjunto de testes, e uma aceleração robusta de 13.6x especificamente em problemas complexos de grafos irregulares, superando os modelos comerciais state-of-the-art. Além disso, a nossa abordagem evolutiva iguala os *baselines* humanos especializados state-of-the-art, alcançando até uma aceleração de 4.1x em *kernels* altamente irregulares específicos. O código fonte e os conjuntos de dados estão disponíveis em https://github.com/WildAlg/ParEVO.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tem alcançado sucesso notável na melhoria de modelos autoregressivos, especialmente em domínios que exigem correção, como raciocínio matemático e geração de código. No entanto, a aplicação direta de tais paradigmas aos Modelos de Linguagem de Grande Porte baseados em Difusão (dLLMs) é fundamentalmente impedida pela intratabilidade do cálculo exato da verossimilhança, o que força os métodos existentes a depender de aproximações de alta variância. Para preencher essa lacuna, propomos a Otimização de Política Livre de Verossimilhança (LFPO), uma estrutura nativa que mapeia o conceito de correspondência de fluxo de campo vetorial para o espaço discreto de tokens. Especificamente, a LFPO formula o alinhamento como uma retificação geométrica de velocidade, que otimiza diretamente os *logits* de remoção de ruído por meio de atualizações contrastivas. Este projeto contorna efetivamente os erros inerentes à aproximação de verossimilhança, produzindo uma estimativa de gradiente precisa. Além disso, a LFPO impõe consistência ao prever soluções finais a partir de etapas intermediárias, endireitando efetivamente o fluxo de probabilidade para permitir geração de alta qualidade com significativamente menos iterações. Experimentos extensivos demonstram que a LFPO não apenas supera os métodos state-of-the-art em benchmarks de código e raciocínio, mas também acelera a inferência em aproximadamente 20% através da redução de passos de difusão.
Sistemas multiagente (SMA) orientados por modelos de linguagem de grande escala (LLM) coordenam agentes especializados por meio de topologias de interação predefinidas e têm mostrado potencial para tarefas complexas, como a geração de código em nível competitivo. Estudos recentes demonstram que fluxos de trabalho multiagente e grafos de comunicação cuidadosamente projetados podem melhorar significativamente o desempenho da geração de código ao aproveitar o raciocínio colaborativo. No entanto, os métodos existentes não adaptam a densidade da topologia à dificuldade da tarefa nem refinam iterativamente a topologia dentro de uma instância usando feedback de execução, o que leva a comunicação redundante e gargalos de desempenho. Para resolver essas questões, propomos o AgentConductor: um SMA otimizado por aprendizado por reforço com um agente orquestrador baseado em LLM como núcleo, que permite a geração dinâmica de topologias de interação orientada por feedback de ponta a ponta. Para cada consulta, o AgentConductor infere os papéis dos agentes e a dificuldade da tarefa, e então constrói uma topologia de grafo acíclico direcionado (DAG) em camadas, adaptada à tarefa e consciente da densidade, sustentada por duas inovações principais. Primeiro, projetamos uma nova função de densidade topológica que captura caracterizações matemáticas conscientes da comunicação das interações multiagente. Segundo, adotamos a partição de intervalos de dificuldade para evitar a poda excessiva, permitindo uma medição precisa do limite superior de densidade topológica por nível de dificuldade e um controle mais refinado. Empiricamente, em três conjuntos de dados de código de nível competitivo e dois fundamentais, o AgentConductor alcança precisão de última geração, superando a linha de base mais forte em até 14,6% na precisão pass@1, 13% na redução de densidade e 68% na redução do custo de tokens.
As descobertas científicas devem ser comunicadas com clareza para realizar todo o seu potencial. Sem uma comunicação eficaz, mesmo as descobertas mais revolucionárias correm o risco de ser negligenciadas ou mal compreendidas. A principal forma como os cientistas comunicam o seu trabalho e recebem feedback da comunidade é através da revisão por pares. No entanto, o sistema atual frequentemente fornece feedback inconsistente entre os revisores, dificultando, em última análise, a melhoria de um manuscrito e limitando o seu potencial impacto. Neste artigo, introduzimos um novo método, o APRES, baseado em Modelos de Linguagem de Grande Escala (LLMs), para atualizar o texto de artigos científicos com base numa rubrica de avaliação. O nosso método automatizado descobre uma rubrica altamente preditiva de futuras contagens de citações e integra-a com o APRES num sistema automatizado que revê artigos para melhorar a sua qualidade e impacto. Crucialmente, este objetivo deve ser alcançado sem alterar o conteúdo científico central. Demonstramos o sucesso do APRES, que melhora a previsão de citações futuras em 19,6% no erro médio absoluto em relação à melhor linha de base seguinte, e mostramos que o nosso processo de revisão de artigos produz artigos que são preferidos em relação aos originais por avaliadores especialistas humanos em 79% das vezes. Os nossos resultados fornecem um forte suporte empírico para o uso de LLMs como uma ferramenta para ajudar os autores a testar a robustez dos seus manuscritos antes da submissão. Em última análise, o nosso trabalho procura aumentar, e não substituir, o papel essencial dos revisores especialistas humanos, pois devem ser os humanos a discernir quais as descobertas que verdadeiramente importam, guiando a ciência no sentido de avançar o conhecimento e enriquecer vidas.
As arquiteturas Mixture-of-Experts (MoE) emergiram como um paradigma poderoso para dimensionar redes neurais mantendo a eficiência computacional. No entanto, as implementações padrão de MoE dependem de duas premissas de projeto rígidas: (1) o roteamento Top-K fixo, onde exatamente K especialistas são ativados por token, e (2) a alocação uniforme de especialistas em todas as camadas. Este artigo introduz o DynaMoE, uma nova estrutura MoE que relaxa ambas as restrições por meio da ativação dinâmica de especialistas no nível do token e da alocação de capacidade adaptativa por camada. O DynaMoE introduz um mecanismo de roteamento fundamentado no qual o número de especialistas ativos por token varia com base na complexidade da entrada. Paralelamente, a estrutura implementa seis estratégias distintas de escalonamento para distribuir a capacidade de especialistas ao longo da profundidade da rede, incluindo padrões descendentes, ascendentes, piramidais e de onda. Analisamos teoricamente os ganhos de expressividade do roteamento dinâmico e derivamos limites para a eficiência computacional. Por meio de extensos experimentos com MNIST, Fashion-MNIST, CIFAR-10 (classificação de imagens) e Recycling-the-Web (modelagem de linguagem) em múltiplas escalas de modelo, demonstramos que o DynaMoE alcança uma eficiência de parâmetros superior em comparação com linhas de base estáticas. Nossa principal descoberta é que os cronogramas de especialistas ideais são dependentes da tarefa e da escala: cronogramas descendentes (concentrando capacidade nas camadas iniciais) superam as linhas de base uniformes na classificação de imagens. Para modelagem de linguagem, os cronogramas ideais variam com o tamanho do modelo: descendente para Tiny, ascendente para Small e uniforme para Medium. Além disso, o roteamento dinâmico reduz a variância do gradiente durante o treinamento, levando a uma melhor estabilidade de convergência. O DynaMoE estabelece uma nova estrutura para computação adaptativa em redes neurais, fornecendo orientação fundamentada para o projeto de arquiteturas MoE.
Apesar de suas capacidades impressionantes, os modelos atuais de Texto para Imagem (T2I) permanecem propensos a gerar conteúdo inseguro e tóxico. Embora o direcionamento de ativação (activation steering) ofereça uma intervenção promissora em tempo de inferência, observamos que o direcionamento linear de ativação frequentemente degrada a qualidade da imagem quando aplicado a prompts benignos. Para resolver este compromisso (trade-off), primeiro construímos o SafeSteerDataset, um conjunto de dados contrastivo contendo 2300 pares de prompts seguros e inseguros com alta similaridade de cosseno. Aproveitando estes dados, propomos o Transporte de Ativação Condicionado (CAT), uma estrutura que emprega um mecanismo de condicionamento baseado em geometria e mapas de transporte não lineares. Ao condicionar os mapas de transporte para ativar apenas dentro de regiões de ativação inseguras, minimizamos a interferência em consultas benignas. Validamos nossa abordagem em duas arquiteturas de última geração: Z-Image e Infinity. Experimentos demonstram que o CAT generaliza-se eficazmente nessas bases, reduzindo significativamente a Taxa de Sucesso de Ataque enquanto mantém a fidelidade da imagem em comparação com as gerações não direcionadas. Aviso: Este artigo contém texto e imagens potencialmente ofensivos.
A convolução dinâmica espacialmente variante oferece uma abordagem fundamentada para integrar a adaptabilidade espacial em redes neurais profundas. No entanto, os projetos predominantes na segmentação média geralmente geram kernels dinâmicos por meio de _average pooling_, o que implicitamente colapsa detalhes espaciais de alta frequência numa representação grosseira e espacialmente comprimida, levando a previsões excessivamente suavizadas que degradam a fidelidade de estruturas clínicas de granularidade fina. Para superar esta limitação, propomos um novo mecanismo de Convolução Dinâmica Guiada por Estrutura (SGDC), que aproveita um ramo de extração de estrutura explicitamente supervisionado para orientar a geração de kernels dinâmicos e sinais de _gating_ para modulação de características consciente da estrutura. Especificamente, a informação de limites de alta fidelidade deste ramo auxiliar é fundida com características semânticas para permitir uma modulação de características espacialmente precisa. Ao substituir a agregação de contexto por uma orientação estrutural _pixel-wise_, o projeto proposto evita efetivamente a perda de informação introduzida pelo _average pooling_. Resultados experimentais mostram que o SGDC alcança desempenho de ponta nos conjuntos de dados ISIC 2016, PH2, ISIC 2018 e CoNIC, fornecendo fidelidade de limites superior ao reduzir a Distância de Hausdorff (HD95) em 2,05 e oferecendo ganhos consistentes de IoU de 0,99% a 1,49% sobre linhas de base baseadas em _pooling_. Adicionalmente, o mecanismo exibe forte potencial de extensão para outras tarefas visuais sensíveis à estrutura e de granularidade fina, como detecção de pequenos objetos, oferecendo uma solução fundamentada para preservar a integridade estrutural na análise de imagens médicas. Para facilitar a reprodutibilidade e incentivar pesquisas futuras, o código de implementação para os nossos módulos SGE e SGDC foi disponibilizado publicamente em https://github.com/solstice0621/SGDC.
Os recentes avanços em grandes modelos de linguagem (LLMs) têm possibilitado chatbots cada vez mais capazes. No entanto, a maioria dos sistemas existentes concentra-se em ambientes de utilizador único e não generaliza bem para conversas de grupo multiutilizador, onde os agentes requerem uma intervenção mais proativa e precisa em contextos complexos e em evolução. As abordagens existentes geralmente dependem de LLMs tanto para o raciocínio quanto para a geração, levando a um alto consumo de *tokens*, escalabilidade limitada e potenciais riscos de privacidade. Para enfrentar estes desafios, propomos o GroupGPT, um quadro agencial eficiente em *tokens* e que preserva a privacidade para assistentes de conversação multiutilizador. O GroupGPT adota uma arquitetura colaborativa de modelos pequenos e grandes para desacoplar o momento da intervenção da geração de respostas, permitindo uma tomada de decisão eficiente e precisa. O quadro também suporta entradas multimodais, incluindo *memes*, imagens, vídeos e mensagens de voz. Introduzimos ainda o MUIR, um conjunto de dados de referência para o raciocínio de intervenção de assistentes de conversação multiutilizador. O MUIR contém 2.500 segmentos de conversas de grupo anotados com etiquetas de intervenção e respetivas razões, suportando a avaliação da precisão temporal e da qualidade da resposta. Avaliamos uma variedade de modelos no MUIR, desde grandes modelos de linguagem até versões mais pequenas. Experiências extensivas demonstram que o GroupGPT produz respostas precisas e bem temporizadas, alcançando uma pontuação média de 4,72/5,0 na avaliação baseada em LLM, e é bem recebido pelos utilizadores em diversos cenários de conversação de grupo. Além disso, o GroupGPT reduz o uso de *tokens* até 3 vezes em comparação com métodos de base, fornecendo simultaneamente uma sanitização da privacidade das mensagens dos utilizadores antes da transmissão para a nuvem. O código está disponível em: https://github.com/Eliot-Shen/GroupGPT.
O esquecimento de máquina, que permite a um modelo esquecer dados específicos, é crucial para garantir a privacidade dos dados e a confiabilidade do modelo. No entanto, sua eficácia pode ser severamente comprometida em cenários reais, onde os modelos aprendem vieses não intencionais a partir de correlações espúrias nos dados. Este artigo investiga os desafios únicos de fazer um modelo esquecer a partir de tais modelos enviesados. Identificamos um novo fenômeno que denominamos "esquecimento por atalho" (*shortcut unlearning*), no qual os modelos exibem uma tendência "fácil de aprender, mas difícil de esquecer". Especificamente, os modelos têm dificuldade em esquecer amostras de fácil aprendizado e alinhadas com o viés; em vez de esquecer o atributo da classe, eles esquecem o atributo do viés, o que paradoxalmente pode melhorar a precisão na classe que se pretendia esquecer. Para resolver isso, propomos o CUPID, uma nova estrutura de esquecimento inspirada na observação de que amostras com vieses diferentes exibem nitidez (*sharpness*) distinta na paisagem de perda (*loss landscape*). Nosso método primeiro particiona o conjunto de dados a serem esquecidos em subconjuntos aproximados de causal e viés com base na nitidez das amostras, depois desacopla os parâmetros do modelo em vias causais e de viés, e finalmente executa uma atualização direcionada roteando gradientes refinados de causal e viés para suas respectivas vias. Experimentos extensos em conjuntos de dados enviesados, incluindo Waterbirds, BAR e Biased NICO++, demonstram que nosso método alcança um desempenho de esquecimento state-of-the-art e mitiga efetivamente o problema do esquecimento por atalho.
Apresentamos o Whisper-RIR-Mega, um conjunto de dados de referência de pares de fala limpa e reverberada para avaliar a robustez do reconhecimento automático de fala (ASR) à acústica ambiental. Cada amostra emparelha um segmento de áudio limpo do LibriSpeech com o mesmo segmento convoluído com uma resposta ao impulso de sala real do corpus RIR-Mega, com divisões estratificadas por tempo de reverberação (RT60) e razão direto-reverberante (DRR). Avaliamos cinco modelos Whisper (do tiny ao large-v3) em 1600 amostras de teste e relatamos a taxa de erro de palavra (WER) e a taxa de erro de caractere (CER) em condições limpas e reverberadas. A reverberação degrada consistentemente o desempenho em todos os tamanhos de modelo; a penalidade por reverberação na WER varia de 0,12 a 1,07 pontos percentuais, dependendo do modelo. Disponibilizamos o conjunto de dados, o código de avaliação e os resultados de linha de base para apoiar pesquisas reproduzíveis sobre ASR robusto.
A adaptação de políticas em tempo de teste para interações multi-turno (T2PAM) é essencial para alinhar os Grandes Modelos de Linguagem (LLMs) com as necessidades dinâmicas dos utilizadores durante o tempo de inferência. No entanto, os paradigmas existentes geralmente tratam a adaptação em tempo de teste como um problema de eixo único, refinando puramente instruções (Engenharia de *Prompts*) ou apenas ajustando pesos (Treino em Tempo de Teste), ignorando que as falhas de interação derivam de uma mistura acoplada de ambiguidade e incapacidade. Argumentamos que estas duas vias de otimização não são meramente aditivas, mas sinérgicas: a clareza semântica atua como um pré-condicionador para atualizações de parâmetros eficazes. Para tal, propomos o ROSA2, um *framework* que reformula a interação como um problema de otimização conjunta sobre o espaço heterogéneo de Palavras e Pesos. Ao decompor matematicamente o sinal de erro, o ROSA2 utiliza gradientes textuais para retificar a ambiguidade de intenção e atualizações de parâmetros para colmatar lacunas de capacidade. Teoricamente, provamos que esta co-adaptação reduz estritamente o desvio de parâmetros necessário para a convergência. Empiricamente, o ROSA2 supera os *baselines* state-of-the-art em 30% no conjunto de dados MATH, enquanto reduz os turnos de interação em 40%, demonstrando que refinar o contexto desbloqueia o verdadeiro potencial das atualizações de parâmetros.
Os Modelos de Linguagem de Grande Porte para Vídeo (VLLMs) demonstram forte capacidade de compreensão de vídeo, mas sofrem com ineficiência devido a tokens visuais redundantes. As abordagens de poda existentes visam principalmente a redundância espacial intraquadro ou realizam a poda dentro do LLM com sobrecarga de camadas superficiais, resultando em uma redução espaço-temporal subótima e subutilizando a compressibilidade de contexto longo. Todas elas frequentemente descartam contextos sutis, porém informativos, de tokens mesclados ou podados. Neste artigo, propomos uma nova perspectiva que elabora Âncoras de Tokens (AOT) intraquadro e interquadro para agregar de forma abrangente os contextos informativos por meio de Transporte Ótimo local-global. Especificamente, primeiro estabelecemos âncoras de tokens com consciência local e global dentro de cada quadro sob a orientação da atenção, que então agregam, via transporte ótimo, os contextos informativos dos tokens podados, construindo âncoras de tokens intraquadro. Em seguida, com base em clipes de quadros temporais, o primeiro quadro de cada clipe é considerado como âncora de quadro-chave para agregar informações semelhantes de quadros consecutivos através do transporte ótimo, mantendo tokens distintos para representar a dinâmica temporal, levando a uma redução eficiente de tokens de forma livre de treinamento. Avaliações extensivas mostram que nossa AOT proposta obtém desempenhos competitivos em vários benchmarks de vídeos curtos e longos em VLLMs líderes, alcançando eficiência computacional substancial enquanto preserva a fidelidade temporal e visual. Página do projeto: https://tyroneli.github.io/AOT{AOT}.
O discurso de ódio subtil e indireto permanece um desafio pouco explorado na investigação sobre segurança online, particularmente quando a intenção nociva está embutida em narrativas enganosas ou manipuladoras. Os conjuntos de dados existentes sobre discurso de ódio capturam principalmente toxicidade explícita, sub-representando as formas nuances como a desinformação pode incitar ou normalizar o ódio. Para colmatar esta lacuna, apresentamos o HateMirage, um novo conjunto de dados de comentários de Faux Hate (Ódio Falso) concebido para avançar a investigação sobre raciocínio e explicabilidade do ódio emergente de narrativas falsas ou distorcidas. O conjunto de dados foi construído através da identificação de alegações de desinformação amplamente desmascaradas a partir de fontes de verificação de factos e do rastreio de discussões relacionadas no YouTube, resultando em 4.530 comentários de utilizadores. Cada comentário é anotado ao longo de três dimensões interpretáveis: Alvo (quem é afetado), Intenção (a motivação ou objetivo subjacente por trás do comentário) e Implicação (o seu potencial impacto social). Ao contrário de conjuntos de dados de explicabilidade anteriores, como o HateXplain e o HARE, que oferecem raciocínio a nível de token ou unidimensional, o HateMirage introduz uma estrutura de explicação multidimensional que capta a interação entre desinformação, dano e consequência social. Avaliamos vários modelos de linguagem de código aberto no HateMirage usando a similaridade ROUGE-L F1 e Sentence-BERT para avaliar a coerência das explicações. Os resultados sugerem que a qualidade da explicação pode depender mais da diversidade do pré-treinamento e de dados orientados para o raciocínio do que apenas da escala do modelo. Ao associar o raciocínio sobre desinformação com a atribuição de dano, o HateMirage estabelece um novo referência para a deteção de ódio interpretável e a investigação em IA responsável.
Apresenta-se um framework de código aberto em C++ para descobrir esquemas rápidos de multiplicação de matrizes utilizando a abordagem do grafo de inversão. O framework suporta múltiplos anéis de coeficientes — binário (Z_2), ternário modular (Z_3) e ternário inteiro (Z_T = {-1,0,1}) — e implementa operadores de busca de dimensão fixa e meta-dimensional. Utilizando uma codificação eficiente a nível de *bits* para vetores de coeficientes e paralelismo OpenMP, as ferramentas permitem uma exploração em larga escala em hardware convencional. O estudo abrange 680 esquemas, variando de (2 x 2 x 2) a (16 x 16 x 16), sendo 276 esquemas agora com coeficientes em Z_T e 117 com coeficientes inteiros. Com este *framework*, a complexidade multiplicativa (*rank*) é melhorada para 79 esquemas de multiplicação de matrizes. Destaca-se a descoberta de um novo esquema 4 x 4 x 10 que requer apenas 115 multiplicações, alcançando ω ≈ 2,80478 e superando o expoente de Strassen para este tamanho específico. Adicionalmente, redescobriram-se 93 esquemas em coeficientes ternários que eram previamente conhecidos apenas sobre os racionais ou inteiros, e 68 esquemas em coeficientes inteiros que anteriormente requeriam frações. Todas as ferramentas e esquemas descobertos são disponibilizados publicamente para permitir pesquisa reproduzível.
O rastreamento de raios tornou-se um padrão para a modelagem precisa de propagação de rádio, mas sofre com complexidade computacional exponencial, uma vez que o número de caminhos candidatos escala com o número de objetos elevado à potência da ordem de interação. Este gargalo limita seu uso em aplicações de larga escala ou em tempo real, forçando ferramentas tradicionais a depender de heurísticas para reduzir o número de caminhos candidatos ao custo de uma precisão potencialmente reduzida. Para superar esta limitação, propomos um framework abrangente assistido por aprendizado de máquina que substitui a busca exaustiva de caminhos por uma amostragem inteligente via Generative Flow Networks. A aplicação de tais modelos generativos neste domínio apresenta desafios significativos, particularmente recompensas esparsas devido à raridade de caminhos válidos, o que pode levar a falhas de convergência e soluções triviais ao avaliar interações de alta ordem em ambientes complexos. Para garantir um aprendizado robusto e uma exploração eficiente, nosso framework incorpora três componentes arquiteturais chave. Primeiro, implementamos um buffer de experiência (experience replay) para capturar e reter caminhos válidos raros. Segundo, adotamos uma política de exploração uniforme para melhorar a generalização e impedir que o modelo sobreajuste a geometrias simples. Terceiro, aplicamos uma estratégia de mascaramento de ações baseada em física que filtra caminhos fisicamente impossíveis antes mesmo que o modelo os considere. Como demonstrado em nossa validação experimental, o modelo proposto alcança acelerações substanciais em relação à busca exaustiva – até 10 vezes mais rápido em GPU e 1000 vezes mais rápido em CPU – mantendo alta precisão de cobertura e descobrindo com sucesso caminhos de propagação complexos. O código-fonte completo, testes e tutorial estão disponíveis em https://github.com/jeertmans/sampling-paths.
O pré-treinamento multi-domínio em grafos integra conhecimento de diversos domínios para melhorar o desempenho nos domínios-alvo, sendo crucial para a construção de modelos de base para grafos. Apesar do sucesso inicial, as soluções existentes frequentemente falham em responder a uma questão fundamental: como o conhecimento é integrado ou transferido entre domínios? Esta limitação teórica motiva-nos a repensar a consistência e a transferibilidade entre o pré-treinamento do modelo e a adaptação de domínio. Neste artigo, propomos uma nova perspetiva da geometria Riemanniana, cuja ideia central é fundir qualquer conjunto de dados de grafos numa variedade Riemanniana unificada e suave, permitindo uma compreensão sistemática da integração e transferência de conhecimento. Para alcançar isto, a nossa principal contribuição é o estabelecimento teórico da colagem de variedades neurais, que primeiro caracteriza a geometria local usando um referencial ortogonal adaptativo e depois "cola" as peças locais num todo coerente. Com base nesta teoria, apresentamos a framework GraphGlue, que suporta pré-treinamento em lote com prototipagem EMA e fornece uma medida de transferibilidade baseada na consistência geométrica. Experiências extensivas demonstram o seu desempenho superior em diversos domínios de grafos. Além disso, validamos empiricamente a lei de escalagem geométrica do GraphGlue, mostrando que quantidades maiores de conjuntos de dados melhoram a transferibilidade do modelo ao produzir uma variedade mais suave. Os códigos estão disponíveis em https://github.com/RiemannGraph/GraphGlue.