Artigos de pesquisa em IA selecionados diariamente com traduções
Os Modelos de Linguagem de Grande Porte (LLMs) alcançaram sucesso notável na compreensão de código-fonte, porém, à medida que os sistemas de software aumentam em escala, a eficiência computacional tornou-se um gargalo crítico. Atualmente, esses modelos dependem de um paradigma baseado em texto que trata o código-fonte como uma sequência linear de tokens, o que leva a um aumento linear no comprimento do contexto e nos custos computacionais associados. O rápido avanço dos LLMs Multimodais (MLLMs) introduz uma oportunidade de otimizar a eficiência representando o código-fonte como imagens renderizadas. Diferente do texto, que é difícil de comprimir sem perder significado semântico, a modalidade de imagem é intrinsecamente adequada para compressão. Ao ajustar a resolução, as imagens podem ser redimensionadas para uma fração do seu custo original em tokens, permanecendo reconhecíveis para modelos com capacidade visual. Para explorar a viabilidade dessa abordagem, realizamos o primeiro estudo sistemático sobre a eficácia dos MLLMs para compreensão de código. Nossos experimentos revelam que: (1) Os MLLMs podem compreender código efetivamente com redução substancial de tokens, alcançando até 8x de compressão; (2) Os MLLMs podem aproveitar efetivamente pistas visuais como realce de sintaxe, melhorando o desempenho de conclusão de código sob compressão de 4x; e (3) Tarefas de compreensão de código como detecção de clones exibem resiliência excepcional à compressão visual, com algumas taxas de compressão até superando ligeiramente as entradas de texto bruto. Nossas descobertas destacam tanto o potencial quanto as limitações atuais dos MLLMs na compreensão de código, apontando para uma mudança em direção à representação de código por modalidade visual como um caminho para inferência mais eficiente.
Os agentes de linguagem têm demonstrado grande potencial para a automação de tarefas. A concretização desse potencial para tarefas cada vez mais complexas e de longo horizonte impulsionou o surgimento de um paradigma de subagentes-como-ferramentas para a resolução de tarefas em múltiplos turnos. No entanto, os projetos existentes ainda carecem de uma visão de abstração dinâmica dos subagentes, prejudicando a adaptabilidade. Enfrentamos este desafio com uma abstração de agente unificada e independente de *framework*, que modela qualquer agente como uma tupla Instrução, Contexto, Ferramentas, Modelo. Esta tupla atua como uma receita composicional para capacidades, permitindo que o sistema gere executores especializados para cada tarefa sob demanda. Com base nesta abstração, introduzimos um sistema agentivo, o AOrchestra, no qual o orquestrador central concretiza a tupla a cada passo: ele seleciona o contexto relevante para a tarefa, escolhe ferramentas e modelos, e delega a execução por meio da criação automática e dinâmica de agentes. Tais projetos permitem reduzir os esforços de engenharia humana e mantêm-se independentes de *framework*, com suporte *plug-and-play* para diversos agentes como executores de tarefas. Também permite uma compensação controlável entre desempenho e custo, permitindo que o sistema se aproxime da eficiência de Pareto. Em três *benchmarks* desafiadores (GAIA, SWE-Bench, Terminal-Bench), o AOrchestra alcança uma melhoria relativa de 16,28% em relação à linha de base mais forte quando emparelhado com o Gemini-3-Flash. O código está disponível em: https://github.com/FoundationAgents/AOrchestra.
Este trabalho surge de observações complementares anteriores sobre a dinâmica da Cadeia de Pensamento (CoT): demonstra-se que os Modelos de Linguagem de Grande Escala (LLMs) realizam um planeamento latente do raciocínio subsequente antes da emergência da CoT, diminuindo assim a importância da CoT explícita; contudo, a CoT mantém-se crítica para tarefas que exigem raciocínio multi-etapas. Para aprofundar a compreensão entre os estados internos dos LLMs e as suas trajectórias de raciocínio verbalizadas, investigamos a capacidade de planeamento latente dos LLMs através do nosso método de sondagem, Tele-Lens, aplicado aos estados ocultos em diversos domínios de tarefas. Os nossos resultados empíricos indicam que os LLMs exibem um horizonte míope, realizando principalmente transições incrementais sem um planeamento global preciso. Aproveitando esta característica, propomos uma hipótese para melhorar a estimativa de incerteza da CoT, validando que um pequeno subconjunto de posições da CoT pode representar eficazmente a incerteza de todo o percurso. Salientamos ainda a importância de explorar a dinâmica da CoT e demonstramos que o reconhecimento automático do bypass da CoT pode ser alcançado sem degradação do desempenho. O nosso código, dados e modelos estão disponíveis em https://github.com/lxucs/tele-lens.
A automação da pesquisa em IA difere da engenharia de software tradicional devido à avaliação computacionalmente dispendiosa (ex: treinamento de modelos) e à atribuição de desempenho opaca. Os agentes atuais baseados em LLM enfrentam dificuldades aqui, frequentemente gerando scripts monolíticos que ignoram custos de execução e fatores causais. Apresentamos o MARS (Agente Modular com Busca Reflexiva), uma estrutura otimizada para pesquisa autônoma em IA. O MARS apoia-se em três pilares: (1) Planejamento Consciente do Orçamento via Monte Carlo Tree Search (MCTS) com restrições de custo para equilibrar explicitamente desempenho com despesa de execução; (2) Construção Modular, empregando um pipeline "Projetar-Decompor-Implementar" para gerenciar repositórios de pesquisa complexos; e (3) Memória Reflexiva Comparativa, que aborda a atribuição de crédito analisando diferenças entre soluções para destilar insights de alto sinal. O MARS alcança desempenho state-of-the-art entre estruturas de código aberto no MLE-Bench em configurações equivalentes, mantendo competitividade com os principais métodos do ranking global. Adicionalmente, o sistema exibe momentos qualitativos de "Eureka!", onde 63% de todas as lições utilizadas originam-se de transferência entre ramos, demonstrando que o agente generaliza efetivamente insights entre caminhos de busca.
Os métodos existentes para controle de movimento humano em geração de vídeo normalmente dependem de poses 2D ou modelos paramétricos 3D explícitos (por exemplo, SMPL) como sinais de controle. No entanto, as poses 2D vinculam rigidamente o movimento ao ponto de vista de controle, impedindo a síntese de novas perspectivas. Os modelos 3D explícitos, embora estruturalmente informativos, sofrem com imprecisões inerentes (por exemplo, ambiguidade de profundidade e dinâmicas imprecisas) que, quando usadas como uma restrição forte, sobrepõem a poderosa percepção 3D intrínseca dos geradores de vídeo em larga escala. Neste trabalho, revisitamos o controle de movimento a partir de uma perspectiva 3D, defendendo uma representação de movimento implícita e independente de vista que se alinha naturalmente com os priores espaciais do gerador, em vez de depender de restrições reconstruídas externamente. Apresentamos o 3DiMo, que treina conjuntamente um codificador de movimento com um gerador de vídeo pré-treinado para destilar quadros de controle em tokens de movimento compactos e independentes de vista, injetados semanticamente via atenção cruzada. Para promover a percepção 3D, treinamos com supervisão rica em vistas (ou seja, vídeos de vista única, multivista e com câmera em movimento), forçando a consistência do movimento em diversas perspectivas. Adicionalmente, usamos supervisão geométrica auxiliar que aproveita o SMPL apenas para inicialização precoce e é gradualmente reduzida a zero, permitindo que o modelo transite da orientação 3D externa para aprender uma genuína compreensão do movimento espacial 3D a partir dos dados e dos priores do gerador. Experimentos confirmam que o 3DiMo reproduz fielmente os movimentos de controle com flexível controle de câmera orientado por texto, superando significativamente os métodos existentes tanto em fidelidade de movimento quanto em qualidade visual.
Embora os modelos de linguagem de grande escala (LLMs) se destaquem em tarefas de curto prazo, dimensioná-los para fluxos de trabalho agentivos de longo horizonte continua sendo um desafio. O principal gargalo reside na escassez de dados de treinamento que capturem estruturas autênticas de longa dependência e dinâmicas evolutivas entre estágios - os métodos de síntese existentes ou se confinam a cenários de característica única limitados pela distribuição do modelo, ou incorrem em custos proibitivos de anotação humana, falhando em fornecer supervisão escalável e de alta qualidade. Nós abordamos isso ao reconceitualizar a síntese de dados através da lente da evolução de software do mundo real. Nossa principal percepção: sequências de *Pull Request* (PR) incorporam naturalmente os sinais de supervisão para aprendizado de longo horizonte. Elas decompõem objetivos complexos em unidades de submissão verificáveis, mantêm coerência funcional entre iterações e codificam padrões autênticos de refinamento através de históricos de correção de bugs. Com base nisso, propomos o *daVinci-Agency*, que minera sistematicamente a supervisão estruturada a partir de cadeias de PRs por meio de três mecanismos interligados: (1) decomposição progressiva de tarefas via *commits* contínuos, (2) imposição de consistência de longo prazo através de objetivos funcionais unificados, e (3) refinamento verificável a partir de trajetórias autênticas de correção de bugs. Diferente de trajetórias sintéticas que tratam cada etapa independentemente, a estrutura fundamentada em PRs do *daVinci-Agency* preserva inerentemente as dependências causais e os refinamentos iterativos essenciais para ensinar comportamentos persistentes direcionados a objetivos e permite um alinhamento natural com a modelagem de tarefas de ciclo completo em nível de projeto. As trajetórias resultantes são substanciais - com média de 85 mil *tokens* e 116 chamadas de ferramentas - mas notavelmente eficientes em termos de dados: o *fine-tuning* do GLM-4.6 em 239 amostras do *daVinci-Agency* produz melhorias amplas em *benchmarks*, notavelmente alcançando um ganho relativo de 47% no Toolathlon. Para além do desempenho em *benchmarks*, nossa análise confirma...
Os modelos de mundo emergiram como uma fronteira crítica na pesquisa de IA, visando aprimorar os modelos grandes ao infundir neles dinâmicas físicas e conhecimento do mundo. O objetivo central é capacitar agentes a compreender, prever e interagir com ambientes complexos. Contudo, o cenário atual de pesquisa permanece fragmentado, com abordagens predominantemente focadas na injeção de conhecimento do mundo em tarefas isoladas, como previsão visual, estimativa 3D ou fundamentação simbólica, em vez de estabelecer uma definição ou estrutura unificada. Embora essas integrações específicas por tarefa gerem ganhos de desempenho, elas frequentemente carecem da coerência sistemática necessária para uma compreensão holística do mundo. Neste artigo, analisamos as limitações de tais abordagens fragmentadas e propomos uma especificação de design unificada para modelos de mundo. Sugerimos que um modelo de mundo robusto não deve ser uma coleção solta de capacidades, mas uma estrutura normativa que incorpore integralmente interação, percepção, raciocínio simbólico e representação espacial. Este trabalho visa fornecer uma perspectiva estruturada para orientar pesquisas futuras rumo a modelos do mundo mais gerais, robustos e fundamentados em princípios.
A destilação por correspondência de distribuição (DMD) alinha um gerador de múltiplos passos com a sua contraparte de poucos passos para permitir uma geração de alta qualidade com baixo custo de inferência. No entanto, a DMD tende a sofrer de colapso modal, uma vez que a sua formulação de KL reverso incentiva inerentemente um comportamento de busca por modos, para o qual os remédios existentes normalmente dependem de regularização perceptual ou adversarial, incorrendo assim em sobrecarga computacional substancial e instabilidade no treinamento. Neste trabalho, propomos uma estrutura de destilação com papéis separados que desembaraça explicitamente as funções dos passos destilados: o primeiro passo é dedicado a preservar a diversidade de amostras através de um objetivo de predição de destino (por exemplo, predição-v), enquanto os passos subsequentes se concentram no refinamento da qualidade sob a perda padrão da DMD, com os gradientes do objetivo DMD bloqueados no primeiro passo. Denominamos esta abordagem de DMD com Diversidade Preservada (DP-DMD), que, apesar da sua simplicidade — sem rede perceptual, sem discriminador, sem redes auxiliares e sem imagens de referência adicionais — preserva a diversidade de amostras, mantendo uma qualidade visual comparável aos métodos de última geração em extensos experimentos de texto para imagem.
Os recentes avanços em grandes modelos de linguagem (LLMs) permitiram que agentes de engenharia de software enfrentassem tarefas complexas de modificação de código. A maioria das abordagens existentes depende de *feedback* de execução de ambientes conteinerizados, que exigem configuração completa de dependências e execução física de programas e testes. Embora eficaz, esse paradigma é intensivo em recursos e de difícil manutenção, complicando substancialmente o treinamento de agentes e limitando a escalabilidade. Propomos o SWE-World, uma estrutura livre de Docker que substitui ambientes de execução física por um substituto aprendido para treinar e avaliar agentes de engenharia de software. O SWE-World aproveita modelos baseados em LLM treinados em dados reais de interação agente-ambiente para prever resultados intermediários de execução e *feedback* final de testes, permitindo que os agentes aprendam sem interagir com ambientes físicos conteinerizados. Este projeto preserva o ciclo padrão de interação agente-ambiente, eliminando a necessidade de construção e manutenção dispendiosas de ambientes durante a otimização e avaliação do agente. Além disso, como o SWE-World pode simular os resultados finais de avaliação de trajetórias candidatas sem submissão real, ele permite selecionar a melhor solução entre várias tentativas no momento do teste, facilitando assim a escalabilidade efetiva no momento do teste (TTS) em tarefas de engenharia de software. Experimentos no SWE-bench Verified demonstram que o SWE-World eleva o Qwen2.5-Coder-32B de 6,2% para 52,0% via SFT livre de Docker, 55,0% com RL livre de Docker e 68,2% com TTS adicional. O código está disponível em https://github.com/RUCAIBox/SWE-World.
Neste relatório técnico, apresentamos o SWE-Master, uma estrutura de pós-treinamento de código aberto e totalmente reproduzível para a construção de agentes eficazes de engenharia de software. O SWE-Master explora sistematicamente o pipeline completo de desenvolvimento de agentes, incluindo a síntese de trajetórias de ensino e a curadoria de dados, SFT de longo horizonte, RL com feedback de execução real e o design da estrutura de inferência. Partindo de um modelo base de código aberto com capacidade inicial limitada em ES, o SWE-Master demonstra como um método de otimização sistemática pode eliciar fortes habilidades de resolução de tarefas de ES de longo horizonte. Avaliamos o SWE-Master no SWE-bench Verified, um benchmark padrão para tarefas realistas de engenharia de software. Sob configurações experimentais idênticas, nossa abordagem atinge uma taxa de resolução de 61,4% com o Qwen2.5-Coder-32B, superando substancialmente as linhas de base de código aberto existentes. Ao incorporar ainda mais a escala em tempo de teste (TTS) com feedback do ambiente baseado em LLM, o SWE-Master atinge 70,8% em TTS@8, demonstrando um forte potencial de desempenho. O SWE-Master fornece uma base prática e transparente para avançar a pesquisa reproduzível em agentes de engenharia de software. O código está disponível em https://github.com/RUCAIBox/SWE-Master.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como uma abordagem fundamental para aprimorar o raciocínio de LLMs. No entanto, estruturas padrão como a Otimização de Política de Grupo Relativo (GRPO) geralmente empregam um orçamento uniforme de *rollout*, levando à ineficiência de recursos. Além disso, os métodos adaptativos existentes frequentemente dependem de métricas no nível da instância, como taxas de aprovação de tarefas, falhando em capturar o estado dinâmico de aprendizado do modelo. Para enfrentar essas limitações, propomos o CoBA-RL, um algoritmo de aprendizado por reforço projetado para alocar orçamentos de *rollout* de forma adaptativa com base na capacidade evolutiva do modelo. Especificamente, o CoBA-RL utiliza uma função de valor orientada à capacidade para mapear tarefas aos seus ganhos potenciais de treinamento e emprega uma estratégia gulosa baseada em *heap* para autocalibrar eficientemente a distribuição de recursos computacionais para amostras com alto valor de treinamento. Experimentos extensivos demonstram que nossa abordagem orquestra eficazmente o *trade-off* entre exploração e exploração, proporcionando melhorias consistentes de generalização em vários *benchmarks* desafiadores. Esses resultados reforçam que quantificar o valor de treinamento da amostra e otimizar a alocação do orçamento são cruciais para avançar a eficiência do pós-treinamento de LLMs.
Atualmente, o treinamento e a avaliação de relatórios gerados por sistemas de DeepResearch continuam sendo um desafio devido à falta de sinais de recompensa verificáveis. Consequentemente, a avaliação baseada em rubricas tornou-se uma prática comum. No entanto, as abordagens existentes ou dependem de rubricas predefinidas e excessivamente genéricas que carecem de granularidade suficiente, ou dependem de rubricas específicas por consulta, construídas manualmente, que são dispendiosas e difíceis de escalar. Neste artigo, propomos um *pipeline* para treinar geradores de rubricas específicas por consulta, alinhadas com a preferência humana e adaptadas para a geração de relatórios de DeepResearch. Primeiro, construímos um conjunto de dados de consultas no estilo DeepResearch anotadas com preferências humanas sobre relatórios pareados, e treinamos os geradores de rubricas por meio de aprendizagem por reforço com uma recompensa híbrida que combina a supervisão da preferência humana e a avaliação de rubricas baseada em *LLMs*. Para lidar melhor com o raciocínio de longo prazo, introduzimos ainda um fluxo de trabalho baseado em Estados de Markov Multiagente (MaMs, na sigla em inglês) para a geração de relatórios. Demonstramos empiricamente que os nossos geradores de rubricas propostos fornecem uma supervisão mais discriminativa e melhor alinhada com a preferência humana do que as estratégias de design de rubricas existentes. Além disso, quando integrados no framework de treinamento MaMs, os sistemas de DeepResearch equipados com os nossos geradores de rubricas superam consistentemente todas as *baselines* de código aberto no *DeepResearch Bench* e alcançam um desempenho comparável ao dos principais modelos proprietários (*closed-source*).
O pensamento paralelo emergiu como um paradigma promissor para o raciocínio, mas impõe encargos computacionais significativos. Os métodos de eficiência existentes baseiam-se principalmente em sinais locais por trajetória e carecem de mecanismos fundamentados para explorar a dinâmica global entre ramos paralelos. Introduzimos a sondagem 2D, uma interface que expõe a dinâmica largura-profundidade do pensamento paralelo ao eliciar periodicamente respostas intermediárias de todos os ramos. Nossa análise revela três perspetivas-chave: escalabilidade não monotónica nas alocações de largura-profundidade, comprimentos heterogéneos dos ramos de raciocínio e estabilização precoce do consenso global. Guiados por essas perspetivas, introduzimos o Parallel-Probe, um controlador livre de treino concebido para otimizar o pensamento paralelo em tempo real. O Parallel-Probe emprega parada antecipada baseada em consenso para regular a profundidade do raciocínio e poda de ramos baseada em desvio para ajustar dinamicamente a largura. Experimentos extensos em três benchmarks e múltiplos modelos demonstram que o Parallel-Probe estabelece uma fronteira de Pareto superior para a escalabilidade em tempo de teste. Comparado com a votação majoritária padrão, reduz os tokens sequenciais em até 35,8% e o custo total de tokens em mais de 25,8%, mantendo uma precisão competitiva.
Os recentes avanços em modelos de recompensa multimodal (RMs) têm impulsionado significativamente o desenvolvimento da geração visual. As estruturas existentes normalmente adotam a modelagem de preferências no estilo Bradley-Terry ou aproveitam VLMs generativos como juízes, otimizando subsequentemente os modelos de geração visual por meio de aprendizado por reforço. No entanto, os RMs atuais sofrem de limitações inerentes: eles frequentemente seguem um paradigma único que assume uma distribuição de preferência monolítica ou depende de rubricas de avaliação fixas. Como resultado, são insensíveis a pistas visuais específicas do conteúdo, levando a um desalinhamento sistemático com as preferências humanas subjetivas e dependentes do contexto. Para tanto, inspirados pela avaliação humana, propomos o UnifiedReward-Flex, um modelo de recompensa personalizado e unificado para geração visual que acopla a modelagem de recompensa com um raciocínio flexível e adaptativo ao contexto. Especificamente, dado um prompt e o conteúdo visual gerado, ele primeiro interpreta a intenção semântica e se baseia em evidências visuais, depois constrói dinamicamente uma avaliação hierárquica instanciando critérios refinados sob dimensões de alto nível predefinidas e autogeradas. Nosso pipeline de treinamento segue um processo de duas etapas: (1) primeiro destilamos traços de raciocínio estruturados e de alta qualidade de VLMs avançados de código fechado para inicializar o SFT, equipando o modelo com comportamentos de raciocínio flexíveis e adaptativos ao contexto; (2) em seguida, realizamos a otimização direta de preferência (DPO) em pares de preferência cuidadosamente selecionados para fortalecer ainda mais a fidelidade do raciocínio e o alinhamento discriminativo. Para validar a eficácia, integramos o UnifiedReward-Flex na estrutura GRPO para síntese de imagem e vídeo, e resultados extensivos demonstram sua superioridade.
O reranking é um componente crítico dos sistemas modernos de recuperação, que normalmente combinam um recuperador eficiente de primeira fase com um modelo mais expressivo para refinar os resultados. Embora os grandes modelos de raciocínio tenham impulsionado avanços rápidos no reranking centrado em texto, o reranking baseado em raciocínio para recuperação de vídeo permanece pouco explorado. Para preencher esta lacuna, apresentamos o RANKVIDEO, um reranker baseado em raciocínio para recuperação de vídeo que explicitamente raciocina sobre pares consulta-vídeo usando o conteúdo do vídeo para avaliar a relevância. O RANKVIDEO é treinado usando um currículo de dois estágios consistindo em um ajuste fino supervisionado com base perceptual, seguido por um treinamento de reranking que combina objetivos pontuais, pareados e de destilação de confiança do professor, sendo apoiado por um pipeline de síntese de dados para construir pares consulta-vídeo intensivos em raciocínio. Experimentos no benchmark em larga escala MultiVENT 2.0 demonstram que o RANKVIDEO melhora consistentemente o desempenho da recuperação dentro de uma estrutura de dois estágios, produzindo uma melhoria média de 31% no nDCG@10 e superando alternativas de reranking baseadas apenas em texto e em visão-linguagem, sendo ainda mais eficiente.
Na modelagem generativa discreta, dois paradigmas dominantes demonstram capacidades divergentes: os Modelos de Linguagem de Difusão com Mascaramento (MDLM) destacam-se na compreensão semântica e generalização *zero-shot*, enquanto os Modelos de Linguagem de Difusão com Ruído Uniforme (UDLM) alcançam alta qualidade de geração em poucos passos. No entanto, nenhum deles atinge um desempenho equilibrado em ambas as dimensões. Para resolver isso, propomos o XDLM, que une os dois paradigmas por meio de um kernel de ruído estacionário. O XDLM oferece duas contribuições principais: (1) fornece uma unificação teórica fundamentada do MDLM e do UDLM, recuperando cada paradigma como um caso especial; e (2) um gargalo de memória aliviado, possibilitado por uma simplificação algébrica das probabilidades posteriores. Experimentos demonstram que o XDLM avança a fronteira de Pareto entre a capacidade de compreensão e a qualidade de geração. Quantitativamente, o XDLM supera o UDLM em 5,4 pontos em benchmarks de texto *zero-shot* e supera o MDLM na geração de imagens em poucos passos (FID 54,1 vs. 80,8). Quando dimensionado para ajustar um modelo de linguagem grande de 8 bilhões de parâmetros, o XDLM atinge 15,0 no MBPP em apenas 32 passos, efetivamente dobrando o desempenho da linha de base. Por fim, a análise da dinâmica de treinamento revela o potencial superior do XDLM para escalonamento de longo prazo. O código está disponível em https://github.com/MzeroMiko/XDLM.
O paradigma da Homotopia, um princípio geral para resolver problemas complexos, surge em diversos domínios, como optimização robusta, optimização global, determinação de raízes de polinómios e amostragem. Os solucionadores práticos para estes problemas seguem tipicamente uma estrutura de previsor-corretor (PC), mas dependem de heurísticas artesanais para tamanhos de passo e terminação de iterações, que são frequentemente subótimas e específicas da tarefa. Para resolver isto, unificamos estes problemas sob um único quadro conceptual, o que permite o projeto de um solucionador neural geral. Com base nesta visão unificada, propomos o Neural Predictor-Corrector (NPC), que substitui as heurísticas artesanais por políticas aprendidas automaticamente. O NPC formula a seleção de políticas como um problema de decisão sequencial e aproveita a aprendizagem por reforço para descobrir automaticamente estratégias eficientes. Para melhorar ainda mais a generalização, introduzimos um mecanismo de treino amortizado, permitindo um treino offline único para uma classe de problemas e uma inferência online eficiente em novas instâncias. Experiências em quatro problemas de homotopia representativos demonstram que o nosso método generaliza eficazmente para instâncias não vistas. Supera consistentemente as linhas de base clássicas e especializadas em eficiência, demonstrando simultaneamente uma estabilidade superior entre tarefas, destacando o valor da unificação dos métodos de homotopia num único quadro neural.
A inteligência de busca está evoluindo da Pesquisa Profunda para a Pesquisa Ampla, um paradigma essencial para recuperar e sintetizar informações abrangentes sob restrições complexas em paralelo. No entanto, o progresso neste campo é dificultado pela falta de benchmarks dedicados e metodologias de otimização para a amplitude da busca. Para enfrentar esses desafios, investigamos profundamente a Pesquisa Ampla a partir de duas perspectivas: Pipeline de Dados e Otimização de Agentes. Primeiro, produzimos o WideSeekBench, um benchmark de Busca Geral por Informações Amplas (GBIS) construído por meio de um rigoroso pipeline de dados multifásico para garantir diversidade em volume de informação alvo, restrições lógicas e domínios. Em segundo lugar, introduzimos o WideSeek, uma arquitetura dinâmica hierárquica de multiagentes que pode bifurcar autonomamente subagentes paralelos com base nos requisitos da tarefa. Além disso, projetamos um framework de treinamento unificado que lineariza trajetórias de multiagentes e otimiza o sistema usando RL de ponta a ponta. Resultados experimentais demonstram a eficácia do WideSeek e do RL multiagente, destacando que a escalabilidade do número de agentes é uma direção promissora para avançar o paradigma da Pesquisa Ampla.
A complexidade quadrática da atenção permanece o principal gargalo na inferência de contexto longo para grandes modelos de linguagem. Métodos de aceleração anteriores ou esparsificam o mapa de atenção com padrões estruturados ou removem permanentemente tokens em camadas específicas, o que pode reter tokens irrelevantes ou depender de decisões precoces irreversíveis, apesar da dinâmica camada-a-camada e cabeça-a-cabeça da importância dos tokens. Neste artigo, propomos a Token Sparse Attention, um mecanismo leve e dinâmico de esparsificação em nível de token que comprime Q, K, V por cabeça para um conjunto reduzido de tokens durante a atenção e, em seguida, descomprime a saída de volta para a sequência original, permitindo que a informação do token seja reconsiderada em camadas subsequentes. Além disso, a Token Sparse Attention expõe um novo ponto de projeto na interseção entre seleção de tokens e atenção esparsa. Nossa abordagem é totalmente compatível com implementações de atenção densa, incluindo o Flash Attention, e pode ser composta de forma transparente com *kernels* de atenção esparsa existentes. Resultados experimentais mostram que a Token Sparse Attention melhora consistentemente o *trade-off* entre precisão e latência, alcançando uma aceleração de atenção de até 3,23 vezes em contexto de 128K com menos de 1% de degradação de precisão. Estes resultados demonstram que a esparsificação dinâmica e intercalada em nível de token é uma estratégia complementar e eficaz para inferência escalável de contexto longo.
Os modelos de mundo de vídeo autoregressivos preveem observações visuais futuras condicionadas a ações. Embora eficazes em horizontes curtos, esses modelos frequentemente lutam com geração de longo prazo, pois pequenos erros de previsão se acumulam ao longo do tempo. Métodos anteriores aliviam isso introduzindo modelos professores pré-treinados e correspondência de distribuição em nível de sequência, o que acarreta custo computacional adicional e falha em impedir a propagação de erros além do horizonte de treinamento. Neste trabalho, propomos o LIVE, um modelo de mundo de vídeo interativo de longo horizonte que impõe acumulação de erro limitada por meio de um novo objetivo de consistência cíclica, eliminando assim a necessidade de destilação baseada em professor. Especificamente, o LIVE primeiro executa um rollout progressivo a partir de quadros de verdade fundamental e depois aplica um processo de geração reversa para reconstruir o estado inicial. A perda de difusão é subsequentemente calculada no estado terminal reconstruído, fornecendo uma restrição explícita na propagação de erro de longo prazo. Além disso, fornecemos uma visão unificada que abrange diferentes abordagens e introduzimos um currículo de treinamento progressivo para estabilizar o treinamento. Experimentos demonstram que o LIVE alcança desempenho state-of-the-art em benchmarks de longo prazo, gerando vídeos estáveis e de alta qualidade muito além dos comprimentos de rollout de treinamento.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) avançou o raciocínio de LLMs, mas permanece limitado por uma exploração ineficiente sob orçamentos limitados de rollouts, resultando em baixo sucesso de amostragem e treinamento instável em tarefas complexas. Descobrimos que muitas falhas de exploração surgem não da dificuldade do problema, mas de um pequeno número de tokens de prompt que introduzem interferência. Com base nessa percepção, propomos o Less Noise Sampling Framework (LENS), que primeiro realiza o prompt identificando e removendo tokens de interferência, depois transfere rollouts bem-sucedidos do processo de purificação para supervisionar a otimização da política nos prompts originais ruidosos, permitindo que o modelo aprenda a ignorar interferência em configurações reais de prompt ruidosas. Resultados experimentais mostram que o LENS supera significativamente o GRPO, fornecendo maior desempenho e convergência mais rápida, com um ganho médio de 3,88% e aceleração superior a 1,6 vezes. Nosso trabalho destaca o papel crítico da poda de tokens de interferência na melhoria da eficiência de rollouts, oferecendo uma nova perspectiva para a pesquisa em RLVR.
A investigação envolvendo dados sensíveis à privacidade sempre foi limitada pela escassez de dados, contrastando fortemente com outras áreas que beneficiaram da escalabilidade de dados. Este desafio torna-se cada vez mais urgente à medida que agentes de IA modernos – como o OpenClaw e o Gemini Agent – obtêm acesso persistente a informações pessoais altamente sensíveis. Para enfrentar este obstáculo antigo e os riscos crescentes, apresentamos o Privasis (ou seja, oásis de privacidade), o primeiro conjunto de dados sintético em escala milionária totalmente construído de raiz – um reservatório expansivo de textos com informações privadas ricas e diversificadas – concebido para alargar e acelerar a investigação em áreas onde o processamento de dados sociais sensíveis é inevitável. Comparado com conjuntos de dados existentes, o Privasis, que compreende 1,4 milhões de registos, oferece uma escala ordens de magnitude maior com qualidade, e uma diversidade muito superior em vários tipos de documentos, incluindo historiais médicos, documentos legais, registos financeiros, calendários e mensagens de texto, com um total de 55,1 milhões de atributos anotados, como etnia, data de nascimento, local de trabalho, etc. Aproveitamos o Privasis para construir um corpus paralelo para anonimização de texto com o nosso pipeline que decompõe textos e aplica anonimização direcionada. Os nossos modelos compactos de anonimização (<=4B) treinados neste conjunto de dados superam os modelos de linguagem grandes mais avançados, como o GPT-5 e o Qwen-3 235B. Planeamos disponibilizar dados, modelos e código para acelerar futuras investigações em domínios e agentes sensíveis à privacidade.
Auxiliar utilizadores não especializados a desenvolver sites interativos complexos tornou-se uma tarefa popular para agentes de código baseados em LLM. No entanto, os agentes de código existentes tendem a gerar apenas páginas web frontend, mascarando a falta de processamento e armazenamento de dados full-stack reais com efeitos visuais sofisticados. Notavelmente, a construção de aplicações web full-stack de nível de produção é muito mais desafiadora do que apenas gerar páginas web frontend, exigindo um controlo cuidadoso do fluxo de dados, uma compreensão abrangente de pacotes e dependências em constante atualização e uma localização precisa de erros obscuros na base de código. Para enfrentar estas dificuldades, introduzimos o FullStack-Agent, um sistema de agente unificado para codificação agentiva full-stack que consiste em três partes: (1) FullStack-Dev, uma estrutura multiagente com fortes capacidades de planeamento, edição de código, navegação na base de código e localização de erros. (2) FullStack-Learn, um método inovador de escalonamento de dados e autoaprimoramento que retro-traduz repositórios de websites rastreados e sintetizados para melhorar o LLM base do FullStack-Dev. (3) FullStack-Bench, um benchmark abrangente que testa sistematicamente as funcionalidades frontend, backend e de base de dados do website gerado. O nosso FullStack-Dev supera o método state-of-the-art anterior em 8,7%, 38,2% e 15,9% nos casos de teste frontend, backend e de base de dados, respetivamente. Adicionalmente, o FullStack-Learn aumenta o desempenho de um modelo de 30B em 9,7%, 9,5% e 2,8% nos três conjuntos de casos de teste através do autoaprimoramento, demonstrando a eficácia da nossa abordagem. O código é disponibilizado em https://github.com/mnluzimu/FullStack-Agent.
A raciocínio multimodal adaptativo emergiu como uma fronteira promissora nos Modelos de Visão e Linguagem (VLMs), visando modular dinamicamente entre o raciocínio visual aumentado por ferramentas e o raciocínio textual para melhorar tanto a eficácia quanto a eficiência. No entanto, as avaliações existentes baseiam-se em rótulos de dificuldade estáticos e métricas simplistas, que falham em capturar a natureza dinâmica da dificuldade em relação às variadas capacidades dos modelos. Consequentemente, elas obscurecem a distinção entre a seleção de modo adaptativo e o desempenho geral, enquanto negligenciam análises de processo granulares. Neste artigo, propomos o AdaptMMBench, um benchmark abrangente para o raciocínio multimodal adaptativo em cinco domínios: mundo real, OCR, GUI, conhecimento e matemática, abrangendo tanto tarefas de percepção direta quanto de raciocínio complexo. O AdaptMMBench utiliza uma métrica de Coeficiente de Correlação de Matthews (MCC) para avaliar a racionalidade da seleção de diferentes modos de raciocínio, isolando essa capacidade de metacognição ao identificar dinamicamente as dificuldades das tarefas com base nos limites de capacidade dos modelos. Além disso, o AdaptMMBench facilita a avaliação de processo multidimensional, abrangendo a cobertura de etapas-chave, a eficácia das ferramentas e a eficiência computacional. Nossa avaliação revela que, embora a seleção de modo adaptativo escale com a capacidade do modelo, ela notavelmente se dissocia da precisão final. Por outro lado, a cobertura de etapas-chave está alinhada com o desempenho, embora a eficácia das ferramentas permaneça altamente inconsistente entre as arquiteturas de modelos.
A determinação de uma mistura de dados eficaz é um fator crucial no pré-treinamento de Grandes Modelos de Linguagem (LLMs), onde os modelos devem equilibrar competência geral com proficiência em tarefas complexas, como matemática e programação. No entanto, identificar uma mistura ideal permanece um desafio em aberto, uma vez que as abordagens existentes dependem de experimentos proxy em pequena escala não confiáveis ou exigem uma exploração em larga escala proibitivamente cara. Para resolver isso, propomos o Decouple Searching from Training Mix (DeMix), uma estrutura inovadora que aproveita a fusão de modelos para prever proporções ideais de dados. Em vez de treinar modelos proxy para cada mistura amostrada, o DeMix treina modelos componentes em conjuntos de dados candidatos em escala e deriva proxies de mistura de dados por meio de fusão ponderada de modelos. Este paradigma desacopla os custos de busca dos custos de treinamento, permitindo a avaliação de misturas amostradas ilimitadas sem carga extra de treinamento e, assim, facilitando uma melhor descoberta de misturas por meio de mais tentativas de busca. Experimentos extensivos demonstram que o DeMix rompe o compromisso entre suficiência, precisão e eficiência, obtendo a mistura ideal com maior desempenho de referência a um custo de busca menor. Adicionalmente, disponibilizamos o DeMix Corpora, um conjunto abrangente de 22 trilhões de tokens composto por dados de pré-treinamento de alta qualidade com misturas validadas para facilitar a pesquisa aberta. Nosso código e o DeMix Corpora estão disponíveis em https://github.com/Lucius-lsr/DeMix.
A proliferação de modelos de linguagem de grande escala (LLMs) de contexto longo expõe um gargalo crítico: a rápida expansão da cache de chave-valor durante a decodificação, que impõe custos significativos de memória e latência. Embora abordagens recentes tentem mitigar este problema compartilhando um único conjunto de tokens cruciais entre as camadas, esse compartilhamento de granularidade grossa prejudica o desempenho do modelo ao negligenciar a diversidade funcional das cabeças de atenção. Para resolver isso, propomos o LycheeDecode, um método de decodificação eficiente centrado em um mecanismo de atenção híbrido de granularidade fina que emprega uma estratégia de seleção top-k eficiente em hardware. Especificamente, o novo mecanismo baseado em HardKuma particiona as cabeças de atenção em um pequeno subconjunto de cabeças de recuperação que identificam dinamicamente tokens cruciais e uma maioria de cabeças esparsas que os reutilizam para computação eficiente. Por meio de extensivos experimentos em modelos líderes como Llama3 e Qwen3 em diversos benchmarks para compreensão de contexto longo (por exemplo, LongBench, RULER) e raciocínio complexo (por exemplo, AIME24, OlympiadBench), demonstramos que o LycheeDecode alcança uma qualidade gerativa comparável e, por vezes, até superior à linha de base de atenção completa. Crucialmente, isso é alcançado com uma aceleração de até 2,7x em um contexto de 128K tokens. Ao preservar a diversidade funcional das cabeças de atenção, nossa estratégia de granularidade fina supera os gargalos de desempenho dos métodos existentes, fornecendo um caminho validado e robusto para uma inferência eficiente e de alta qualidade em LLMs de contexto longo.
A especialização de funções em sistemas de agentes multi-LLM é frequentemente realizada via multi-LoRA, onde os agentes compartilham uma estrutura pré-treinada e diferem apenas através de adaptadores leves. Apesar de compartilharem os pesos do modelo base, cada agente constrói e armazena independentemente seu próprio cache KV para as mesmas trajetórias longas e aumentadas por ferramentas, incorrendo em sobrecarga substancial de memória e computação. Os métodos existentes de compartilhamento de cache KV ignoram amplamente este cenário multi-LoRA. Observamos que, entre os agentes, as diferenças de cache são dominadas pelas saídas dos adaptadores, enquanto as ativações da estrutura pré-treinada compartilhada permanecem altamente similares. Com base nesta observação, propomos LRAgent, uma estrutura de compartilhamento de cache KV para agentes multi-LoRA que decompõe o cache em um componente base compartilhado (dos pesos pré-treinados) e um componente dependente do adaptador (dos pesos LoRA). O LRAgent reduz a sobrecarga de memória compartilhando o componente base e armazenando o componente do adaptador em sua forma inerentemente de baixo posto, e reduz ainda mais a sobrecarga computacional, possibilitada por arquiteturas multi-LoRA de A compartilhado, também compartilhando o cache de baixo posto e evitando computações redundantes para contextos já processados por outros agentes. Para reconstruir eficientemente as contribuições do adaptador em tempo de execução, introduzimos Flash-LoRA-Attention, um kernel que reordena o cálculo de atenção para evitar materializar o cache de baixo posto em dimensão completa. O LRAgent alcança throughput e latência do primeiro token próximos aos do cache totalmente compartilhado, enquanto preserva precisão próxima da linha de base de cache não compartilhado em benchmarks de questionamento agentico.
Compreender a cultura exige raciocínio contextual, considerando tradições e conhecimentos sociais implícitos, indo muito além da simples recordação de factos isolados. No entanto, a maioria dos benchmarks de resposta a perguntas (QA) com foco cultural baseia-se em questões de salto único, o que pode permitir que os modelos explorem pistas superficiais em vez de demonstrarem um genuíno raciocínio cultural. Neste trabalho, apresentamos o ID-MoCQA, o primeiro conjunto de dados de QA multi-salto em larga escala para avaliar a compreensão cultural de modelos de linguagem de grande escala (LLMs), fundamentado nas tradições indonésias e disponível em inglês e indonésio. Apresentamos uma nova estrutura que transforma sistematicamente questões culturais de salto único em cadeias de raciocínio multi-salto abrangendo seis tipos de pistas (ex: senso comum, temporais, geográficas). O nosso pipeline de validação em múltiplas etapas, que combina revisão por especialistas e filtragem por LLM-como-juiz, garante pares pergunta-resposta de alta qualidade. A nossa avaliação com os modelos mais avançados revela lacunas substanciais no raciocínio cultural, particularmente em tarefas que exigem inferência subtil. O ID-MoCQA constitui um benchmark desafiador e essencial para o avanço da competência cultural dos LLMs.
A capacidade de seguir modalidades refere-se à aptidão dos modelos de linguagem grandes multimodais (MLLMs) para utilizar seletivamente contextos multimodais com base nas instruções do utilizador. Esta capacidade é fundamental para garantir segurança e confiabilidade em implementações do mundo real. No entanto, os mecanismos subjacentes que governam este processo de tomada de decisão permanecem pouco compreendidos. Neste artigo, investigamos o seu mecanismo de funcionamento através da lente do fluxo de informação. As nossas descobertas revelam que os *tokens* de instrução funcionam como âncoras estruturais para a arbitragem de modalidade: as camadas de atenção superficiais realizam uma transferência de informação não seletiva, encaminhando pistas multimodais para estas âncoras como um *buffer* latente; a competição de modalidade é resolvida dentro de camadas de atenção profundas guiadas pela intenção da instrução, enquanto as camadas MLP exibem inércia semântica, atuando como uma força adversária. Adicionalmente, identificamos um conjunto esparso de cabeças de atenção especializadas que conduzem esta arbitragem. Intervenções causais demonstram que a manipulação de apenas 5% destas cabeças críticas pode diminuir a taxa de seguimento de modalidade em 60% através de bloqueio, ou aumentá-la em 60% através da amplificação direcionada de amostras com falha. O nosso trabalho representa um passo substancial em direção à transparência do modelo e oferece uma estrutura fundamentada para a orquestração de informação multimodal em MLLMs.
A raciocínio integrado à busca permite que agentes de linguagem transcendam o conhecimento paramétrico estático ao consultar ativamente fontes externas. No entanto, o treinamento desses agentes via aprendizado por reforço é dificultado pelo problema de atribuição de crédito em múltiplas escalas: os métodos existentes geralmente dependem de recompensas esparsas a nível de trajetória que não conseguem distinguir entre raciocínio de alta qualidade e palpites fortuitos, levando a comportamentos de busca redundantes ou enganosos. Para resolver isso, propomos o Search-R2, uma nova estrutura de colaboração Actor-Refiner que aprimora o raciocínio por meio de intervenção direcionada, com ambos os componentes otimizados conjuntamente durante o treinamento. Nossa abordagem decompõe o processo de geração em um Ator, que produz trajetórias de raciocínio iniciais, e um Meta-Refiner, que diagnostica e repara seletivamente etapas falhas por meio de um mecanismo de 'cortar e regenerar'. Para fornecer supervisão de granularidade fina, introduzimos um projeto de recompensa híbrida que acopla a correção do resultado com uma recompensa de processo densa que quantifica a densidade informacional da evidência recuperada. Teoricamente, formalizamos a interação Actor-Refiner como uma política de mistura suavizada, provando que a correção seletiva produz ganhos rigorosos de desempenho em relação às bases de comparação fortes. Experimentos extensos em vários conjuntos de dados de QA gerais e de múltiplos saltos demonstram que o Search-R2 supera consistentemente as bases fortes baseadas em RAG e RL em várias escalas de modelo, alcançando precisão de raciocínio superior com sobrecarga mínima.
Apresentamos o WorldVQA, um benchmark concebido para avaliar o conhecimento visual atómico do mundo real em Modelos de Linguagem Multimodais de Grande Escala (MLLMs). Ao contrário das avaliações atuais, que frequentemente confundem a recuperação de conhecimento visual com o raciocínio, o WorldVQA dissocia estas capacidades para medir rigorosamente "o que o modelo memoriza". O benchmark avalia a capacidade atómica de identificar e nomear entidades visuais numa taxonomia estratificada, que abrange desde objetos comuns de classes predominantes até raridades de cauda longa. Esperamos que o WorldVQA sirva como um teste rigoroso para a factualidade visual, estabelecendo assim um padrão para avaliar a abrangência enciclopédica e as taxas de alucinação dos modelos de fronteira atuais e da próxima geração.
À medida que os Modelos de Língua Grande (LLMs) transitam de conjuntos de treino curados para ambientes reais de implantação de natureza aberta, uma limitação fundamental emerge: o treino estático não consegue acompanhar a contínua mudança do ambiente de implantação. A escalagem da computação no momento do treino e da inferência melhora a capacidade estática, mas não fecha esta lacuna entre treino e implantação. Defendemos que abordar esta limitação requer um novo eixo de escalagem: a evolução. Os métodos existentes de adaptação em tempo de implantação, sejam através de *fine-tuning* paramétrico ou de acumulação heurística em memória, carecem da capacidade estratégica necessária para diagnosticar falhas e produzir melhorias duradouras. A nossa posição é que a evolução agentiva representa o futuro inevitável da adaptação de LLMs, elevando a própria evolução de um *pipeline* fixo para um agente evolucionário autónomo. Instanciamos esta visão num quadro geral, o A-Evolve, que trata a melhoria em tempo de implantação como um processo de otimização deliberado e orientado a objetivos sobre o estado persistente do sistema. Propomos ainda a hipótese da escalagem da evolução: a capacidade de adaptação escala com a capacidade computacional alocada para a evolução, posicionando a evolução agentiva como um caminho escalável para uma adaptação sustentada e de natureza aberta no mundo real.
Os recentes avanços nos grandes modelos de linguagem (LLMs) abriram novas vias para acelerar a pesquisa científica. Embora os modelos sejam cada vez mais capazes de auxiliar em tarefas rotineiras, a sua capacidade de contribuir para descobertas matemáticas novas e de nível especializado é menos compreendida. Apresentamos uma coleção de estudos de caso que demonstram como investigadores colaboraram com sucesso com modelos avançados de IA, especificamente os modelos baseados no Google Gemini (em particular o Gemini Deep Think e as suas variantes avançadas), para resolver problemas em aberto, refutar conjecturas e gerar novas provas em diversas áreas da ciência da computação teórica, bem como noutras áreas como economia, otimização e física. Com base nestas experiências, extraímos técnicas comuns para uma colaboração eficaz entre humanos e IA na pesquisa teórica, como o refinamento iterativo, a decomposição de problemas e a transferência de conhecimento interdisciplinar. Embora a maioria dos nossos resultados provenha desta metodologia interativa e conversacional, destacamos também casos específicos que vão além das interfaces padrão de conversação. Estes incluem a utilização do modelo como um revisor adversarial rigoroso para detetar falhas subtis em provas existentes, e a sua integração num ciclo "neuro-simbólico" que escreve e executa código de forma autónoma para verificar derivações complexas. Em conjunto, estes exemplos evidenciam o potencial da IA não apenas como uma ferramenta de automação, mas como um parceiro versátil e genuíno no processo criativo de descoberta científica.
Recentemente, tem havido um interesse significativo da pesquisa no treinamento de grandes modelos de linguagem (LLMs) com aprendizado por reforço (RL) em tarefas do mundo real, como a geração de código em múltiplas etapas. Embora o RL online tenda a ter um desempenho superior ao RL offline, seu maior custo de treinamento e instabilidade dificultam sua ampla adoção. Neste artigo, partimos da observação de que a geração de código em múltiplas etapas pode ser formulada como um processo de decisão de Markov recuperável em uma etapa e propomos o aprendizado por bandit contextual com trajetórias offline (Cobalt), um novo método que combina os benefícios do RL online e offline. O Cobalt primeiro coleta trajetórias de geração de código usando um LLM de referência e as divide em trajetórias parciais para servirem como prompts contextuais. Em seguida, durante o aprendizado online por bandit, o LLM é treinado para completar cada prompt de trajetória parcial por meio de geração de código em uma única etapa. O Cobalt supera duas linhas de base de RL online multi-etapa baseadas em GRPO e VeRPO, e melhora substancialmente os modelos R1-Distill 8B e Qwen3 8B em até 9,0 e 6,2 pontos absolutos na métrica Pass@1 no LiveCodeBench. Adicionalmente, analisamos os comportamentos de "hacking" de recompensa in-context dos LLMs e aumentamos o treinamento do Cobalt com trajetórias perturbadas para mitigar esse problema. No geral, nossos resultados demonstram o Cobalt como uma solução promissora para tarefas de tomada de decisão iterativa, como a geração de código em múltiplas etapas. Nosso código e dados estão disponíveis em https://github.com/OSU-NLP-Group/cobalt.
Alinhar objetos com descrições textuais correspondentes é um desafio fundamental e uma necessidade realista na compreensão visão-linguagem. Embora os modelos recentes de incorporação multimodal se destaquem no alinhamento global imagem-texto, eles frequentemente lutam com o alinhamento de granularidade fina entre regiões da imagem e frases específicas. Neste trabalho, apresentamos o ObjEmbed, um novo modelo de incorporação MLLM que decompõe a imagem de entrada em múltiplas incorporações regionais, cada uma correspondendo a um objeto individual, juntamente com incorporações globais. Ele suporta uma ampla gama de tarefas de compreensão visual, como *visual grounding*, recuperação de imagens locais e recuperação de imagens globais. O ObjEmbed possui três propriedades principais: (1) Representação Orientada a Objetos: Captura aspectos semânticos e espaciais dos objetos gerando duas incorporações complementares para cada região: uma incorporação de objeto para correspondência semântica e uma incorporação IoU que prevê a qualidade de localização. A pontuação final de correspondência de objetos combina similaridade semântica com o IoU previsto, permitindo uma recuperação mais precisa. (2) Versatilidade: Lida perfeitamente com tarefas em nível de região e em nível de imagem. (3) Codificação Eficiente: Todos os objetos em uma imagem, juntamente com a imagem completa, são codificados em um único *forward pass* para alta eficiência. O desempenho superior em 18 *benchmarks* diversos demonstra sua forte discriminação semântica.
Agentes autónomos alimentados por grandes modelos de linguagem (LLMs) prometem acelerar a descoberta científica de ponta a ponta, mas a avaliação rigorosa da sua capacidade para descobertas verificáveis permanece um desafio central. Os *benchmarks* existentes enfrentam um dilema: ou dependem fortemente de avaliações LLM-como-juiz de resultados de pesquisa gerados automaticamente, ou otimizam métricas de desempenho convenientes mas isoladas que fornecem *proxies* grosseiros para o discernimento científico. Para colmatar esta lacuna, introduzimos o FIRE-Bench (*Full-cycle Insight Rediscovery Evaluation*), um *benchmark* que avalia agentes através redescoberta de descobertas estabelecidas a partir de pesquisas recentes e de alto impacto em *machine learning*. Aos agentes é fornecida apenas uma questão de pesquisa de alto nível extraída de um estudo verificado e publicado, e estes devem explorar ideias, projetar experiências, implementar código, executar os seus planos e derivar conclusões suportadas por evidências empíricas de forma autónoma. Avaliamos uma variedade de agentes state-of-the-art com modelos de LLM de vanguarda, como o gpt-5, no FIRE-Bench. Os nossos resultados mostram que a investigação científica de ciclo completo permanece desafiadora para os sistemas de agentes atuais: mesmo os agentes mais fortes alcançam um sucesso limitado na redescoberta (<50 F1), exibem alta variabilidade entre execuções e demonstram modos de falha recorrentes no desenho experimental, execução e raciocínio baseado em evidências. O FIRE-Bench fornece uma estrutura rigorosa e diagnóstica para medir o progresso em direção a uma descoberta científica fiável orientada por agentes.
Compreender o funcionamento dos componentes dos transformadores em LLMs é crucial, pois está no cerne dos recentes avanços tecnológicos em inteligência artificial. Neste trabalho, revisitamos os desafios associados à interpretabilidade dos módulos *feed-forward* (FFNs) e propomos o MemoryLLM, que visa desacoplar os FFNs da auto-atenção e nos permite estudar os FFNs desacoplados como uma memória neural de recuperação *token-wise* e livre de contexto. Detalhadamente, investigamos como os *tokens* de entrada acessam locais de memória dentro dos parâmetros do FFN e a importância da memória do FFN em diferentes tarefas *downstream*. O MemoryLLM alcança FFNs livres de contexto ao treiná-los isoladamente da auto-atenção, utilizando diretamente os *embeddings* de *tokens*. Esta abordagem permite que os FFNs sejam pré-computados como pesquisas *token-wise* (ToLs), possibilitando a transferência sob demanda entre a VRAM e o armazenamento, adicionalmente melhorando a eficiência da inferência. Também introduzimos o Flex-MemoryLLM, posicionando-o entre um projeto convencional de transformador e o MemoryLLM. Esta arquitetura preenche a lacuna de desempenho causada pelo treinamento de FFNs com *embeddings token-wise* livres de contexto.
Os pequenos modelos de linguagem são cada vez mais vistos como uma abordagem promissora e económica para IA agentiva, com proponentes a afirmar que são suficientemente capazes para fluxos de trabalho agentivos. No entanto, embora agentes menores possam equiparar-se de perto a agentes maiores em tarefas simples, permanece incerto como o seu desempenho escala com a complexidade da tarefa, quando é que modelos grandes se tornam necessários e como melhor aproveitar agentes pequenos para cargas de trabalho de longo horizonte. Neste trabalho, mostramos empiricamente que o desempenho de agentes pequenos não escala com a complexidade da tarefa em tarefas de pesquisa profunda e codificação, e introduzimos Strategy Auctions for Workload Efficiency (SALE), um framework de agentes inspirado em mercados de freelancers. No SALE, os agentes licitam com planos estratégicos curtos, que são pontuados por um mecanismo sistemático de custo-valor e refinados através de uma memória de leilão partilhada, permitindo o encaminhamento por tarefa e a autoaprimoração contínua sem treinar um router separado ou executar todos os modelos até à conclusão. Em tarefas de pesquisa profunda e codificação de complexidade variada, o SALE reduz a dependência do maior agente em 53%, diminui o custo total em 35% e melhora consistentemente o pass@1 do maior agente com apenas uma sobrecarga insignificante além da execução do traço final. Em contraste, routers estabelecidos que dependem de descrições de tarefas têm desempenho inferior ao do maior agente ou não conseguem reduzir custos — frequentemente ambos — salientando a sua má adequação para fluxos de trabalho agentivos. Estes resultados sugerem que, embora agentes pequenos possam ser insuficientes para cargas de trabalho complexas, podem ser efetivamente "dimensionados" através da alocação coordenada de tarefas e da autoaprimoração em tempo de teste. Mais amplamente, motivam uma visão sistémica da IA agentiva na qual os ganhos de desempenho provêm menos de modelos individuais cada vez maiores e mais de mecanismos de coordenação inspirados no mercado que organizam agentes heterogéneos em ecossistemas eficientes e adaptativos.
A triagem pan-cancer em exames de TC de grande escala continua a ser um desafio para os métodos de IA existentes, principalmente devido à dificuldade de localizar diversos tipos de lesões minúsculas em grandes volumes de TC. O extremo desequilíbrio entre primeiro plano e fundo (foreground-background) dificulta significativamente que os modelos se concentrem nas regiões doentes, enquanto o foco redundante em regiões saudáveis não só diminui a eficiência, mas também aumenta os falsos positivos. Inspirados na estratégia de diagnóstico de "olhadela" (glance) e "foco" (focus) dos radiologistas, introduzimos o GF-Screen, uma estrutura de aprendizagem por reforço Glance and Focus para triagem pan-cancer. O GF-Screen emprega um modelo Glance para localizar as regiões doentes e um modelo Focus para segmentar precisamente as lesões, onde os resultados da segmentação do modelo Focus são utilizados para recompensar o modelo Glance através de Aprendizagem por Reforço (RL). Especificamente, o modelo Glance recorta um grupo de subvolumes de todo o volume de TC e aprende a selecionar os subvolumes com lesões para o modelo Focus segmentar. Dado que a operação de seleção não é diferenciável para o treino de segmentação, propomos empregar os resultados da segmentação para recompensar o modelo Glance. Para otimizar o modelo Glance, introduzimos um novo paradigma de aprendizagem relativa de grupo (group relative learning), que emprega a comparação relativa de grupo para priorizar previsões de alta vantagem e descartar previsões de baixa vantagem dentro de grupos de subvolumes, melhorando não só a eficiência, mas também reduzindo os falsos positivos. Desta forma, pela primeira vez, estendemos eficazmente técnicas de ponta de RL para enfrentar os desafios específicos da triagem pan-cancer. Experiências extensas em 16 conjuntos de dados internos e 7 externos, abrangendo 9 tipos de lesão, demonstraram a eficácia do GF-Screen. Notavelmente, o GF-Screen lidera a tabela de classificação de validação pública do desafio pan-cancer MICCAI FLARE25, superando a solução campeã do FLARE24 por uma grande margem (+25,6% DSC e +28,2% NSD).
A fundamentação de Interface Gráfica do Utilizador (GUI) visa traduzir instruções em linguagem natural em coordenadas de ecrã executáveis, permitindo a interação automatizada com a GUI. No entanto, uma fundamentação incorreta pode resultar em ações custosas e difíceis de reverter (por exemplo, aprovações de pagamento erróneas), levantando preocupações sobre a fiabilidade dos modelos. Neste artigo, apresentamos o SafeGround, uma estrutura consciente da incerteza para modelos de fundamentação de GUI que permite previsões conscientes do risco através de calibrações antes dos testes. O SafeGround aproveita um método de quantificação de incerteza consciente da distribuição para capturar a dispersão espacial de amostras estocásticas provenientes das saídas de qualquer modelo dado. Em seguida, através do processo de calibração, o SafeGround deriva um limiar de decisão em tempo de teste com controlo da taxa de descobertas falsas (FDR) estatisticamente garantido. Aplicamos o SafeGround em múltiplos modelos de fundamentação de GUI para o desafiante benchmark ScreenSpot-Pro. Os resultados experimentais mostram que a nossa medida de incerteza supera consistentemente as linhas de base existentes na distinção entre previsões corretas e incorretas, enquanto o limiar calibrado permite de forma fiável um controlo de risco rigoroso e o potencial de melhorias substanciais na precisão a nível do sistema. Em vários modelos de fundamentação de GUI, o SafeGround melhora a precisão a nível do sistema em até 5,38 pontos percentuais em relação à inferência apenas com o Gemini.
Os Modelos de Linguagem de Grande Porte (LLMs) e os Modelos Visão-Linguagem (VLMs) demonstraram capacidades notáveis. No entanto, a sua implantação é dificultada por custos computacionais significativos. Os métodos de poda estruturada existentes, embora eficientes em termos de hardware, frequentemente sofrem com uma degradação significativa de precisão. Neste artigo, argumentamos que esta falha decorre de uma abordagem de poda agnóstica ao estágio, que ignora os papéis assimétricos entre as fases de preenchimento prévio (prefill) e decodificação (decode). Ao introduzir um mecanismo de porta virtual, a nossa análise de importância revela que as camadas profundas são críticas para a previsão do próximo token (decode), mas são largamente redundantes para a codificação de contexto (prefill). Aproveitando esta perceção, propomos a Poda Apenas de Preenchimento Prévio (POP), uma estratégia de inferência consciente do estágio que omite com segurança as camadas profundas durante a fase computacionalmente intensiva de prefill, mantendo o modelo completo para a fase sensível de decode. Para permitir a transição entre as fases, introduzimos projeções independentes de Chave-Valor (KV) para manter a integridade da cache, e uma estratégia de tratamento de limite para garantir a precisão do primeiro token gerado. Experimentos extensivos com Llama-3.1, Qwen3-VL e Gemma-3 em diversas modalidades demonstram que o POP até 1.37 vezes de aceleração na latência de prefill com perda de desempenho mínima, superando eficazmente as limitações de compromisso precisão-eficiência dos métodos de poda estruturada existentes.
Apesar dos recentes avanços nos modelos visão-linguagem (VLMs), as abordagens existentes frequentemente falham em gerar respostas personalizadas com base nas experiências específicas do usuário, uma vez que carecem da capacidade de associar entradas visuais ao contexto visual-textual acumulado pelo usuário. Nós formalizamos este desafio como personalização visual contextualizada, que exige o reconhecimento visual e a recuperação textual de experiências visuais personalizadas pelos VLMs ao interpretar novas imagens. Para resolver esta questão, propomos o CoViP, uma estrutura unificada que trata a legendagem personalizada de imagens como uma tarefa central para a personalização visual contextualizada e aprimora esta capacidade através de pós-treinamento baseado em aprendizado por reforço e geração aumentada por legendas. Introduzimos ainda avaliações de diagnóstico que excluem explicitamente soluções por atalhos textuais e verificam se os VLMs realmente aproveitam o contexto visual. Experimentos extensivos demonstram que os VLMs proprietários e de código aberto existentes apresentam limitações substanciais, enquanto o CoViP não só melhora a legendagem personalizada de imagens, mas também produz ganhos holísticos em diversas tarefas de personalização subsequentes. Estes resultados destacam o CoViP como uma etapa crucial para viabilizar uma personalização visual contextualizada robusta e generalizável.
Neste trabalho, revisitamos a otimização de Transformadores através da lente da geometria de segunda ordem e estabelecemos uma conexão direta entre o design arquitetônico, a escala de ativação, a matriz Hessiana e a taxa de aprendizagem máxima tolerável. Introduzimos uma estratégia de normalização simples, denominada SimpleNorm, que estabiliza as escalas de ativação intermediárias por construção. Em seguida, ao analisar a Hessiana da perda em relação às ativações da rede, demonstramos teoricamente que o SimpleNorm reduz significativamente a norma espectral da Hessiana, permitindo assim taxas de aprendizagem estáveis maiores. Validamos nossas descobertas teóricas por meio de extensivos experimentos em grandes modelos GPT nas escalas de parâmetros de 1B, 1,4B, 7B e 8B. Empiricamente, o SimpleGPT, nossa rede baseada em SimpleNorm, tolera taxas de aprendizagem 3 a 10 vezes maiores do que o padrão convencional, demonstra consistentemente forte estabilidade de otimização e alcança desempenho substancialmente melhor do que as linhas de base consolidadas. Especificamente, ao treinar modelos de escala 7B por 60K etapas, o SimpleGPT alcança uma perda de treinamento 0,08 menor do que a do LLaMA2 com QKNorm, reduzindo a perda de 2,290 para 2,208. Nosso código-fonte será liberado em https://github.com/Ocram7/SimpleGPT.
A reconhecimento facial com preservação de privacidade baseado em transformação (PPFR) visa verificar identidades enquanto oculta dados faciais de atacantes e provedores de serviços maliciosos. As avaliações existentes tratam a privacidade principalmente como resistência à reconstrução em nível de pixel, medida por PSNR e SSIM. Demonstramos que esta visão centrada na reconstrução é falha. Apresentamos o FaceLinkGen, um ataque de extração de identidade que realiza vinculação/comparação e regeneração facial diretamente a partir de templates protegidos, sem recuperar os pixels originais. Em três sistemas PPFR recentes, o FaceLinkGen alcança mais de 98,5% de precisão na comparação e acima de 96% de sucesso na regeneração, mantendo ainda mais de 92% na comparação e 94% na regeneração em um cenário de conhecimento quase zero. Estes resultados expõem uma lacuna estrutural entre as métricas de distorção de pixel, amplamente utilizadas na avaliação de PPFR, e a privacidade real. Demonstramos que a ofuscação visual deixa as informações de identidade amplamente expostas tanto a intrusos externos quanto a provedores de serviços não confiáveis.
Com o advento dos Modelos de Linguagem de Grande Porte (LLMs), os agentes de propósito geral registaram avanços fundamentais. No entanto, a avaliação destes agentes apresenta desafios únicos que os distinguem dos benchmarks estáticos de Perguntas e Respostas (QA). Observamos que os benchmarks atuais para agentes estão fortemente confundidos por fatores extrínsecos, incluindo instruções de sistema (prompts), configurações de conjuntos de ferramentas e dinâmicas ambientais. As avaliações existentes frequentemente dependem de estruturas fragmentadas e específicas de cada investigador, nas quais a engenharia de prompts para raciocínio e uso de ferramentas varia significativamente, dificultando a atribuição de ganhos de desempenho ao próprio modelo. Adicionalmente, a falta de dados ambientais padronizados leva a erros não rastreáveis e resultados não reproduzíveis. Esta falta de padronização introduz uma injustiça e opacidade substanciais no campo. Propomos que uma estrutura de avaliação unificada é essencial para o avanço rigoroso da avaliação de agentes. Para este fim, introduzimos uma proposta destinada a padronizar a avaliação de agentes.
A segmentação de imagens médicas está evoluindo de modelos específicos para tarefas em direção a frameworks generalizáveis. Pesquisas recentes utilizam Modelos de Linguagem Multimodais de Grande Escala (MLLMs) como agentes autônomos, empregando aprendizado por reforço com recompensa verificável (RLVR) para orquestrar ferramentas especializadas como o Segment Anything Model (SAM). No entanto, essas abordagens frequentemente dependem de estratégias de interação rígidas e de turno único e carecem de supervisão em nível de processo durante o treinamento, o que limita sua capacidade de explorar todo o potencial dinâmico das ferramentas interativas e leva a ações redundantes. Para preencher essa lacuna, propomos o MedSAM-Agent, um framework que reformula a segmentação interativa como um processo de tomada de decisão autônoma em múltiplas etapas. Primeiro, introduzimos uma estratégia de prompting híbrida para a geração de trajetórias curadas por especialistas, permitindo que o modelo internalize heurísticas de decisão semelhantes às humanas e estratégias de refinamento adaptativo. Além disso, desenvolvemos um pipeline de treinamento em dois estágios que integra verificação de resultado multi-turno de ponta a ponta com um desenho de recompensa de processo com fidelidade clínica para promover a parcimônia na interação e a eficiência decisória. Experimentos extensos em 6 modalidades médicas e 21 conjuntos de dados demonstram que o MedSAM-Agent alcança desempenho state-of-the-art, unificando efetivamente o raciocínio médico autônomo com uma otimização iterativa e robusta. O código está disponível {aqui}(https://github.com/CUHK-AIM-Group/MedSAM-Agent).
A melhoria das capacidades de raciocínio de grandes modelos de linguagem (LLMs) normalmente depende da capacidade do modelo de amostrar uma solução correta para ser reforçada ou da existência de um modelo mais forte capaz de resolver o problema. No entanto, muitos problemas difíceis permanecem intratáveis mesmo para os modelos de fronteira atuais, impedindo a extração de sinais de treinamento válidos. Uma alternativa promissora é aproveitar soluções humanas especializadas de alta qualidade, mas a imitação ingênua desses dados falha porque está fundamentalmente fora da distribuição: as soluções especializadas são tipicamente didáticas, contendo lacunas de raciocínio implícitas destinadas a leitores humanos e não a modelos computacionais. Além disso, soluções especializadas de alta qualidade são caras, necessitando de métodos de treinamento generalizáveis e eficientes em amostras. Propomos o Aprendizado por Imitação com Alinhamento Distribucional (DAIL), um método em duas etapas que preenche a lacuna distribucional, primeiro transformando as soluções especializadas em traços de raciocínio detalhados e dentro da distribuição e, em seguida, aplicando um objetivo contrastivo para focar a aprendizagem nos insights e metodologias especializados. Verificamos que o DAIL pode aproveitar menos de 1000 soluções especializadas de alta qualidade para alcançar ganhos de 10-25% em pass@k nos modelos Qwen2.5-Instruct e Qwen3, melhorar a eficiência do raciocínio em 2x a 4x e permitir a generalização fora do domínio.
Os sistemas de recomendação multimodal normalmente integram o comportamento do utilizador com dados multimodais dos itens, capturando assim preferências do utilizador mais precisas. Simultaneamente, com a ascensão dos grandes modelos (LMs), a recomendação multimodal está a aproveitar cada vez mais os seus pontos fortes na compreensão semântica e no raciocínio contextual. No entanto, as representações dos LMs são inerentemente otimizadas para tarefas semânticas gerais, enquanto os modelos de recomendação dependem fortemente de características esparsas de identidade única (ID) do utilizador/item. Os trabalhos existentes ignoram a divergência representacional fundamental entre os grandes modelos e os sistemas de recomendação, resultando em representações multimodais incompatíveis e desempenho de recomendação subótimo. Para colmatar esta lacuna, propomos o RecGOAT, um novo e simples quadro de alinhamento semântico dual para recomendação multimodal potenciada por LLM, que oferece capacidade de alinhamento com garantia teórica. O RecGOAT emprega primeiro redes de atenção em grafos para enriquecer a semântica colaborativa, modelando relações item-item, utilizador-item e utilizador-utilizador, aproveitando as representações LM do utilizador/item e o histórico de interações. Além disso, concebemos um quadro de alinhamento multimodalidade-ID progressivo de dupla granularidade, que alcança o alinhamento semântico a nível de instância e a nível de distribuição através da aprendizagem contrastiva cross-modal (CMCL) e do transporte adaptativo ótimo (OAT), respetivamente. Teoricamente, demonstramos que as representações unificadas derivadas do nosso quadro de alinhamento exibem consistência e abrangência semântica superiores. Experiências extensas em três benchmarks públicos mostram que o nosso RecGOAT alcança um desempenho state-of-the-art, validando empiricamente as nossas perspetivas teóricas. Adicionalmente, a implementação numa plataforma de publicidade online de grande escala confirma a eficácia e escalabilidade do modelo em cenários de recomendação industrial. Código disponível em https://github.com/6lyc/RecGOAT-LLM4Rec.
As relações entre objetos e linguagem são fundamentais para uma comunicação significativa entre humanos e IA, e para uma inteligência incorporada praticamente útil. Apresentamos o HieraNav, uma tarefa de navegação para objetivos com vocabulário livre e múltiplas granularidades, na qual os agentes interpretam instruções em linguagem natural para alcançar alvos em quatro níveis semânticos: cena, sala, região e instância. Para isso, apresentamos o Language as a Map (LangMap), um benchmark de larga escala construído a partir de digitalizações 3D internas do mundo real, com anotações abrangentes verificadas por humanos e tarefas que abrangem esses níveis. O LangMap fornece rótulos de região, descrições de região discriminativas, descrições de instância discriminativas abrangendo 414 categorias de objetos e mais de 18 mil tarefas de navegação. Cada alvo apresenta descrições concisas e detalhadas, permitindo a avaliação em diferentes estilos de instrução. O LangMap alcança uma qualidade de anotação superior, superando o GOAT-Bench em 23,8% em precisão discriminativa usando quatro vezes menos palavras. Avaliações abrangentes de modelos *zero-shot* e supervisionados no LangMap revelam que um contexto e uma memória mais ricos melhoram o sucesso, enquanto objetivos de cauda longa, pequenos, dependentes de contexto e distantes, bem como a conclusão de múltiplos objetivos, permanecem desafiadores. O HieraNav e o LangMap estabelecem um ambiente de teste rigoroso para o avanço da navegação incorporada orientada por linguagem. Projeto: https://bo-miao.github.io/LangMap
As interfaces clínicas cérebro-texto são projetadas para pacientes paralisados que não podem fornecer gravações extensas de treinamento. O pré-treinamento melhora a generalização com uso eficiente de dados ao aprender prioridades estatísticas entre sujeitos, mas essas prioridades dependem criticamente do contexto. Embora a fala natural possa se desenrolar gradualmente ao longo de minutos, a maioria dos métodos utiliza pré-treinamento com apenas alguns segundos de contexto. Assim, propomos o MEG-XL, um modelo pré-treinado com 2,5 minutos de contexto de MEG por amostra, 5 a 300 vezes maior que trabalhos anteriores, equivalente a 191 mil tokens, capturando contexto neural estendido. Ao ajustar fino na tarefa de decodificação de palavras a partir de dados cerebrais, o MEG-XL iguala o desempenho supervisionado com uma fração dos dados (ex: 1h vs 50h) e supera modelos base de fundação cerebral. Descobrimos que modelos pré-treinados com contextos mais longos aprendem representações que transferem melhor para a decodificação de palavras. Nossos resultados indicam que o pré-treinamento de longo contexto ajuda a explorar contextos neurais estendidos que outros métodos descartam desnecessariamente. Código, pesos do modelo e instruções estão disponíveis em https://github.com/neural-processing-lab/MEG-XL.
Um feedback de alta qualidade é essencial para uma interação eficaz entre humanos e IA. Ele preenche lacunas de conhecimento, corrige divagações e molda o comportamento do sistema, tanto durante a interação quanto ao longo do desenvolvimento do modelo. No entanto, apesar de sua importância, o feedback humano para a IA é frequentemente esporádico e de baixa qualidade. Esta lacuna motiva um exame crítico do feedback humano durante as interações com sistemas de IA. Para compreender e superar os desafios que impedem os utilizadores de fornecerem um feedback de alta qualidade, realizámos dois estudos que examinam a dinâmica do feedback entre humanos e agentes conversacionais (AC). O nosso estudo formativo, através da lente dos máximas de Grice, identificou quatro Barreiras ao Feedback — Base Comum, Verificabilidade, Comunicação e Informatividade — que impedem os utilizadores de fornecerem um feedback de alta qualidade. Com base nestas descobertas, derivamos três desideratos de design e demonstramos que sistemas que incorporam suportes alinhados com estes desideratos permitiram que os utilizadores fornecessem um feedback de qualidade superior. Por fim, detalhamos um apelo à ação para a comunidade mais ampla de IA, no sentido de avanços nas capacidades dos Modelos de Linguagem de Grande Escala para superar as Barreiras ao Feedback.
Muitos sistemas de aprendizado de máquina têm acesso a múltiplas fontes de evidência para o mesmo alvo de predição, mas essas fontes frequentemente diferem em confiabilidade e informatividade entre as entradas. Na classificação bioacústica, a identidade da espécie pode ser inferida tanto a partir do sinal acústico quanto do contexto espaço-temporal, como localização e estação do ano; embora a inferência bayesiana motive a combinação multiplicativa de evidências, na prática geralmente temos acesso apenas a preditores discriminativos em vez de modelos generativos calibrados. Apresentamos o Fusion under INdependent Conditional Hypotheses (FINCH), uma estrutura adaptativa de fusão de evidências log-linear que integra um classificador de áudio pré-treinado com um preditor espaço-temporal estruturado. O FINCH aprende uma função de gateamento por amostra que estima a confiabilidade da informação contextual a partir de estatísticas de incerteza e informatividade. A família de fusão resultante contém o classificador apenas de áudio como um caso especial e limita explicitamente a influência da evidência contextual, produzindo uma classe de hipóteses com risco contido e um fallback interpretável apenas de áudio. Em benchmarks, o FINCH supera consistentemente a fusão de pesos fixos e as linhas de base apenas de áudio, melhorando a robustez e os trade-offs de erro mesmo quando a informação contextual é fraca isoladamente. Alcançamos desempenho de última geração no CBI e desempenho competitivo ou melhorado em vários subconjuntos do BirdSet usando uma abordagem leve, interpretável e baseada em evidências. Código disponível: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md{repositório-anônimo}}
O cache de Chave-Valor (KV) dos Modelos de Linguagem de Grande Porte (LLMs) é baseado em prefixos, tornando-o altamente ineficiente para processar contextos recuperados em ordem arbitrária. O Cache Independente de Posição (PIC) foi proposto para permitir a reutilização do KV sem restrições posicionais; no entanto, as abordagens existentes frequentemente incorrem em degradação substancial de precisão, limitando sua adoção prática. Para resolver este problema, propomos o PIC nativo ao reintroduzir o *encoder* aos LLMs somente-decodificador predominantes e explicitamente treiná-lo para suportar PIC. Desenvolvemos ainda o COMB, um sistema de cache consciente de PIC que se integra perfeitamente com *frameworks* de inferência existentes. Resultados experimentais mostram que o COMB reduz o Tempo-para-Primeiro-*Token* (TTFT) em 51-94% e aumenta a taxa de transferência em 3 vezes com precisão comparável. Adicionalmente, a melhoria de qualidade ao usar o DeepSeek-V2-Lite-Chat demonstra a aplicabilidade do COMB a outros tipos de LLMs somente-decodificador. Nosso código está disponível em https://github.com/shijuzhao/Comb.