Artigos de pesquisa em IA selecionados diariamente com traduções
Apesar do sucesso da aprendizagem por reforço para modelos de linguagem de grande escala, um modo de falha comum é a redução da diversidade na amostragem, em que a política gera repetidamente comportamentos erróneos semelhantes. A clássica regularização de entropia incentiva a aleatoriedade sob a política atual, mas não desencoraja explicitamente padrões de falha recorrentes ao longo das execuções. Propomos o MEDS, uma estrutura de Moldagem Dinâmica de Recompensa com Memória Aprimorada que incorpora sinais comportamentais históricos no desenho de recompensas. Ao armazenar e alavancar representações intermediárias do modelo, capturamos características de execuções passadas e usamos agrupamento baseado em densidade para identificar padrões de erro que se repetem frequentemente. Execuções atribuídas a clusters de erro mais prevalentes são penalizadas mais severamente, incentivando uma exploração mais ampla enquanto reduz erros repetidos. Em cinco conjuntos de dados e três modelos base, o MEDS melhora consistentemente o desempenho médio em relação às linhas de base existentes, alcançando ganhos de até 4,13 pontos em pass@1 e 4,37 pontos em pass@128. Análises adicionais usando tanto anotações baseadas em LLM quanto métricas de diversidade quantitativas mostram que o MEDS aumenta a diversidade comportamental durante a amostragem.
Os Grandes Modelos de Linguagem (LLMs) são cada vez mais utilizados para geração de código, mas a geração de código quântico ainda é avaliada maioritariamente no âmbito de *frameworks* individuais, dificultando a separação do raciocínio quântico da familiaridade com o *framework*. Apresentamos o QuanBench+, um *benchmark* unificado que abrange Qiskit, PennyLane e Cirq, com 42 tarefas alinhadas que cobrem algoritmos quânticos, decomposição de portas e preparação de estados. Avaliamos os modelos com testes funcionais executáveis, reportamos Pass@1 e Pass@5, e utilizamos uma aceitação baseada em divergência KL para saídas probabilísticas. Estudamos adicionalmente o Pass@1 após reparação baseada em *feedback*, onde um modelo pode rever o código após um erro de execução ou resposta incorreta. Entre os *frameworks*, as pontuações mais fortes de uma única tentativa atingem 59,5% no Qiskit, 54,8% no Cirq e 42,9% no PennyLane; com a reparação baseada em *feedback*, as melhores pontuações sobem para 83,3%, 76,2% e 66,7%, respetivamente. Estes resultados mostram um progresso claro, mas também que a geração fiável de código quântico multi-*framework* permanece por resolver e ainda depende fortemente de conhecimento específico de cada *framework*.
Como arquitetura fundamental do aprendizado de máquina moderno, os Transformers têm impulsionado progressos notáveis em diversos domínios da IA. Apesar de seu impacto transformador, um desafio persistente em várias arquiteturas Transformer é o Fenômeno de Atenção Residual (FAR), no qual uma quantidade desproporcional de atenção é concentrada em um pequeno subconjunto de tokens específicos, porém não informativos. O FAR complica a interpretabilidade, afeta significativamente a dinâmica de treinamento e inferência, e exacerba problemas como alucinações. Nos últimos anos, pesquisas substanciais têm se dedicado a compreender e aproveitar o FAR. No entanto, ainda falta um survey abrangente que consolide sistematicamente as pesquisas relacionadas ao FAR e ofereça orientações para avanços futuros. Para preencher essa lacuna, apresentamos o primeiro survey sobre FAR, estruturado em torno de três dimensões-chave que definem o panorama atual da pesquisa: Utilização Fundamental, Interpretação Mecanicista e Mitigação Estratégica. Nosso trabalho fornece uma contribuição pivotal ao esclarecer conceitos-chave e guiar pesquisadores através da evolução e tendências do campo. Vislumbramos este survey como um recurso definitivo, capacitando pesquisadores e profissionais a gerenciar efetivamente o FAR dentro do paradigma Transformer atual, enquanto inspira avanços inovadores para a próxima geração de Transformers. A lista de artigos deste trabalho está disponível em https://github.com/ZunhaiSu/Awesome-Attention-Sink.
Neste trabalho, estudamos a Geração de Vídeos de Interação Humano-Objeto (HOIVG), que visa sintetizar vídeos de alta qualidade de interações humano-objeto condicionados por texto, imagens de referência, áudio e pose. Esta tarefa possui um valor prático significativo para a automação da criação de conteúdo em aplicações do mundo real, como demonstrações de e-commerce, produção de vídeos curtos e entretenimento interativo. No entanto, as abordagens existentes não conseguem acomodar todas essas condições necessárias. Apresentamos o OmniShow, uma estrutura end-to-end desenvolvida para esta tarefa prática mas desafiadora, capaz de harmonizar condições multimodais e oferecer desempenho de nível industrial. Para superar o compromisso entre controlabilidade e qualidade, introduzimos o Condicionamento Unificado por Canal para injeção eficiente de imagem e pose, e a Atenção com Porta para Contexto Local para garantir uma sincronização áudio-visual precisa. Para abordar eficazmente a escassez de dados, desenvolvemos uma estratégia de Treinamento Desacoplado-e-Depois-Conjunto que aproveita um processo de treinamento multiestágio com fusão de modelos para utilizar eficientemente conjuntos de dados heterogéneos de subtarefas. Adicionalmente, para preencher a lacuna de avaliação neste campo, estabelecemos o HOIVG-Bench, um benchmark dedicado e abrangente para HOIVG. Experimentos extensivos demonstram que o OmniShow alcança um desempenho geral state-of-the-art em várias configurações de condicionamento multimodal, estabelecendo um padrão sólido para a emergente tarefa de HOIVG.
Os avanços recentes em transformadores autorregressivos demonstraram um potencial notável para gerar malhas de qualidade profissional. No entanto, as estratégias de ordenação de *tokens* empregadas pelos métodos existentes geralmente não atendem aos padrões dos artistas, em que a ordenação baseada em coordenadas gera sequências ineficientemente longas, e as heurísticas baseadas em *patches* perturbam o fluxo contínuo de arestas e a regularidade estrutural essenciais para uma modelagem de alta qualidade. Para superar essas limitações, propomos o *Strips as Tokens* (SATO), uma nova estrutura com uma estratégia de ordenação de *tokens* inspirada em *triangle strips*. Ao construir a sequência como uma cadeia conectada de faces que codifica explicitamente os limites UV, nosso método preserva naturalmente o fluxo organizado de arestas e o *layout* semântico característicos das malhas criadas por artistas. Uma vantagem fundamental desta formulação é sua representação unificada, permitindo que a mesma sequência de *tokens* seja decodificada em uma malha triangular ou quadrangular. Esta flexibilidade facilita o treinamento conjunto em ambos os tipos de dados: dados triangulares em larga escala fornecem *priors* estruturais fundamentais, enquanto dados quadrangulares de alta qualidade melhoram a regularidade geométrica das saídas. Experimentos extensivos demonstram que o SATO supera consistentemente os métodos anteriores em termos de qualidade geométrica, coerência estrutural e segmentação UV.
Os modelos multimodais unificados que integram compreensão e geração visual enfrentam um desafio fundamental: a geração visual incorre em custos computacionais substancialmente mais elevados do que a compreensão, particularmente para vídeo. Este desequilíbrio motiva-nos a inverter o paradigma convencional: em vez de estender MLLMs centrados na compreensão para suportar geração, propomos Uni-ViGU, uma estrutura que unifica geração e compreensão de vídeo estendendo um gerador de vídeo como base. Introduzimos um método de fluxo unificado que executa correspondência de fluxo contínuo para vídeo e correspondência de fluxo discreto para texto num único processo, permitindo geração multimodal coerente. Propomos ainda uma estrutura baseada em MoE orientada por modalidade que aumenta os blocos Transformer com camadas leves para geração de texto, preservando prioridades generativas. Para redirecionar o conhecimento de geração para compreensão, concebemos um mecanismo de treino bidirecional com duas fases: o Relembrar de Conhecimento reconstrói os prompts de entrada para alavancar correspondências texto-vídeo aprendidas, enquanto o Refinamento de Capacidade afina em legendas detalhadas para estabelecer representações partilhadas discriminativas. Experiências demonstram que o Uni-ViGU alcança desempenho competitivo tanto em geração quanto em compreensão de vídeo, validando arquiteturas centradas na geração como um caminho escalável para inteligência multimodal unificada. Página do Projeto e Código: https://fr0zencrane.github.io/uni-vigu-page/.
Os recentes avanços em modelos multimodais têm impulsionado progressos rápidos na compreensão, geração e edição de áudio. No entanto, essas capacidades são normalmente abordadas por modelos especializados, deixando o desenvolvimento de uma estrutura verdadeiramente unificada que possa integrar perfeitamente as três tarefas pouco explorado. Embora alguns trabalhos pioneiros tenham explorado a unificação da compreensão e geração de áudio, eles frequentemente permanecem confinados a domínios específicos. Para resolver isso, apresentamos o Audio-Omni, a primeira estrutura *end-to-end* a unificar a geração e edição nos domínios gerais de som, música e fala, com capacidades integradas de compreensão multimodal. Nossa arquitetura sinergiza um Modelo de Linguagem Grande Multimodal congelado para raciocínio de alto nível com um *Diffusion Transformer* treinável para síntese de alta fidelidade. Para superar a escassez crítica de dados em edição de áudio, construímos o AudioEdit, um novo conjunto de dados em larga escala que compreende mais de um milhão de pares de edição meticulosamente curados. Experimentos extensivos demonstram que o Audio-Omni alcança desempenho de ponta em uma suíte de benchmarks, superando abordagens unificadas anteriores enquanto atinge um desempenho equivalente ou superior a modelos especialistas. Além de suas capacidades principais, o Audio-Omni exibe notáveis capacidades herdadas, incluindo geração de raciocínio aumentado por conhecimento, geração em contexto e controle *zero-shot* cross-lingual para geração de áudio, destacando uma direção promissora rumo a uma inteligência de áudio generativa universal. O código, modelo e conjunto de dados serão publicamente lançados em https://zeyuet.github.io/Audio-Omni.
Os agentes de código estão avançando rapidamente, mas a depuração deles está se tornando cada vez mais difícil. À medida que os frameworks orquestram chamadas paralelas de ferramentas e fluxos de trabalho multiestágio em tarefas complexas, as transições de estado do agente e a propagação de erros tornam-se difíceis de observar. Nessas execuções, um passo em fogo inicial pode prender o agente em loops improdutivos ou mesmo desencadear erros fundamentais, formando cadeias de erros ocultas que dificultam a identificação de quando e por que o agente saiu do rumo. As análises de rastreamento de agentes existentes focam-se em interações simples ou dependem de inspeção manual em pequena escala, o que limita sua escalabilidade e utilidade para fluxos de trabalho reais de codificação. Apresentamos o CodeTracer, uma arquitetura de rastreamento que analisa artefatos de execução heterogéneos através de extratores em evolução, reconstrói o histórico completo de transições de estado como uma árvore de rastreamento hierárquica com memória persistente e realiza a localização do início da falha para identificar a origem da falha e sua cadeia descendente. Para permitir uma avaliação sistemática, construímos o CodeTraceBench a partir de uma grande coleção de trajetórias executadas geradas por quatro frameworks de agentes de código amplamente utilizados em diversas tarefas de código (por exemplo, correção de bugs, refatoração e interação com terminal), com supervisão tanto a nível de estágio quanto de etapa para localização de falhas. Os experimentos mostram que o CodeTracer supera substancialmente o *prompting* direto e as *baselines* leves, e que a reprodução dos seus sinais de diagnóstico recupera consistentemente execuções originalmente falhadas sob orçamentos equivalentes. O nosso código e dados estão publicamente disponíveis.
Os modelos multimodais unificados (UMMs) foram concebidos para combinar a capacidade de raciocínio dos grandes modelos de linguagem (LLMs) com a capacidade de geração dos modelos de visão. Na prática, no entanto, essa sinergia permanece ilusória: os UMMs não conseguem transferir o raciocínio semelhante ao dos LLMs para a síntese de imagens e exibem comportamentos de resposta divergentes. Denominamos este fenômeno de pseudo-unificação. Diagnosticar suas causas internas é importante, mas os métodos de sondagem existentes ou carecem de perspetiva interna do modelo ou ignoram as dependências entre *prompt* e resposta. Para superar estas limitações, propomos uma estrutura de sondagem baseada na teoria da informação que analisa conjuntamente como os UMMs codificam os *inputs* e geram os *outputs*. Aplicada a dez UMMs representativos, nossa estrutura revela que a pseudo-unificação decorre de uma divergência dual: (i) Codificação Modo-Assimétrica, onde a visão e a linguagem seguem trajetórias de entropia diferentes, e (ii) Resposta de Padrão Dividido, onde a geração de texto exibe criatividade de alta entropia, enquanto a síntese de imagem impõe uma fidelidade de baixa entropia. Apenas os modelos que unificam ambos os lados (por exemplo, via predição contextual) alcançam uma unificação mais genuína, permitindo uma geração de texto para imagem baseada em raciocínio mais forte, mesmo com menos parâmetros. O nosso trabalho fornece a primeira sondagem interna do modelo sobre a unificação, demonstrando que a verdadeira sinergia multimodal requer consistência no fluxo de informação, e não apenas parâmetros partilhados.
Os agentes de LLM atualmente apresentam desempenho robusto em engenharia de software, pesquisa aprofundada, automação de interface gráfica e várias outras aplicações, enquanto arcabouços e modelos de agentes recentes integram cada vez mais essas capacidades em sistemas unificados. No entanto, a maioria das avaliações ainda testa essas capacidades de forma isolada, o que deixa uma lacuna para casos de uso mais diversificados que exigem que os agentes combinem diferentes habilidades. Apresentamos o CocoaBench, um benchmark para agentes digitais unificados, construído a partir de tarefas de longo horizonte projetadas por humanos que exigem a composição flexível de visão, pesquisa e codificação. As tarefas são especificadas apenas por uma instrução e uma função de avaliação automática sobre a saída final, permitindo uma avaliação confiável e escalável em diversas infraestruturas de agentes. Também apresentamos o CocoaAgent, um arcabouço compartilhado leve para comparação controlada entre modelos base. Experimentos mostram que os agentes atuais ainda estão longe de serem confiáveis no CocoaBench, com o melhor sistema avaliado alcançando apenas 45,1% de taxa de sucesso. Nossa análise aponta ainda para uma margem substancial de melhoria no raciocínio e planejamento, no uso e execução de ferramentas e na fundamentação visual.
Apresentamos o Audio Flamingo Next (AF-Next), a grande modelo de áudio e linguagem de próxima geração e mais capaz da série Audio Flamingo, concebido para avançar a compreensão e o raciocínio sobre fala, sons ambientais e música. Em comparação com o Audio Flamingo 3, o AF-Next introduz: (i) um modelo base de áudio e linguagem mais robusto que melhora significativamente a precisão em diversas tarefas de compreensão de áudio; (ii) estratégias escaláveis para a construção de dados de compreensão e raciocínio de áudio em larga escala, para além dos benchmarks académicos existentes; (iii) suporte para entradas de áudio longas e complexas de até 30 minutos; e (iv) o *Temporal Audio Chain-of-Thought*, um novo paradigma de raciocínio que ancora explicitamente as etapas intermédias de raciocínio a *timestamps* no áudio longo, permitindo um alinhamento temporal de granularidade fina e uma melhor interpretabilidade. Para possibilitar estas capacidades, começámos por realizar uma análise sistemática do Audio Flamingo 3 para identificar lacunas-chave na compreensão e no raciocínio de áudio. De seguida, curamos e dimensionamos novos conjuntos de dados em larga escala, totalizando mais de 1 milhão de horas, para superar estas limitações e expandir os conjuntos de dados existentes AudioSkills-XL, LongAudio-XL, AF-Think e AF-Chat. O AF-Next foi treinado usando uma estratégia baseada em currículo, abrangendo fases de pré-treinamento, meio-treinamento e pós-treinamento. Experiências extensas em 20 benchmarks de compreensão e raciocínio de áudio, incluindo tarefas desafiadoras de áudio longo, mostram que o AF-Next supera modelos abertos de dimensão semelhante por largas margens e mantém-se altamente competitivo, por vezes superando, modelos abertos com pesos (*open-weight*) e modelos fechados (*closed*) muito maiores. Para além do desempenho em benchmarks, o AF-Next exibe uma forte utilidade no mundo real e transfere bem para tarefas não vistas, destacando a sua robustez e capacidade de generalização. Para além de todos os dados, código e métodos, disponibilizamos em código aberto 3 variantes do AF-Next, incluindo o AF-Next-Instruct, o AF-Next-Think e o AF-Next-Captioner.
O aprendizado por reforço on-policy tornou-se o paradigma dominante para o raciocínio sobre alinhamento em grandes modelos de linguagem, no entanto, suas recompensas esparsas, baseadas em resultados, tornam a atribuição de crédito a nível de token notoriamente difícil. A Destilação On-Policy (OPD) atenua isso introduzindo uma supervisão densa de KL a nível de token a partir de um modelo professor, mas normalmente aplica essa supervisão uniformemente em todas as rollouts, ignorando diferenças fundamentais na qualidade do sinal. Propomos o Aprimoramento por Destilação On-Policy com Calibração de Sinal (SCOPE), uma estrutura de treinamento adaptativa de caminho duplo que direciona as rollouts on-policy pela sua correção em dois caminhos de supervisão complementares. Para trajetórias incorretas, o SCOPE realiza uma destilação de KL ponderada pela perplexidade do professor para priorizar instâncias onde o professor demonstra capacidade corretiva genuína, enquanto reduz o peso de orientações não confiáveis. Para trajetórias corretas, ele aplica MLE ponderado pela perplexidade do estudante para concentrar o reforço em amostras de baixa confiança no limite da capacidade, em vez de reforçar excessivamente as já dominadas. Ambos os caminhos empregam uma normalização a nível de grupo para calibrar adaptativamente as distribuições de peso, considerando a variação intrínseca de dificuldade entre os prompts. Experimentos extensos em seis benchmarks de raciocínio mostram que o SCOPE alcança uma melhoria relativa média de 11,42% em Avg@32 e 7,30% em Pass@32 sobre linhas de base competitivas, demonstrando sua eficácia consistente.
Os modelos de linguagem de difusão prometem geração paralela, mas ainda ficam atrás dos modelos autoregressivos (AR) em qualidade. Atribuímos esta lacuna a uma falha de consistência introspectiva: os modelos AR concordam com as suas próprias gerações, enquanto os modelos de difusão de linguagem (DLM) frequentemente não o fazem. Definimos a taxa de aceitação introspectiva, que mede se um modelo aceita os seus próprios *tokens* previamente gerados. Isto revela porque o treino AR tem uma vantagem estrutural: o *masking* causal e o deslocamento de *logits* impõem implicitamente a consistência introspectiva. Motivados por esta observação, introduzimos o **Modelo de Linguagem de Difusão Introspectiva (I-DLM)**, um paradigma que mantém a descodificação paralela ao estilo de difusão, herdando ao mesmo tempo a consistência introspectiva do treino AR. O I-DLM utiliza um novo algoritmo de descodificação escalonada introspectiva (ISD), que permite ao modelo verificar *tokens* gerados anteriormente, enquanto avança com novos *tokens na mesma passagem direta. Do ponto de vista de sistemas, construímos o motor de inferência do I-DLM com base em otimizações herdadas dos modelos AR e personalizamo-lo ainda mais com um *scheduler* de lotes estacionários. Tanto quanto sabemos, o I-DLM é o primeiro DLM a igualar a qualidade da sua contraparte AR de escala equivalente, superando ainda os DLMs anteriores tanto na qualidade do modelo como na eficiência prática de *serving* em 15 *benchmarks*. Atinge 69,6 no AIME-24 e 45,7 no LiveCodeBench-v6, excedendo o LLaMA-2.1-mini (16B) em mais de 26 e 15 pontos, respetivamente. Para além da qualidade, o I-DLM foi concebido para a crescente procura de *serving* de grande concorrência, oferecendo um *throughput* cerca de 3 vezes superior ao dos DLMs anteriores de última geração.
Os dados de pós-treinamento desempenham um papel fundamental na moldagem das capacidades dos Grandes Modelos de Linguagem (LLMs), contudo, os conjuntos de dados são frequentemente tratados como artefactos isolados, negligenciando as conexões sistémicas que sustentam a sua evolução. Para deslindar estas relações complexas, introduzimos o conceito de linhagem de dados no ecossistema dos LLMs e propomos uma estrutura automatizada de multiagentes para reconstruir o gráfico evolutivo do desenvolvimento de conjuntos de dados. Através de uma análise de linhagem em larga escala, caracterizamos padrões estruturais específicos de domínio, como o refinamento vertical em conjuntos de dados orientados para a matemática e a agregação horizontal em corpora de domínio geral. Além disso, descobrimos problemas sistémicos generalizados, incluindo a redundância estrutural induzida por interseções implícitas de conjuntos de dados e a propagação da contaminação de *benchmarks* ao longo dos caminhos de linhagem. Para demonstrar o valor prático da análise de linhagem para a construção de dados, aproveitamos o gráfico de linhagem reconstruído para criar um conjunto de dados orientado para a diversidade e consciente da linhagem. Ao ancorar a amostragem de instruções em fontes raiz a montante, esta abordagem mitiga a homogeneização a jusante e a redundância oculta, produzindo um corpus de pós-treinamento mais diversificado. Destacamos ainda a análise centrada na linhagem como uma alternativa topológica eficiente e robusta à comparação de conjuntos de dados a nível de amostra para ecossistemas de dados em larga escala. Ao fundamentar a construção de dados em estruturas de linhagem explícitas, o nosso trabalho avança a curadoria de dados de pós-treinamento no sentido de um paradigma mais sistemático e controlável.
Embora a *Experience Replay* – a prática de armazenar trajectórias de interação e reutilizá-las múltiplas vezes durante o treino – seja uma técnica fundamental no Aprendizado por Reforço (RL) geral, a sua aplicação permanece largamente inexplorada no pós-treinamento de LLMs. Isto deve-se à crença predominante de que dados novos, *on-policy*, são essenciais para um alto desempenho. Neste trabalho, desafiamos essa premissa. Apresentamos um estudo sistemático de *replay buffers* para pós-treinamento de LLMs, formalizando o seu desenho ideal como um compromisso (*trade-off*) entre a variância induzida pela obsolescência dos dados, a diversidade de amostras e o elevado custo computacional da geração. Demonstramos que a amostragem estritamente *on-policy* é subótima quando a geração é dispendiosa. Empiricamente, mostramos que um *replay buffer* bem concebido pode reduzir drasticamente o custo computacional de inferência sem degradar – e, em alguns casos, até melhorando – o desempenho final do modelo, preservando simultaneamente a entropia da política.
Testemunhámos avanços notáveis nas capacidades de raciocínio de LLMs com o advento do DeepSeek-R1. No entanto, grande parte deste progresso tem sido alimentado pela abundância de pares pergunta-resposta (QA) da internet, um grande estrangulamento futuro, uma vez que esses dados são limitados em escala e concentrados principalmente em domínios como matemática. Em contraste, outras ciências como a física carecem de conjuntos de dados QA em larga escala para treinar eficazmente modelos com capacidade de raciocínio. Neste trabalho, mostramos que os simuladores de física podem servir como uma alternativa poderosa de supervisão para treinar LLMs para raciocínio físico. Geramos cenas aleatórias em motores de física, criamos pares pergunta-resposta sintéticos a partir de interações simuladas e treinamos LLMs usando aprendizagem por reforço com esses dados sintéticos. Os nossos modelos exibem transferência sim-to-real zero-shot para benchmarks de física do mundo real: por exemplo, o treino exclusivo com dados simulados sintéticos melhora o desempenho em problemas da OIPF (Olimpíada Internacional de Física) em 5-10 pontos percentuais em vários tamanhos de modelo. Estes resultados demonstram que os simuladores de física podem atuar como geradores de dados escaláveis, permitindo que os LLMs adquiram competências profundas de raciocínio físico para além das limitações dos dados QA de escala internet. Código disponível em: https://sim2reason.github.io/.
Os modelos de difusão de vídeo alcançaram progressos notáveis na geração de vídeos de alta qualidade. No entanto, esses modelos têm dificuldade em representar a sucessão temporal de múltiplos eventos em vídeos do mundo real e carecem de mecanismos explícitos para controlar quando os conceitos semânticos aparecem, quanto tempo persistem e a ordem em que múltiplos eventos ocorrem. Esse controle é especialmente importante para a síntese de vídeos de nível cinematográfico, onde a narrativa coerente depende do timing preciso, da duração e das transições entre eventos. Ao usar um único prompt em estilo de parágrafo para descrever uma sequência de eventos complexos, os modelos frequentemente exibem emaranhamento semântico, onde conceitos destinados a diferentes momentos do vídeo se misturam, resultando em um alinhamento texto-vídeo deficiente. Para superar essas limitações, propomos o Prompt Relay, um método plug-and-play aplicado durante a inferência para permitir controle temporal de granularidade fina na geração de vídeos com múltiplos eventos, sem exigir modificações arquiteturais nem sobrecarga computacional adicional. O Prompt Relay introduz uma penalidade no mecanismo de atenção cruzada, de modo que cada segmento temporal atenda apenas ao prompt atribuído, permitindo que o modelo represente um conceito semântico por vez, melhorando assim o alinhamento temporal com os prompts, reduzindo a interferência semântica e aprimorando a qualidade visual.
Estudamos a escalabilidade paralela em tempo de teste para tarefas agentivas de longo horizonte, como busca agentiva e pesquisa aprofundada, onde múltiplas execuções são geradas em paralelo e agregadas em uma resposta final. Embora essa escalabilidade tenha se mostrada eficaz para raciocínio em cadeia de pensamento, as tarefas agentivas apresentam desafios únicos: as trajetórias são longas, multi-turno e aumentadas por ferramentas, e as saídas são frequentemente abertas. Agregar apenas as respostas finais descarta informações ricas das trajetórias, enquanto concatenar todas as trajetórias excede a janela de contexto do modelo. Para resolver isso, propomos o AggAgent, um agente de agregação que trata as trajetórias paralelas como um ambiente. Nós o equipamos com ferramentas leves para inspecionar soluções candidotas e buscar entre trajetórias, permitindo que ele navegue e sintetize informações sob demanda. Em seis benchmarks e três famílias de modelos (GLM-4.7, Qwen3.5, MiniMax-M2.5), o AggAgent supera todos os métodos de agregação existentes – em até 5,3% absoluto na média e 10,3% em duas tarefas de pesquisa aprofundada – enquanto adiciona sobrecarga mínima, já que o custo de agregação permanece limitado ao de uma única execução agentiva. Nossos resultados estabelecem a agregação agentiva como uma abordagem eficaz e econômica para a escalabilidade paralela em tempo de teste.
Os Modelos de Linguagem de Grande Porte (LLMs) implantados em ambientes de agência devem exercer múltiplas capacidades em diferentes instâncias de tarefas, onde uma capacidade é a execução de uma ou mais ações em uma trajetória que são necessárias para resolver com sucesso um subconjunto de tarefas no ambiente. Muitas abordagens existentes ou dependem de dados de treinamento sintéticos que não são direcionados aos déficits reais de capacidade do modelo no ambiente de destino, ou treinam diretamente no ambiente de destino, onde o modelo precisa aprender implicitamente as capacidades entre as tarefas. Apresentamos o TRACE (*Turning Recurrent Agent failures into Capability-targeted training Environments*), um sistema de ponta a ponta para o autoaprimoramento de agentes específico do ambiente. O TRACE contrasta trajetórias bem-sucedidas e mal-sucedidas para identificar automaticamente capacidades deficitárias, sintetiza um ambiente de treinamento direcionado para cada uma que recompensa se a capacidade foi exercida e treina um adaptador LoRA via RL em cada ambiente sintético, roteando para o adaptador relevante durante a inferência. Empiricamente, o TRACE generaliza entre diferentes ambientes, melhorando o agente base em +14,1 pontos no τ²-bench (atendimento ao cliente) e +7 pontuações perfeitas no ToolSandbox (uso de ferramentas), superando a linha de base mais forte em +7,4 pontos e +4 pontuações perfeitas, respectivamente. Dado o mesmo número de *rollouts*, o TRACE escala com mais eficiência do que as linhas de base, superando o GRPO e o GEPA em +9,2 e +7,4 pontos no τ²-bench.
O aprendizado por reforço (RL) para grandes modelos de linguagem (LLMs) depende cada vez mais de recompensas esparsas e de nível de resultado – no entanto, determinar quais ações dentro de uma longa trajetória causaram o resultado permanece difícil. Este problema de atribuição de crédito (CA) manifesta-se em dois regimes: o RL de raciocínio, onde o crédito deve ser distribuído por tokens e passos dentro de uma única geração de cadeia de pensamento (500–30K+ tokens); e o RL agentivo, onde a interação multi-turno com o ambiente introduz transições estocásticas, observabilidade parcial e horizontes de 100+ turnos (100K–1M tokens), tornando o crédito a nível de episódio cada vez menos informativo. Levantamos 47 métodos de CA (41 principais, 6 facilitadores adjacentes) publicados entre 2024 e início de 2026, organizando-os numa taxonomia bidimensional por granularidade de atribuição (token, segmento, passo, turno, multi-agente) e metodologia (Monte Carlo, diferença temporal, baseado em modelo, teoria dos jogos, teoria da informação). Para além do levantamento em si, contribuímos com três recursos reutilizáveis: (1) um inventário estruturado e legível por máquina de artigos com etiquetas de taxonomia, famílias de baseline e níveis de evidência; (2) uma lista de verificação para relatórios de futuros artigos sobre CA, validada face à literatura revista para identificar lacunas metodológicas sistemáticas; e (3) uma especificação de protocolo de benchmark com famílias de tarefas, requisitos de metadados e tarefas de bifurcação controlada, acompanhada por uma árvore de decisão para seleção de métodos. A nossa síntese sugere que a transição do RL de raciocínio para o agentivo complica e remodela o panorama da atribuição de crédito: a CA para raciocínio está a amadurecer em torno de modelos de recompensa de processo e comparação de grupo sem crítico, enquanto a CA agentiva está a impulsionar abordagens genuinamente novas – análise contrafactual com hindsight, críticos assimétricos privilegiados e reformulações de MDP a nível de turno – que não têm precedente direto no RL de raciocínio.
Os agentes de interface gráfica móvel (GUI) alimentados por Modelos de Linguagem Multimodais de Grande Porte (MLLMs) podem executar tarefas complexas em dispositivos móveis. Apesar desse progresso, a maioria dos sistemas existentes ainda otimiza o sucesso ou a eficiência da tarefa, negligenciando a personalização da privacidade dos usuários. Neste artigo, estudamos o problema frequentemente negligenciado da personalização do agente. Observamos que a personalização pode induzir heterogeneidade estrutural sistemática nas trajetórias de execução. Por exemplo, usuários com prioridade à privacidade frequentemente preferem ações protetoras, como recusar permissões, encerrar sessões e minimizar a exposição, levando a trajetórias de execução logicamente diferentes das dos usuários com prioridade à utilidade. Tais trajetórias de comprimento variável e estruturalmente diferentes tornam a otimização padrão de preferências instável e menos informativa. Para resolver esse problema, propomos a Otimização de Preferências Induzida por Trajetória (TIPO), que usa ponderação de intensidade de preferência para enfatizar etapas-chave relacionadas à privacidade e um portão de preenchimento para suprimir o ruído de alinhamento. Os resultados em nosso Conjunto de Dados de Preferência de Privacidade mostram que o TIPO melhora o alinhamento e a distinção da persona, preservando uma forte capacidade de execução de tarefas, alcançando 65,60% de SR, 46,22% de Conformidade e 66,67% de PD, superando os métodos de otimização existentes em várias tarefas de GUI. O código e o conjunto de dados serão disponibilizados publicamente em https://github.com/Zhixin-L/TIPO.
A Decodificação Especulativa (DE) emergiu como uma técnica crítica para acelerar a inferência de Modelos de Linguagem de Grande Porte (LLMs). Ao contrário de otimizações de sistema determinísticas, o desempenho da DE é inerentemente dependente dos dados, o que significa que cargas de trabalho diversificadas e representativas são essenciais para medir com precisão a sua eficácia. Os benchmarks existentes sofrem com diversidade limitada de tarefas, suporte inadequado para avaliação orientada à taxa de transferência (throughput) e uma dependência de implementações de alto nível que não refletem os ambientes de produção. Para resolver isso, introduzimos o SPEED-Bench, um conjunto abrangente projetado para padronizar a avaliação da DE em diversos domínios semânticos e regimes realistas de serviço. O SPEED-Bench oferece uma divisão de dados *Qualitativa* cuidadosamente selecionada, priorizando a diversidade semântica entre as amostras de dados. Adicionalmente, inclui uma divisão de dados de *Throughput*, permitindo a avaliação de aceleração em uma variedade de níveis de concorrência, desde configurações de baixo lote sensíveis à latência até cenários de alta carga orientados à taxa de transferência. Ao integrar-se com motores de produção como vLLM e TensorRT-LLM, o SPEED-Bench permite que os profissionais analisem comportamentos do sistema frequentemente mascarados por outros benchmarks. Destacamos isso ao quantificar como entradas sintéticas superestimam o *throughput* do mundo real, identificando tamanhos ideais de rascunho dependentes do tamanho do lote e vieses em dados de baixa diversidade, e analisando as ressalvas da poda de vocabulário em *drafters* state-of-the-art. Disponibilizamos o SPEED-Bench para estabelecer um padrão de avaliação unificado para comparações práticas de algoritmos de DE.
Os modelos de linguagem de grande porte (LLMs) contemporâneos demonstraram capacidades notáveis de raciocínio, particularmente em domínios especializados como matemática e física. No entanto, a sua capacidade de generalizar estas competências de raciocínio para contextos mais gerais e abrangentes - frequentemente designada por raciocínio geral - permanece pouco explorada. Ao contrário do raciocínio específico de domínio, o raciocínio geral depende menos de conhecimento especializado, mas ainda apresenta desafios formidáveis, como restrições complexas, ramificações lógicas encadeadas e interferência semântica. Para colmatar esta lacuna, apresentamos o General365, um benchmark concebido especificamente para avaliar o raciocínio geral em LLMs. Ao restringir o conhecimento de base a um nível do ensino básico e secundário (K-12), o General365 desacopla explicitamente o raciocínio da expertise especializada. O benchmark compreende 365 problemas-base e 1.095 problemas variantes em oito categorias, garantindo simultaneamente elevada dificuldade e diversidade. Avaliações realizadas com 26 LLMs líderes revelam que mesmo o modelo de melhor desempenho atinge apenas 62,8% de precisão, em nítido contraste com os desempenhos quase perfeitos dos LLMs em benchmarks de matemática e física. Estes resultados sugerem que as capacidades de raciocínio dos LLMs atuais são fortemente dependentes do domínio, deixando um espaço significativo para melhorias em aplicações mais abrangentes. Vislumbramos o General365 como um catalisador para o avanço do raciocínio dos LLMs para além de tarefas específicas de domínio, rumo a cenários robustos e de propósito geral no mundo real. Código, Conjunto de Dados e Leaderboard: https://general365.github.io
Propomos modelos de fluxo adversarial contínuo, um tipo de modelo de fluxo em tempo contínuo treinado com um objetivo adversarial. Ao contrário do flow matching, que utiliza um critério fixo de erro quadrático médio, nossa abordagem introdui um discriminador aprendizado para orientar o treinamento. Essa mudança no objetivo induz uma distribuição generalizada diferente, que empiricamente produz amostras mais alinhadas com a distribuição de dados alvo. Nosso método é proposto principalmente para o pós-treinamento de modelos existentes de flow matching, embora também possa treinar modelos do zero. Na tarefa de geração ImageNet 256px, nosso pós-treinamento melhora substancialmente o FID sem orientação do SiT em espaço latente de 8.26 para 3.63 e do JiT em espaço de pixels de 7.17 para 3.57. Também melhora a geração orientada, reduzindo o FID de 2.06 para 1.53 no SiT e de 1.86 para 1.80 no JiT. Avaliamos ainda nossa abordagem na geração texto-imagem, onde alcança resultados aprimorados nos benchmarks GenEval e DPG.
Os recentes avanços nos modelos de linguagem de difusão mascarada (MDLMs) reduzem a diferença de qualidade em relação aos modelos autoregressivos, mas a sua amostragem permanece dispendiosa, pois a geração requer muitas passagens de desruído de sequência completa com um Transformer grande e, ao contrário da decodagem autoregressiva, não pode beneficiar do cache KV. Neste trabalho, exploramos a flexibilidade do framework de difusão e estudamos o escalonamento de modelos, em que um MDLM menor substitui o modelo completo num subconjunto de passos de desruído. Através de modelos treinados no OpenWebText e LM1B, mostramos que os passos iniciais e finais de desruído são substancialmente mais robustos a tal substituição do que os passos intermédios, permitindo uma redução de até 17% nos FLOPS com apenas uma modesta degradação na perplexidade geradora, tanto em geração incondicional como condicionada por prefixo, preservando a diversidade das amostras. Suportamos estas descobertas com uma análise da importância dos passos baseada na perda e na divergência KL entre modelos pequenos e grandes ao longo dos intervalos de tempo, bem como uma pesquisa exaustiva sobre segmentos de passos grosseiros, ambas identificando consistentemente o meio da trajetória de difusão como a parte mais sensível, independentemente dos conjuntos de dados. Os nossos resultados sugerem que regras de escalonamento simples e independentes da arquitetura podem acelerar significativamente a amostragem de MDLMs, preservando em grande parte a qualidade da geração.
Crianças pequenas demonstram habilidades precoces para compreender seu mundo físico, estimando profundidade, movimento, coerência de objetos, interações e muitos outros aspectos da compreensão de cenas físicas. As crianças são sistemas cognitivos tanto eficientes em dados quanto flexíveis, criando competência apesar de dados de treinamento extremamente limitados, enquanto generalizam para uma miríade de tarefas não treinadas – um grande desafio mesmo para os melhores sistemas de IA atuais. Aqui, introduzimos uma nova hipótese computacional para essas habilidades, o Modelo de Mundo Visual de Escala Zero (ZWM). O ZWM é baseado em três princípios: um preditor esparso temporalmente fatorado que desacopla aparência de dinâmica; estimação de escala zero por meio de inferência causal aproximada; e composição de inferências para construir habilidades mais complexas. Mostramos que o ZWM pode ser aprendido a partir da experiência em primeira pessoa de uma única criança, gerando rapidamente competência em múltiplos benchmarks de compreensão física. Ele também recapitula amplamente assinaturas comportamentais do desenvolvimento infantil e constrói representações internas semelhantes às do cérebro. Nosso trabalho apresenta um projeto para aprendizado eficiente e flexível a partir de dados em escala humana, avançando tanto uma explicação computacional para a compreensão física precoce das crianças quanto um caminho para sistemas de IA eficientes em dados.
Os recentes avanços em modelos multimodais unificados (UMMs) levaram a uma proliferação de arquiteturas capazes de compreender, gerar e editar através das modalidades visual e textual. No entanto, o desenvolvimento de uma estrutura unificada para UMMs permanece um desafio devido à diversidade de arquiteturas de modelos e à heterogeneidade dos paradigmas de treinamento e detalhes de implementação. Neste artigo, apresentamos o TorchUMM, a primeira base de código unificada para avaliação abrangente, análise e pós-treinamento em diversos *backbones* de UMMs, tarefas e conjuntos de dados. O TorchUMM suporta um amplo espectro de modelos que abrangem uma vasta gama de escalas e paradigmas de design. Nossa avaliação comparativa abrange três dimensões principais de tarefas: compreensão multimodal, geração e edição, e integra conjuntos de dados consagrados e novos para avaliar capacidades de perceção, raciocínio, composicionalidade e seguimento de instruções. Ao fornecer uma interface unificada e protocolos de avaliação padronizados, o TorchUMM permite comparações justas e reproduzíveis entre modelos heterogéneos e promove insights mais profundos sobre os seus pontos fortes e limitações, facilitando o desenvolvimento de sistemas multimodais unificados mais capazes. O código está disponível em: https://github.com/AIFrontierLab/TorchUMM.
A compreensão e previsão do movimento são componentes fundamentais da inteligência visual. Embora os modelos modernos de vídeo exibam uma forte compreensão da dinâmica das cenas, explorar múltiplos futuros possíveis através da síntese completa de vídeos permanece proibitivamente ineficiente. Modelamos a dinâmica das cenas de forma ordens de grandeza mais eficiente, operando diretamente sobre uma incorporação de movimento de longo prazo que é aprendida a partir de trajetórias em larga escala obtidas de modelos de rastreamento. Isso permite a geração eficiente de movimentos longos e realistas que atendem a objetivos especificados por meio de prompts de texto ou toques espaciais. Para alcançar isso, primeiro aprendemos uma incorporação de movimento altamente compactada com um fator de compressão temporal de 64x. Neste espaço, treinamos um modelo de correspondência de fluxo condicional para gerar latentes de movimento condicionados a descrições de tarefas. As distribuições de movimento resultantes superam tanto as dos modelos de vídeo de última geração quanto as de abordagens especializadas específicas para tarefas.
O desenvolvimento da série Bielik v3 PL, que engloba as variantes de 7B e 11B de parâmetros, representa um marco significativo no campo da otimização de grandes modelos de linguagem (LLM) específicos para um idioma. Embora os modelos de propósito geral frequentemente demonstrem capacidades multilíngues impressionantes, eles sofrem com uma ineficiência arquitetônica fundamental: o uso de *tokenizers* universais. Esses *tokenizers*, normalmente projetados para cobrir um amplo espectro de idiomas, frequentemente falham em capturar as nuances morfológicas de línguas específicas, como o polonês, resultando em índices de fertilidade mais altos, custos de inferência aumentados e janelas de contexto efetivo restritas. Este relatório detalha a transição da tokenização universal baseada no Mistral para um vocabulário dedicado e otimizado para o polonês nos modelos Bielik v3, explorando a inicialização de *embeddings* baseada no FOCUS, o currículo de pré-treinamento em múltiplos estágios e o subsequente alinhamento pós-treinamento, envolvendo Ajuste Fino Supervisionado, Otimização Direta de Preferências e Aprendizado por Reforço por meio de Otimização de Política Relativa em Grupo com recompensas verificáveis.
Embora os grandes modelos de linguagem apresentem potencial para aplicações médicas complexas, seu desenvolvimento é limitado pela escassez de dados de raciocínio de alta qualidade. Para resolver este problema, as abordagens existentes geralmente destilam traços de raciocínio em cadeia de grandes modelos proprietários através de ajuste fino supervisionado, seguido de aprendizado por reforço (RL). Esses métodos apresentam melhorias limitadas em domínios sub-representados, como doenças raras, enquanto incorrem em custos substanciais com a geração de cadeias de raciocínio complexas. Para aprimorar eficientemente o raciocínio médico, propomos o MedSSR, uma estrutura de Síntese de Dados com Conhecimento Médico e Aprendizado por Reforço Semissupervisionado. Nossa estrutura emprega primeiro o conhecimento sobre doenças raras para sintetizar questões de raciocínio com distribuição controlável. Em seguida, utilizamos o próprio modelo de política para gerar pseudo-rótulos de alta qualidade. Isso permite um paradigma de treinamento intrínseco para extrínseco em dois estágios: RL auto-supervisionado nos dados sintéticos com pseudo-rótulos, seguido por RL supervisionado nos dados reais anotados por humanos. O MedSSR dimensiona o treinamento do modelo de forma eficiente, sem depender da custosa destilação de traços. Experimentos extensivos com Qwen e Llama demonstram que nosso método supera as abordagens existentes em dez benchmarks médicos, alcançando um ganho de até +5,93% em tarefas relacionadas a doenças raras. Nosso código está disponível em https://github.com/tdlhl/MedSSR.
Recentemente, o dimensionamento do aprendizado por reforço com recompensas verificáveis (RLVR) para grandes modelos de linguagem (LLMs) emergiu como um paradigma de treinamento eficaz para melhorar significativamente as capacidades do modelo. Este paradigma requer orientar o modelo para realizar uma exploração e aprendizado extensivos, resultando em uma sobrecarga computacional substancial que se tornou um desafio fundamental. Para reduzir o número de etapas de treinamento, trabalhos anteriores realizam extrapolação linear dos parâmetros do modelo. No entanto, a dinâmica das atualizações dos parâmetros do modelo durante o treinamento RLVR permanece insuficientemente compreendida. Para investigar mais a fundo a evolução dos LLMs durante o treinamento RLVR, conduzimos experimentos empíricos e descobrimos que o subespaço de posto 1 do modelo não evolui linearmente, e sua dominância sobre os parâmetros originais é ainda mais amplificada durante o treinamento com LoRA (Low-Rank Adaptation). Com base nessas observações, propomos a Extrapolação Não Linear de Trajetórias de Baixo Posto (NExt), uma nova estrutura que modela e extrapola as trajetórias dos parâmetros de baixo posto de maneira não linear. Concretamente, primeiro treinamos o modelo usando LoRA e extraímos o subespaço de posto 1 das diferenças de parâmetros em múltiplas etapas de treinamento, que é então usado para a subsequente extrapolação não linear. Posteriormente, utilizamos o subespaço de posto 1 extraído para treinar um preditor, que pode modelar a trajetória das atualizações de parâmetros durante o RLVR, e então realizamos o processo de "predizer-estender" para extrapolar os parâmetros do modelo, alcançando a aceleração do RLVR. Para estudar e compreender melhor o NExt, conduzimos experimentos abrangentes que demonstram a eficácia e a robustez do método. Nosso método reduz a sobrecarga computacional em aproximadamente 37,5%, mantendo-se compatível com uma ampla gama de algoritmos e tarefas de RLVR. Disponibilizamos nosso código em https://github.com/RUCAIBox/NExt.
À medida que os grandes modelos de linguagem (LLMs) se tornam o motor por trás dos sistemas conversacionais, a sua capacidade de raciocinar sobre as intenções e estados dos seus parceiros de diálogo (ou seja, formar e utilizar uma teoria da mente, ou ToM) torna-se cada vez mais crítica para uma interação segura com parceiros potencialmente adversários. Propomos um novo desafio de ToM com tema de privacidade, a ToM para Direcionar Crenças (ToM-SB), no qual um defensor deve atuar como um Agente Duplo para direcionar as crenças de um atacante com conhecimento prévio parcial dentro de um universo compartilhado. Para ter sucesso na ToM-SB, o defensor deve envolver-se e formar uma ToM do atacante, com o objetivo de enganar o atacante, fazendo-o acreditar que teve sucesso em extrair informações sensíveis. Constatamos que modelos de ponta robustos, como o Gemini3-Pro e o GPT-5.4, têm dificuldades com a ToM-SB, falhando frequentemente em enganar atacantes em cenários difíceis com conhecimento prévio parcial do atacante, mesmo quando instruídos a raciocinar sobre as crenças do atacante (instrução ToM). Para colmatar esta lacuna, treinamos modelos na tarefa ToM-SB para atuarem como Agentes Duplos de IA usando aprendizagem por reforço, testando tanto recompensas por engano quanto recompensas por ToM. Notavelmente, descobrimos uma relação bidirecional emergente entre a ToM e o engano do atacante: recompensar apenas o sucesso no engano melhora a ToM, e recompensar apenas a ToM melhora o engano. Em quatro atacantes com diferentes capacidades, seis métodos de defesa e avaliação tanto dentro como fora da distribuição (OOD), constatamos que os ganhos em ToM e no engano do atacante estão bem correlacionados, destacando a modelação de crenças como um fator chave para o sucesso na ToM-SB. Agentes Duplos de IA que combinam recompensas de ToM e de engano produzem o melhor desempenho em engano e ToM, superando o Gemini3-Pro e o GPT-5.4 com instrução ToM em cenários difíceis. Também mostramos que a ToM-SB e os Agentes Duplos de IA podem ser estendidos a atacantes mais fortes, demonstrando a generalização para configurações OOD e a capacidade de atualização da nossa tarefa.
A aceleração da descoberta científica requer a identificação de quais experimentos produziriam os melhores resultados antes de alocar recursos para uma validação física dispendiosa. Embora os benchmarks existentes avaliem os LLMs em conhecimento e raciocínio científico, a sua capacidade de prever resultados experimentais - uma tarefa na qual a IA poderia superar significativamente as capacidades humanas - permanece amplamente inexplorada. Apresentamos o SciPredict, um benchmark composto por 405 tarefas derivadas de estudos empíricos recentes em 33 subáreas especializadas da física, biologia e química. O SciPredict aborda duas questões críticas: (a) os LLMs podem prever o resultado de experiências científicas com precisão suficiente? e (b) tais previsões podem ser usadas de forma confiável no processo de investigação científica? As avaliações revelam limitações fundamentais em ambas as frentes. As precisões dos modelos são de 14-26% e o desempenho de especialistas humanos é de aproximadamente 20%. Embora alguns modelos de fronteira superem o desempenho humano, a precisão do modelo ainda está muito abaixo do que permitiria uma orientação experimental confiável. Mesmo dentro do desempenho limitado, os modelos não conseguem distinguir previsões confiáveis de não confiáveis, atingindo apenas aproximadamente 20% de precisão, independentemente da sua confiança ou de julgarem os resultados como previsíveis sem experimentação física. Especialistas humanos, em contraste, demonstram uma forte calibração: a sua precisão aumenta de aproximadamente 5% para aproximadamente 80% à medida que consideram os resultados mais previsíveis sem realizar a experiência. O SciPredict estabelece um quadro rigoroso demonstrando que um desempenho sobre-humano na ciência experimental requer não apenas melhores previsões, mas uma melhor consciência da confiabilidade da previsão. Para garantir a reprodutibilidade, todos os nossos dados e código são fornecidos em https://github.com/scaleapi/scipredict.
Abordagens representativas anteriores no estilo ReAct na Engenharia de Software (ES) autónoma tipicamente carecem do raciocínio explícito do Sistema 2 necessário para uma análise profunda e para lidar com casos de extremo complexos. Embora modelos de raciocínio recentes demonstrem o potencial de uma Cadeia de Pensamento (CoT) estendida, a sua aplicação à tarefa de ES multi-turn cria um dilema fundamental: reter o histórico completo de raciocínio leva à explosão de contexto e à degradação do fenómeno "Lost-in-the-Middle", enquanto descartá-lo forçaria o agente a raciocinar redundantemente em cada passo. Para enfrentar estes desafios, propomos o SWE-AGILE, uma nova estrutura de agente de software concebida para colmatar a lacuna entre a profundidade do raciocínio, a eficiência e as restrições de contexto. O SWE-AGILE introduz uma estratégia de Contexto de Raciocínio Dinâmico, mantendo uma "janela deslizante" de raciocínio detalhado para garantir continuidade imediata e evitar reanálises redundantes, enquanto comprime o conteúdo do raciocínio histórico em Resumos de Raciocínio concisos. Empiricamente, o SWE-AGILE estabelece um novo padrão para modelos de 7B-8B no SWE-Bench-Verified, utilizando apenas 2,2 mil trajetórias e 896 tarefas. O código está disponível em https://github.com/KDEGroup/SWE-AGILE.
À medida que os modelos generativos permitem a criação rápida de imagens de alta fidelidade, as preocupações sociais sobre desinformação e autenticidade intensificaram-se. Um remédio promissor é a marca d'água de imagem multi-bit, que incorpora uma mensagem multi-bit numa imagem para que um verificador possa posteriormente detetar se a imagem foi gerada por alguém e ainda identificar a fonte através da descodificação da mensagem incorporada. As abordagens existentes frequentemente ficam aquém em capacidade, resiliência a distorções comuns de imagem e justificação teórica. Para superar estas limitações, propomos o ADD (Add, Dot, Decode), um método de marca d'água de imagem multi-bit com duas fases: aprendizagem de uma marca d'água para ser combinada linearmente com a mensagem multi-bit e adicionada à imagem, e descodificação através de produtos internos entre a imagem marcada e a marca d'água aprendida. No benchmark padrão MS-COCO, demonstramos que, para a tarefa desafiadora de marca d'água de 48 bits, o ADD alcança 100% de precisão de descodificação, com o desempenho a diminuir no máximo 2% sob uma ampla variedade de distorções de imagem, substancialmente menor que a diminuição média de 14% dos métodos state-of-the-art. Além disso, o ADD alcança ganhos computacionais substanciais, com incorporação 2 vezes mais rápida e descodificação 7,4 vezes mais rápida do que o método existente mais rápido. Fornecemos ainda uma análise teórica que explica por que a marca d'água aprendida e a regra de descodificação correspondente são eficazes.
Os recentes avanços nos Modelos de Visão e Linguagem (VLMs) revolucionaram a compreensão visual geral. No entanto, sua aplicação no domínio alimentar continua limitada por benchmarks que dependem de categorias de granularidade grossa, imagens de visão única e metadados imprecisos. Para preencher esta lacuna, introduzimos o DiningBench, um benchmark hierárquico e multi-visão projetado para avaliar VLMs em três níveis de complexidade cognitiva: Classificação de Granularidade Fina, Estimativa Nutricional e Resposta a Perguntas Visuais. Diferente de conjuntos de dados anteriores, o DiningBench compreende 3.021 pratos distintos com uma média de 5,27 imagens por entrada, incorporando negativos "difíceis" de granularidade fina de menus idênticos e dados nutricionais rigorosos, baseados em verificação. Realizamos uma avaliação extensa de 29 modelos de última geração, de código aberto e proprietários. Nossos experimentos revelam que, embora os VLMs atuais se destaquem no raciocínio geral, eles lutam significativamente com a discriminação visual de granularidade fina e o raciocínio nutricional preciso. Além disso, investigamos sistematicamente o impacto de entradas multi-visão e do raciocínio em Cadeia de Pensamento, identificando cinco modos de falha primários. O DiningBench serve como um campo de testes desafiador para impulsionar a próxima geração de pesquisas de VLM centradas em alimentos. Todos os códigos são disponibilizados em https://github.com/meituan/DiningBench.
Os modelos de linguagem de grande escala (LLMs) estão cada vez mais sendo implantados em ambientes de múltiplos turnos, como tutoria, suporte e aconselhamento, onde a confiabilidade depende da preservação de papéis, personas e objetivos consistentes em horizontes longos. Este requisito torna-se crítico quando os LLMs são usados para gerar diálogos sintéticos para treinamento e avaliação, uma vez que as conversas entre LLMs podem acumular falhas relacionadas à identidade, como deriva de persona, confusão de papéis e "ecoamento", onde um agente gradualmente espelha seu parceiro. Apresentamos o SPASM (Simulação de Agente Orientada por Persona Estável para geração de diálogo multi-turno), uma estrutura modular, com prioridade na estabilidade, que decompõe a simulação em (i) criação de persona via amostragem de esquema, validação de plausibilidade e elaboração de persona em linguagem natural, (ii) geração de diálogo Cliente--Respondedor, e (iii) detecção de término para parada coerente. Para melhorar a estabilidade de longo horizonte sem alterar os pesos do modelo, propomos a Projeção Egocêntrica de Contexto (ECP): o histórico do diálogo é armazenado em uma representação agnóstica à perspectiva e projetado deterministicamente na visão egocêntrica de cada agente antes da geração. Através de três modelos base (backbones) de LLM (GPT-4o-mini, DeepSeek-V3.2, Qwen-Plus) e nove pares Cliente--Respondedor, construímos um conjunto de dados com 4.500 personas e 45.000 conversas (500 personas X 10 conversas por par). Ablações mostram que a ECP reduz substancialmente a deriva de persona e, sob validação humana, elimina o ecoamento; análises de embeddings recuperam a estrutura da persona e revelam uma forte geometria de interação dirigida pelo respondedor. Nosso código está disponível em https://github.com/lhannnn/SPASM.
Representações estruturadas de memória, como grafos de conhecimento, são centrais para agentes autónomos e outros sistemas de longa duração. No entanto, a maioria das abordagens existentes modela o tempo como metadados discretos, seja ordenando por recenticidade (enterrando conhecimento antigo, mas permanente), simplesmente substituindo factos desatualizados, ou exigindo uma chamada dispendiosa a um LLM em cada etapa de ingestão, impedindo-as de distinguir factos persistentes de factos em evolução. Para resolver isto, apresentamos o RoMem, um módulo de grafo de conhecimento temporal intercambiável para sistemas de memória estruturada, aplicável à memória de agentes e além. Um Portão de Velocidade Semântica pré-treinado mapeia o *embedding* textual de cada relação para um score de volatilidade, aprendendo a partir de dados que relações em evolução (por exemplo, "presidente de") devem rodar rapidamente, enquanto as persistentes (por exemplo, "nascido em") devem permanecer estáveis. Combinado com a rotação de fase contínua, isto permite o sombreamento geométrico: factos obsoletos são rodados para fora de fase no espaço vetorial complexo, de modo que factos temporalmente corretos superam naturalmente as contradições sem necessidade de eliminação. Na tarefa de completamento de grafos de conhecimento temporais, o RoMem alcança resultados state-of-the-art no ICEWS05-15 (72.6 MRR). Aplicado à memória de agentes, proporciona 2-3x mais MRR e precisão de resposta no raciocínio temporal (MultiTQ), domina um *benchmark* híbrido (LoCoMo), preserva a memória estática sem degradação (DMR-MSC) e generaliza *zero-shot* para domínios financeiros não vistos (FinTMMBench).
Neste trabalho, introduzimos uma nova perspetiva sobre a avaliação comparativa de imagens, representando um par de imagens como uma composição estruturada das suas regiões. Em contraste, os métodos existentes concentram-se na análise da imagem como um todo, dependendo implicitamente de uma compreensão a nível regional. Expandimos a noção intra-imagem de um grafo de cena para inter-imagem e propomos uma nova tarefa: o Grafo de Distorção (DG). O DG trata pares de imagens como uma topologia estruturada baseada em regiões e representa informações densas de degradação, como o tipo de distorção, severidade, comparação e pontuação de qualidade, numa estrutura de grafo compacta e interpretável. Para concretizar a tarefa de aprendizagem de um grafo de distorção, contribuímos com (i) um conjunto de dados a nível regional, o PandaSet, (ii) um conjunto de benchmarks, o PandaBench, com variados níveis de dificuldade regional, e (iii) uma arquitetura eficiente, a Panda, para gerar grafos de distorção. Demonstramos que o PandaBench representa um desafio significativo para os modelos de linguagem grandes multimodais (MLLMs) state-of-the-art, uma vez que estes falham em compreender as degradações a nível regional, mesmo quando recebem pistas regionais explícitas. Mostramos que o treino no PandaSet ou a utilização de *prompts* com DG suscita uma compreensão da distorção por região, abrindo uma nova direção para a avaliação de pares de imagens estruturada e de alto detalhe.
O cache de pares chave-valor (KV) desempenha um papel crucial na aceleração da inferência em grandes modelos de linguagem (LLMs) ao armazenar estados intermediários de atenção e evitar computações redundantes durante a geração autoregressiva. No entanto, sua pegada de memória escala linearmente com o comprimento da sequência, frequentemente resultando em graves gargalos de memória em hardware com recursos limitados. Trabalhos anteriores exploraram a descarga do cache KV para a CPU mantendo apenas um subconjunto na GPU, mas essas abordagens frequentemente dependem de seleção imprecisa de tokens e sofrem degradação de desempenho em tarefas de geração longa, como o raciocínio em cadeia de pensamento. Neste artigo, propomos uma nova estratégia de gerenciamento de cache KV, o IceCache, que integra agrupamento semântico de tokens com PagedAttention. Ao organizar tokens semanticamente relacionados em regiões de memória contíguas gerenciadas por uma estrutura de dados hierárquica e dinamicamente atualizável, nosso método permite uma seleção mais eficiente de tokens e melhor utilização da largura de banda de memória durante as transferências CPU-GPU. Resultados experimentais no LongBench mostram que, com um orçamento de 256 tokens, o IceCache mantém 99% da precisão original alcançada pelo modelo com cache KV completo. Além disso, em comparação com outros métodos baseados em descarga, o IceCache atinge latência e precisão competitivas ou mesmo superiores enquanto utiliza apenas 25% do orçamento de tokens do cache KV, demonstrando sua eficácia em cenários de sequências longas. O código está disponível em nosso site do projeto: https://yuzhenmao.github.io/IceCache/.
Os modelos visão-linguagem (VLMs) têm alcançado desempenho impressionante em tarefas complexas de raciocínio multimodal, mas ainda falham em habilidades básicas de aterramento, como a contagem de objetos. As avaliações existentes avaliam principalmente os resultados finais, oferecendo insights limitados sobre onde essas falhas surgem dentro do modelo. Neste trabalho, apresentamos um estudo empírico do comportamento de contagem de VLMs por meio de análises comportamentais e mecanicistas. Introduzimos o COUNTINGTRICKS, um conjunto de avaliação controlado de casos simples de contagem baseados em formas, projetado para expor vulnerabilidades sob diferentes layouts de "patchificação" e condições adversas de "prompting". Usando análise de atenção e sondagem componente a componente, mostramos que a evidência visual relevante para a contagem é mais forte no estágio de projeção de modalidade, mas degrada substancialmente nas camadas linguísticas posteriores, onde os modelos se tornam mais suscetíveis a prévias textuais. Motivados por essa descoberta, avaliamos ainda o Modality Attention Share (MAS), uma intervenção leve que incentiva um orçamento mínimo de atenção visual durante a geração de respostas. Nossos resultados sugerem que as falhas de contagem em VLMs decorrem não apenas dos limites da percepção visual, mas também do subuso da evidência visual durante o raciocínio na etapa linguística. O código e o conjunto de dados serão disponibilizados em https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.
A investigação em música simbólica tem dependido quase exclusivamente de conjuntos de dados baseados em MIDI; formatos de notação baseados em texto, como o LilyPond, permanecem inexplorados para a compreensão musical. Apresentamos o BMdataset, um conjunto de dados musicologicamente curado de 393 partituras LilyPond (2.646 movimentos) transcritas por especialistas diretamente de manuscritos barrocos originais, com metadados que abrangem compositor, forma musical, instrumentação e atributos seccionais. Com base neste recurso, introduzimos o LilyBERT (os pesos podem ser encontrados em https://huggingface.co/csc-unipd/lilybert), um codificador baseado no CodeBERT adaptado para música simbólica através da extensão do vocabulário com 115 tokens específicos do LilyPond e pré-treinamento de modelo de linguagem mascarada. A sondagem linear no corpus Mutopia (fora do domínio) mostra que, apesar do seu tamanho modesto (~90M de tokens), o ajuste fino apenas no BMdataset supera o pré-treinamento contínuo no corpus PDMX completo (~15B de tokens) tanto para classificação de compositor como de estilo, demonstrando que conjuntos de dados pequenos e curados por especialistas podem ser mais eficazes do que corpora grandes e ruidosos para a compreensão musical. A combinação de pré-treinamento amplo com ajuste fino específico de domínio produz os melhores resultados no geral (84,3% de precisão para compositor), confirmando que os dois regimes de dados são complementares. Disponibilizamos o conjunto de dados, o tokenizador e o modelo para estabelecer uma linha de base para a aprendizagem de representação em LilyPond.
A síntese de dados de ajuste fino supervisionado (SFT) a partir de modelos de linguagem (LMs) para ensinar tarefas multilingues a modelos menores tornou-se cada vez mais comum. No entanto, a seleção do modelo professor é frequentemente ad hoc, geralmente recorrendo à maior opção disponível, mesmo que esses modelos possuam lacunas significativas de capacidade em idiomas não ingleses. Essa prática pode resultar em dados sintéticos de baixa qualidade e desempenho subótimo do modelo estudante. Neste trabalho, caracterizamos sistematicamente o que constitui um professor multilingue eficaz. Medimos medidas intrínsecas da qualidade dos dados com o desempenho extrínseco do modelo estudante numa métrica que denominamos Pontuação Poliglota; avaliamos 10 LMs em 6 idiomas tipologicamente diversos, geramos mais de 1,4 milhão de exemplos de SFT e treinamos 240 modelos estudantes. Entre os modelos testados, o Gemma 3 27B e o Aya Expanse 32B emergem como professores consistentemente eficazes em diferentes famílias de modelos base estudantes. Análises mais aprofundadas revelam que a escala do modelo por si só não prevê significativamente a eficácia do professor; em vez disso, qualidades dos dados, como diversidade de *prompts*, extensão e fluência da resposta, capturam mais de 93,3% da variância na qualidade intrínseca dos dados e preveem o desempenho do estudante. Por fim, fornecemos recomendações práticas, incluindo combinar as famílias de modelos dos pares professor-estudante e traduzir a partir de *prompts* existentes ou responder a eles, o que pode gerar melhorias para idiomas com menos recursos. Esperamos que o nosso trabalho avance a pesquisa centrada em dados no desenvolvimento de dados sintéticos multilingues e de modelos de linguagem.
A localização precisa de pontos-chave humanos em 3D é uma tecnologia crítica que permite aos robôs alcançar interação física natural e segura com os utilizadores. Os métodos convencionais de estimativa de pontos-chave humanos em 3D focam-se principalmente na qualidade da reconstrução corporal em relação à articulação raiz. No entanto, em cenários práticos de interação homem-robô (HRI), os robôs estão mais preocupados com a localização espacial precisa em escala métrica das partes do corpo relevantes para a tarefa, sob o sistema de coordenadas 3D da câmara egocêntrica. Propomos o TAIHRI, o primeiro Modelo de Visão e Linguagem (VLM) desenvolvido para perceção de HRI em curta distância, capaz de compreender os comandos de movimento dos utilizadores e direcionar a atenção do robô para os pontos-chave mais relevantes para a tarefa. Ao quantizar os pontos-chave 3D num espaço de interação finito, o TAIHRI localiza com precisão as coordenadas espaciais 3D das partes críticas do corpo através do raciocínio sobre pontos-chave 2D via previsão do próximo token, e adapta-se perfeitamente a tarefas subsequentes, como controlo por linguagem natural ou recuperação da malha humana no espaço global. Experiências em benchmarks de interação egocêntrica demonstram que o TAIHRI alcança uma precisão de estimativa superior para as partes do corpo críticas para a tarefa. Acreditamos que o TAIHRI abre novas vias de investigação no campo da interação homem-robô incorporada. O código está disponível em: https://github.com/Tencent/TAIHRI.
Este artigo localiza o mecanismo de roteamento de políticas em modelos de linguagem treinados para alinhamento. Um portão de atenção em uma camada intermediária lê o conteúdo detectado e aciona cabeças amplificadoras mais profundas que impulsionam o sinal em direção à recusa. Em modelos menores, o portão e o amplificador são cabeças únicas; em escalas maiores, eles se tornam faixas de cabeças através de camadas adjacentes. O portão contribui com menos de 1% do DLA de saída, mas testes de intercâmbio (p<0,001) e cascata de nocaute confirmam que ele é causalmente necessário. A triagem por intercâmbio em n>=120 detecta o mesmo motivo em doze modelos de seis laboratórios (2B a 72B), embora as cabeças específicas difiram por laboratório. A ablação por cabeça enfraquece até 58x no modelo de 72B e não detecta portões que o intercâmbio identifica; o intercâmbio é a única auditoria confiável em escala. Modular o sinal da camada de detecção controla continuamente a política, desde a recusa rígida passando pela evasão até a resposta factual. Em *prompts* de segurança, a mesma intervenção transforma a recusa em orientação prejudicial, mostrando que a capacidade treinada para segurança é controlada por roteamento em vez de removida. Os limiares variam por tópico e por idioma de entrada, e o circuito se realoca entre gerações dentro de uma família, enquanto os benchmarks comportamentais não registram mudança. O roteamento é de comprometimento precoce: o portão se compromete em sua própria camada antes que as camadas mais profundas terminem de processar a entrada. Sob uma cifra de substituição *in-context*, a necessidade de intercâmbio do portão colapsa de 70% a 99% em três modelos e o modelo muda para a resolução do quebra-cabeça. A injeção da ativação do portão do texto simples no *forward pass* da cifra restaura 48% das recusas no Phi-4-mini, localizando o desvio na interface de roteamento. Um segundo método, a análise de contraste de cifra, usa diferenças de DLA entre texto simples e cifrado para mapear o circuito completo de roteamento sensível à cifra em O(3n) *forward passes*. Qualquer codificação que derrote a correspondência de padrões na camada de detecção ignora a política, independentemente de as camadas mais profundas reconstruírem o conteúdo ou não.
Apresentamos o ATANT (Teste Automatizado para Aceitação da Verdade Narrativa), uma estrutura de avaliação aberta para medir a continuidade em sistemas de IA: a capacidade de persistir, atualizar, desambiguar e reconstruir contexto significativo ao longo do tempo. Embora a indústria de IA tenha produzido componentes de memória (pipelines de RAG, bancos de dados vetoriais, janelas de contexto longo, camadas de perfil), nenhuma estrutura publicada define ou mede formalmente se esses componentes produzem uma continuidade genuína. Definimos continuidade como uma propriedade do sistema com 7 atributos necessários, introduzimos uma metodologia de avaliação com 10 pontos de verificação que opera sem um LLM no ciclo de avaliação e apresentamos um corpus de teste narrativo de 250 histórias, compreendendo 1.835 questões de verificação em 6 domínios da vida. Avaliamos uma implementação de referência ao longo de 5 iterações do conjunto de testes, progredindo de 58% (arquitetura legada) para 100% no modo isolado (250 histórias) e 100% no modo cumulativo de 50 histórias, com 96% na escala cumulativa de 250 histórias. O resultado cumulativo é a medida principal: quando 250 narrativas de vida distintas coexistem na mesma base de dados, o sistema deve recuperar o fato correto para o contexto correto sem contaminação cruzada. O ATANT é agnóstico ao sistema, independente de modelo e projetado como uma metodologia sequenciada para construir e validar sistemas de continuidade. A especificação da estrutura, histórias de exemplo e o protocolo de avaliação estão disponíveis em https://github.com/Kenotic-Labs/ATANT. O corpus completo de 250 histórias será liberado incrementalmente.
Este relatório técnico intermediário apresenta a família de modelos base SHARE e a interface de utilizador MIRROR. Os modelos SHARE são os primeiros modelos de linguagem causal totalmente pré-treinados por e para as ciências sociais e humanidades (CSH). O seu desempenho na modelização de textos das CSH aproxima-se do de modelos de propósito geral (Phi-4) que utilizam 100 vezes mais tokens, conforme demonstrado pelo nosso benchmark personalizado SSH Cloze. A interface de utilizador MIRROR foi concebida para revisar inputs textuais das disciplinas das CSH, preservando o envolvimento crítico. Ao prototipar uma interface de IA generativa que não gera qualquer texto, propomos uma forma de aproveitar as capacidades dos modelos SHARE sem comprometer a integridade dos princípios e normas das CSH.