Artigos de pesquisa em IA selecionados diariamente com traduções
Apesar dos rápidos avanços em cientistas de IA autónomos baseados em modelos de linguagem, a geração de ilustrações prontas para publicação continua a ser um estrangulamento intensivo em mão-de-obra no fluxo de trabalho de investigação. Para aliviar este fardo, apresentamos o PaperBanana, um *framework* agentivo para a geração automatizada de ilustrações académicas publicáveis. Alimentado por modelos de linguagem visual e de geração de imagens de última geração, o PaperBanana orquestra agentes especializados para recuperar referências, planear conteúdo e estilo, renderizar imagens e refinar iterativamente através de auto-crítica. Para avaliar rigorosamente o nosso *framework*, introduzimos o PaperBananaBench, composto por 292 casos de teste para diagramas de metodologia curados a partir de publicações da NeurIPS 2025, abrangendo diversos domínios de investigação e estilos de ilustração. Experiências abrangentes demonstram que o PaperBanana supera consistentemente as principais *baselines* em fidelidade, concisão, legibilidade e estética. Mostramos ainda que o nosso método se estende eficazmente à geração de gráficos estatísticos de alta qualidade. Coletivamente, o PaperBanana abre caminho para a geração automatizada de ilustrações prontas para publicação.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tornou-se um pilar fundamental para desbloquear o raciocínio complexo em Modelos de Linguagem de Grande Porte (LLMs). No entanto, a escalabilidade do RL é limitada pela escassez de dados verificáveis existentes, onde as melhorias tendem a saturar progressivamente durante treinamentos prolongados. Para superar isso, propomos o Golden Goose, um método simples para sintetizar tarefas ilimitadas de RLVR a partir de textos da internet não verificáveis, criando uma versão de tarefa de preenchimento no meio no formato de questão de múltipla escolha. Dado um texto-fonte, instruímos um LLM a identificar e mascarar etapas-chave de raciocínio, gerando em seguida um conjunto de distratores plausíveis e diversos. Isso nos permite aproveitar corpora não verificáveis ricos em raciocínio, normalmente excluídos da construção de dados RLVR anteriores (por exemplo, livros didáticos de ciências), para sintetizar o GooseReason-0.7M, um conjunto de dados RLVR em larga escala com mais de 0,7 milhão de tarefas abrangendo matemática, programação e domínios científicos gerais. Empiricamente, o GooseReason revive efetivamente modelos saturados com dados RLVR existentes, proporcionando ganhos robustos e sustentados sob RL contínuo e alcançando novos resultados state-of-the-art para modelos 1.5B e 4B-Instruct em 15 benchmarks diversos. Por fim, implantamos o Golden Goose em um cenário do mundo real, sintetizando tarefas RLVR a partir de *scrapes* brutos do FineWeb para o domínio de cibersegurança, onde nenhum dado RLVR anterior existia. Treinar o Qwen3-4B-Instruct nos dados resultantes, GooseReason-Cyber, estabelece um novo estado da arte em cibersegurança, superando um modelo especializado de domínio de 7B com extensivo pré-treinamento e pós-treinamento específico. Isso destaca o potencial de escalar automaticamente os dados RLVR explorando textos da internet abundantes, ricos em raciocínio e não verificáveis.
Os modelos de linguagem de grande escala (LLMs) são cada vez mais utilizados como agentes aumentados por ferramentas para tomada de decisão multi-etapas, contudo, o treinamento de agentes robustos no uso de ferramentas permanece um desafio. Os métodos existentes ainda exigem intervenção manual, dependem de ambientes simulados não verificáveis, baseiam-se exclusivamente em ajuste fino supervisionado (SFT) ou aprendizagem por reforço (RL), e lutam com um aprendizado estável de longo horizonte e multi-turno. Para enfrentar esses desafios, introduzimos a ASTRA, uma estrutura automatizada de ponta a ponta para treinar agentes de modelo de linguagem aumentados por ferramentas via síntese escalável de dados e aprendizagem por reforço verificável. A ASTRA integra dois componentes complementares. Primeiro, um *pipeline* que aproveita a topologia estática de grafos de chamadas de ferramentas sintetiza trajetórias diversificadas e estruturalmente fundamentadas, incutindo uma competência ampla e transferível no uso de ferramentas. Segundo, uma estrutura de síntese de ambiente que captura a topologia composicional e rica do raciocínio semântico humano converte rastros de perguntas e respostas decompostas em ambientes independentes, executáveis por código e verificáveis por regras, permitindo RL multi-turno determinístico. Com base neste método, desenvolvemos uma metodologia de treinamento unificada que integra SFT com RL online usando recompensas a nível de trajetória para equilibrar a conclusão da tarefa e a eficiência da interação. Experimentos em múltiplos benchmarks de uso de ferramentas agentivas demonstram que os modelos treinados com ASTRA alcançam desempenho de última geração em escalas comparáveis, aproximando-se de sistemas de código fechado enquanto preservam a capacidade de raciocínio central. Disponibilizamos os *pipelines* completos, ambientes e modelos treinados em https://github.com/LianjiaTech/astra.
O formato de precisão reduzida NVFP4, suportado em hardware pelas GPUs NVIDIA Blackwell, promete permitir, pela primeira vez, o pré-treinamento totalmente quantizado de ponta a ponta de modelos massivos, como os LLMs. No entanto, os métodos de treinamento quantizado existentes ainda sacrificam parte da capacidade de representação deste formato em favor de uma estimativa de gradiente quantizado não enviesada mais precisa através do arredondamento estocástico (SR), perdendo precisão perceptível em relação ao treinamento padrão em FP16 e FP8. Neste artigo, melhoramos o estado da arte para treinamento quantizado em NVFP4 por meio de uma nova rotina de quantização não enviesada para formatos em microescala, denominada MS-EDEN, que possui um erro de quantização mais de 2x menor do que o SR. Integramo-la em um novo esquema de quantização totalmente em NVFP4 para camadas lineares, chamado Quartet II. Mostramos analiticamente que o Quartet II alcança uma estimativa de gradiente consistentemente melhor em todas as principais multiplicações de matrizes, tanto nas passagens diretas quanto nas retropropagações. Além disso, nossa proposta sinergiza bem com melhorias recentes de treinamento direcionadas especificamente ao NVFP4. Validamos ainda mais o Quartet II no treinamento de LLMs de ponta a ponta com até 1,9B de parâmetros em 38B de tokens. Fornecemos *kernels* para execução em GPUs NVIDIA Blackwell com aceleração de até 4,2x em relação ao BF16. Nosso código está disponível em https://github.com/IST-DASLab/Quartet-II.
Os grandes modelos de raciocínio (LRMs) alcançam desempenho notável ao utilizar aprendizagem por reforço (RL) em tarefas de raciocínio para gerar longas cadeias de pensamento (CoT). No entanto, esta sobre-otimização frequentemente prioriza a complacência, tornando os modelos vulneráveis a *prompts* maliciosos. Para mitigar esta degradação de segurança, abordagens recentes dependem de destilação por um professor externo, o que introduz uma discrepância distribucional que degrada o raciocínio nativo. Propomos o ThinkSafe, um quadro de alinhamento auto-gerado que restaura o alinhamento de segurança sem professores externos. A nossa perceção fundamental é que, embora a complacência suprima os mecanismos de segurança, os modelos frequentemente retêm conhecimento latente para identificar danos. O ThinkSafe liberta este conhecimento através de uma orientação leve de recusa, guiando o modelo para gerar vestígios de raciocínio de segurança dentro da distribuição. O *fine-tuning* nestas respostas auto-geradas realinha o modelo eficazmente, minimizando a mudança distribucional. Experiências no DeepSeek-R1-Distill e Qwen3 mostram que o ThinkSafe melhora significativamente a segurança, preservando a proficiência de raciocínio. Notavelmente, alcança segurança superior e raciocínio comparável ao GRPO, com um custo computacional significativamente reduzido. Código, modelos e conjuntos de dados estão disponíveis em https://github.com/seanie12/ThinkSafe.git.
Embora o pensamento em cadeia (Chain-of-Thought, CoT) melhore significativamente o desempenho dos Grandes Modelos de Linguagem (LLMs), as cadeias de raciocínio explícitas introduzem uma redundância computacional substancial. Métodos recentes de raciocínio latente tentam mitigar isso comprimindo os processos de raciocínio em um espaço latente, mas frequentemente sofrem com uma degradação severa de desempenho devido à falta de orientação adequada para a compressão. Neste estudo, propomos o Raciocínio Latente Variacional Guiado por CoT Renderizado (ReGuLaR), um paradigma de aprendizado latente simples, porém inovador, que resolve esta questão. Fundamentalmente, formulamos o raciocínio latente dentro da estrutura de Autoencoder Variacional (VAE), amostrando o estado atual do raciocínio latente a partir da distribuição posterior condicionada aos estados anteriores. Especificamente, ao aprender este modelo de raciocínio latente variacional, renderizamos as cadeias de raciocínio explícitas como imagens, das quais extraímos representações visuais-semânticas densas para regularizar a distribuição posterior, alcançando assim uma compressão eficiente com perda mínima de informação. Experimentos extensivos demonstram que o ReGuLaR supera significativamente os métodos de raciocínio latente existentes tanto em eficiência computacional quanto em eficácia do raciocínio, e até mesmo supera o CoT por meio do raciocínio multimodal, fornecendo uma solução nova e perspicaz para o raciocínio latente. Código: https://github.com/FanmengWang/ReGuLaR.
O Treino em Tempo de Teste (Test-Time Training) oferece uma forma promissora de melhorar a capacidade de raciocínio de modelos de linguagem grandes (LLMs) ao adaptar o modelo usando apenas as questões de teste. No entanto, os métodos existentes lutam com problemas de raciocínio difíceis por duas razões: as questões de teste brutas são frequentemente demasiado difíceis para produzir pseudo-rótulos de alta qualidade, e o tamanho limitado dos conjuntos de teste torna as atualizações online contínuas propensas a instabilidade. Para superar estas limitações, propomos o TTCS, uma estrutura de treino em tempo de teste de co-evolução. Especificamente, o TTCS inicializa duas políticas a partir do mesmo modelo pré-treinado: um sintetizador de questões e um resolvedor de raciocínio. Estas políticas evoluem através de uma otimização iterativa: o sintetizador gera variantes de questões progressivamente mais desafiadoras, condicionadas pelas questões de teste, criando um currículo estruturado adaptado à capacidade atual do resolvedor, enquanto o resolvedor se atualiza usando recompensas de auto-consistência calculadas a partir de múltiplas respostas amostradas tanto nas questões de teste originais como nas questões sintéticas. Crucialmente, o *feedback* do resolvedor guia o sintetizador para gerar questões alinhadas com a capacidade atual do modelo, e as variantes de questões geradas, por sua vez, estabilizam o treino em tempo de teste do resolvedor. Experiências mostram que o TTCS fortalece consistentemente a capacidade de raciocínio em *benchmarks* matemáticos desafiadores e transfere-se para tarefas de domínio geral através de diferentes arquiteturas de LLM, destacando um caminho escalável para a construção dinâmica de currículos em tempo de teste para auto-evolução. O nosso código e detalhes de implementação estão disponíveis em https://github.com/XMUDeepLIT/TTCS.
Este trabalho destaca que a modelagem de mundos em vídeo, juntamente com o pré-treinamento visão-linguagem, estabelece uma base nova e independente para a aprendizagem de robôs. Intuitivamente, os modelos de mundo em vídeo fornecem a capacidade de imaginar o futuro próximo através da compreensão da causalidade entre ações e dinâmicas visuais. Inspirados por isso, introduzimos o LingBot-VA, uma estrutura de difusão autoregressiva que aprende a previsão de quadros e a execução de políticas simultaneamente. Nosso modelo apresenta três projetos cuidadosamente elaborados: (1) um espaço latente compartilhado, integrando tokens visuais e de ação, orientado por uma arquitetura *Mixture-of-Transformers* (MoT), (2) um mecanismo de *rollout* em circuito fechado, permitindo a aquisição contínua de *feedback* ambiental com observações de verdade terrestre (*ground-truth*), (3) um pipeline de inferência assíncrona, paralelizando a previsão de ações e a execução motora para suportar um controle eficiente. Avaliamos nosso modelo tanto em benchmarks de simulação quanto em cenários do mundo real, onde ele demonstra um potencial significativo na manipulação de longo horizonte, eficiência de dados no pós-treinamento e forte generalização para novas configurações. O código e o modelo estão disponíveis publicamente para facilitar a comunidade.
O raciocínio de agentes de longo horizonte requer a compressão eficaz de históricos de interação crescentes em uma janela de contexto limitada. A maioria dos sistemas de memória existentes serializa o histórico como texto, onde o custo por token é uniforme e escala linearmente com o comprimento, frequentemente gastando o orçamento escasso em detalhes de baixo valor. Para tal, apresentamos o MemOCR, um agente de memória multimodal que melhora o raciocínio de longo horizonte sob orçamentos de contexto restritos, alocando espaço de memória com densidade de informação adaptativa através de layout visual. Concretamente, o MemOCR mantém uma memória estruturada em rich-text (por exemplo, títulos, destaques) e a renderiza numa imagem que o agente consulta para acesso à memória, priorizando visualmente evidências cruciais enquanto comprime agressivamente detalhes auxiliares. Para garantir robustez em diferentes orçamentos de memória, treinamos o MemOCR com aprendizagem por reforço sob objetivos conscientes do orçamento que expõem o agente a diversos níveis de compressão. Em benchmarks de resposta a perguntas multi-hop e single-hop de longo contexto, o MemOCR supera baselines baseados em texto e alcança uma utilização de contexto mais eficaz sob orçamentos extremos.
Os modelos de embedding de última geração são cada vez mais derivados de arquiteturas base de Large Language Models (LLM) somente-decodificador, adaptadas via aprendizagem contrastiva. Dada a emergência de modelos de raciocínio treinados por meio de Reinforcement Learning with Verifiable Rewards (RLVR), uma questão natural surge: será que capacidades de raciocínio aprimoradas se traduzem em representações semânticas superiores quando esses modelos servem como inicialização para embeddings? Contrariamente à expectativa, nossa avaliação no MTEB e no BRIGHT revela um **efeito nulo**: modelos de embedding inicializados a partir de bases ajustadas por RLVR não apresentam vantagem de desempenho consistente sobre suas contrapartes base quando submetidos às mesmas receitas de treinamento. Para desvendar este paradoxo, introduzimos a **A**nálise de **S**emelhança de **R**epresentação **H**ierárquica (HRSA), uma estrutura que decompõe a similaridade nos níveis de representação, geometria e função. A HRSA revela que, embora o RLVR induza uma reorganização irreversível da geometria local da variedade latente e um desvio reversível da base de coordenadas, ele preserva a geometria global da variedade e a leitura linear. Consequentemente, a subsequente aprendizagem contrastiva promove um forte alinhamento entre os modelos inicializados a partir da base e dos modelos de raciocínio, um fenômeno que denominamos **Realinhamento da Variedade**. Empiricamente, nossas descobertas sugerem que, ao contrário do Ajuste Fino Supervisionado (SFT), o RLVR otimiza trajetórias dentro de uma paisagem semântica existente, em vez de reestruturar fundamentalmente a própria paisagem.
Os Modelos de Linguagem de Grande Porte (LLMs) são normalmente avaliados quanto à segurança sob *prompts* adversariais de orçamento único ou baixo, o que subestima o risco do mundo real. Na prática, os atacantes podem explorar a amostragem paralela em larga escala para sondar repetidamente um modelo até que uma resposta prejudicial seja produzida. Embora trabalhos recentes mostrem que o sucesso do ataque aumenta com a amostragem repetida, os métodos fundamentados para prever o risco adversarial em larga escala permanecem limitados. Propomos uma estimativa de risco consciente da escala para N amostras, a SABER, para modelar a vulnerabilidade de *jailbreak* sob amostragem do tipo "Melhor de N". Modelamos as probabilidades de sucesso a nível de amostra usando uma distribuição Beta, o prior conjugado da distribuição Bernoulli, e derivamos uma lei de escala analítica que permite a extrapolação confiável das taxas de sucesso de ataque para N grande a partir de medições de orçamento pequeno. Utilizando apenas n=100 amostras, o nosso estimador ancorado prevê ASR@1000 com um erro absoluto médio de 1,66, comparado com 12,04 para a linha de base, o que representa uma redução de 86,2% no erro de estimativa. Os nossos resultados revelam perfis heterogéneos de escalonamento de risco e mostram que modelos que parecem robustos sob avaliação padrão podem sofrer uma amplificação de risco não linear rápida sob pressão adversária paralela. Este trabalho fornece uma metodologia de baixo custo e escalável para a avaliação realista da segurança de LLMs. Disponibilizaremos o nosso código e scripts de avaliação após a publicação para pesquisas futuras.
Apesar do potencial não autorregressivo dos modelos de linguagem de difusão (dLLMs), as estratégias de decodificação existentes demonstram viés posicional, falhando em liberar totalmente o potencial de geração arbitrária. Neste trabalho, investigamos as características espectrais inerentes dos dLLMs e apresentamos a primeira análise no domínio da frequência, mostrando que os componentes de baixa frequência nos estados ocultos codificam principalmente informações estruturais globais e dependências de longo alcance, enquanto os componentes de alta frequência são responsáveis por caracterizar detalhes locais. Com base nesta observação, propomos o FourierSampler, que aproveita um mecanismo de janela deslizante no domínio da frequência para orientar dinamicamente o modelo a alcançar uma geração "da estrutura para o detalhe". O FourierSampler supera outras estratégias de aprimoramento de inferência no LLADA e SDAR, alcançando melhorias relativas de 20,4% no LLaDA1.5-8B e 16,0% no LLaDA-8B-Instruct. Notavelmente, supera modelos autorregressivos de tamanho similar, como o Llama3.1-8B-Instruct.
Apresentamos o PaddleOCR-VL-1.5, um modelo aprimorado que atinge uma nova precisão state-of-the-art (SOTA) de 94,5% no OmniDocBench v1.5. Para avaliar rigorosamente a robustez contra distorções físicas do mundo real, incluindo digitalização, inclinação, deformação, fotografia de tela e iluminação, propomos o benchmark Real5-OmniDocBench. Resultados experimentais demonstram que este modelo aprimorado atinge desempenho SOTA no novo benchmark curado. Além disso, estendemos as capacidades do modelo incorporando tarefas de reconhecimento de selos e detecção de texto, mantendo-se um VLM ultradenso de 0,9B com alta eficiência. Código: https://github.com/PaddlePaddle/PaddleOCR
Abordagens recentes baseadas em GRPO, construídas sobre modelos de correspondência de fluxo (flow matching), têm mostrado melhorias notáveis no alinhamento com preferências humanas para geração de texto-imagem. No entanto, elas ainda sofrem com o problema da recompensa esparsa: a recompensa terminal de toda a trajetória de remoção de ruído é aplicada a todas as etapas intermediárias, resultando em um descompasso entre os sinais de feedback global e as contribuições granulares exatas nas etapas intermediárias do processo. Para resolver essa questão, introduzimos o DenseGRPO, uma estrutura inovadora que alinha a preferência humana com recompensas densas, avaliando a contribuição granular de cada etapa de remoção de ruído. Especificamente, nossa abordagem inclui dois componentes principais: (1) propomos prever o ganho de recompensa por etapa como uma recompensa densa para cada passo de desruído, aplicando um modelo de recompensa nas imagens limpas intermediárias por meio de uma abordagem baseada em EDOs. Esse método garante um alinhamento entre os sinais de feedback e as contribuições de etapas individuais, facilitando um treinamento eficaz; e (2) com base nas recompensas densas estimadas, uma desvantagem de descompasso entre a configuração de exploração uniforme e a intensidade de ruído variável no tempo nos métodos baseados em GRPO existentes é revelada, levando a um espaço de exploração inadequado. Assim, propomos um esquema consciente da recompensa para calibrar o espaço de exploração, ajustando adaptativamente uma injeção de estocasticidade específica por passo de tempo no amostrador de EDEs, garantindo um espaço de exploração adequado em todos os intervalos de tempo. Experimentos extensos em múltiplos benchmarks padrão demonstram a eficácia do DenseGRPO proposto e destacam o papel crítico das recompensas densas válidas no alinhamento de modelos de correspondência de fluxo.
Estudos recentes exploraram o uso de Modelos de Base Visuais (VFMs) pré-treinados, como o DINO, em autoencoders generativos, demonstrando um forte desempenho generativo. Infelizmente, as abordagens existentes frequentemente sofrem com fidelidade de reconstrução limitada devido à perda de detalhes de alta frequência. Neste trabalho, apresentamos o Autoencoder Esférico DINO (DINO-SAE), uma estrutura que conecta a representação semântica e a reconstrução em nível de pixel. Nossa principal percepção é que a informação semântica nas representações contrastivas é codificada principalmente na direção dos vetores de características, enquanto forçar uma correspondência estrita de magnitude pode impedir o codificador de preservar detalhes refinados. Para resolver isso, introduzimos o módulo Hierarchical Convolutional Patch Embedding, que aprimora a preservação de estruturas locais e texturas, e o objetivo Cosine Similarity Alignment, que impõe consistência semântica enquanto permite magnitudes de características flexíveis para a retenção de detalhes. Adicionalmente, aproveitando a observação de que as representações dos modelos de base baseados em Aprendizado Auto-Supervisionado (SSL) residem intrinsecamente em uma hiperesfera, empregamos o Riemannian Flow Matching para treinar um Transformer de Difusão (DiT) diretamente nesta variedade latente esférica. Experimentos no ImageNet-1K demonstram que nossa abordagem alcança qualidade de reconstrução state-of-the-art, atingindo 0.37 rFID e 26.2 dB PSNR, enquanto mantém uma forte alinhamento semântico com o VFM pré-treinado. Notavelmente, nosso DiT baseado em Riemannian Flow Matching exibe convergência eficiente, alcançando um gFID de 3.47 em 80 épocas.
A animação de imagens de personagens visa sintetizar vídeos de alta fidelidade transferindo o movimento de uma sequência motora para uma imagem de referência estática. Apesar dos avanços recentes, os métodos existentes sofrem com dois desafios fundamentais: (1) estratégias subótimas de injeção de movimento que levam a um compromisso entre a preservação da identidade e a consistência do movimento, manifestando-se como um "sobe-e-desce", e (2) uma excessiva dependência de *priors* de pose explícitos (por exemplo, esqueletos), que capturam inadequadamente dinâmicas complexas e dificultam a generalização para personagens arbitrários e não humanoides. Para enfrentar esses desafios, apresentamos o DreamActor-M2, uma estrutura de animação universal que reconcebe o condicionamento de movimento como um problema de aprendizado em contexto. Nossa abordagem segue um paradigma de dois estágios. Primeiro, superamos a lacuna de modalidade de entrada fundindo a aparência de referência e os indícios de movimento em um espaço latente unificado, permitindo que o modelo raciocine conjuntamente sobre identidade espacial e dinâmica temporal, aproveitando o *prior* generativo de modelos fundamentais. Em segundo lugar, introduzimos um pipeline de síntese de dados auto-inicializado que seleciona pares de treinamento pseudo cruzados de identidade, facilitando uma transição suave do controle dependente de pose para a animação RGB direta e de ponta a ponta. Esta estratégia melhora significativamente a generalização em diversos personagens e cenários de movimento. Para facilitar uma avaliação abrangente, introduzimos ainda o AW Bench, um *benchmark* versátil que abrange um amplo espectro de tipos de personagens e cenários de movimento. Experimentos extensivos demonstram que o DreamActor-M2 atinge um desempenho de ponta, oferecendo fidelidade visual superior e uma generalização robusta entre domínios. Página do Projeto: https://grisoon.github.io/DreamActor-M2/
O Aprendizado por Reforço com Feedback Humano (RLHF) é uma técnica fundamental para alinhar grandes modelos de linguagem (LLMs) com as preferências humanas, mas é suscetível à superotimização da recompensa, na qual os modelos de política se ajustam excessivamente ao modelo de recompensa, explorando padrões espúrios em vez de capturar fielmente a intenção humana. As mitigações anteriores baseiam-se principalmente em informações semânticas superficiais e não conseguem abordar eficientemente o desalinhamento entre o modelo de recompensa (RM) e o modelo de política causado por mudanças contínuas na distribuição da política. Isso inevitavelmente leva a uma discrepância crescente na recompensa, exacerbando a superotimização. Para superar essas limitações, introduzimos o R2M (Modelo de Recompensa Alinhado em Tempo Real), uma nova estrutura leve de RLHF. O R2M vai além dos modelos de recompensa convencionais que dependem exclusivamente das representações semânticas de um LLM pré-treinado. Em vez disso, ele aproveita os estados ocultos em evolução da política (denominados feedback da política) para se alinhar à mudança de distribuição em tempo real da política durante o processo de RL. Este trabalho aponta para uma nova direção promissora para melhorar o desempenho dos modelos de recompensa por meio da utilização em tempo real do feedback dos modelos de política.
O aprendizado por reforço com recompensas verificáveis emergiu como um paradigma poderoso para o treinamento de agentes inteligentes. No entanto, os métodos existentes geralmente empregam recompensas binárias que não conseguem capturar diferenças de qualidade entre trajetórias que alcançam resultados idênticos, ignorando assim a diversidade potencial dentro do espaço de soluções. Inspirado pelo conceito do "ponto ideal" (*sweet spot*) no tênis - a região central da raquete que produz os efeitos de impacto ótimos - introduzimos a Aprendizagem pelo Ponto Ideal (SSL), uma estrutura nova que fornece orientação diferenciada para a otimização de agentes. O SSL segue um princípio simples, porém eficaz: recompensas escalonadas e progressivamente amplificadas guiam as políticas em direção à região do ponto ideal do espaço de soluções. Este princípio adapta-se naturalmente a diversas tarefas: tarefas de percepção visual aproveitam a modelagem escalonada por distância para recompensar a proximidade, enquanto tarefas de raciocínio complexo recompensam o progresso incremental em direção a soluções promissoras. Demonstramos teoricamente que o SSL preserva a ordenação ótima de soluções e melhora a relação sinal-ruído do gradiente, fomentando assim uma otimização mais direcionada. Experimentos extensos em tarefas de percepção de GUI, planejamento de curto/longo prazo e raciocínio complexo mostram melhorias consistentes sobre bases de comparação robustas em 12 *benchmarks*, alcançando ganhos de eficiência amostral de até 2,5 vezes e uma efetiva transferibilidade entre tarefas. O nosso trabalho estabelece o SSL como um princípio geral para o treinamento de agentes capazes e robustos.
Os modelos de linguagem de áudio (LALMs) autoregressivos (AR) de grande escala, como o Qwen-2.5-Omni, alcançaram um desempenho robusto na compreensão e interação com áudio. No entanto, a sua escalabilidade continua a ser dispendiosa em termos de dados e computação, e a decodificação estritamente sequencial limita a eficiência da inferência. Recentemente, demonstrou-se que os modelos de linguagem de grande escala baseados em difusão (dLLMs) utilizam eficazmente dados de treino limitados, e trabalhos anteriores sobre o DIFFA indicam que substituir uma arquitetura AR por uma contraparte de difusão pode melhorar substancialmente a compreensão de áudio em configurações equivalentes, embora numa escala de prova de conceito, sem ajuste fino em larga escala por instruções, alinhamento de preferências ou esquemas de decodificação práticos. Apresentamos o DIFFA-2, um LALM prático baseado em difusão para compreensão geral de áudio. O DIFFA-2 atualiza o codificador de fala, emprega adaptadores duplos semânticos e acústicos, e é treinado com um currículo de quatro estágios que combina alinhamento semântico e acústico, ajuste fino supervisionado em larga escala e otimização de preferências com variância reduzida, utilizando apenas corpora totalmente de código aberto. Experiências no MMSU, MMAU e MMAR mostram que o DIFFA-2 melhora consistentemente em relação ao DIFFA e é competitivo face a LALMs AR robustos sob orçamentos de treino práticos, apoiando a ideia de que a modelação baseada em difusão é uma arquitetura viável para a compreensão de áudio em larga escala. O nosso código está disponível em https://github.com/NKU-HLT/DIFFA.git.
Os Grandes Modelos de Linguagem (LLMs) demonstram capacidades notáveis, mas a sua previsão estocástica do próximo token cria inconsistências lógicas e manipulação de recompensas que os sistemas simbólicos formais evitam. Para colmatar esta lacuna, introduzimos uma estrutura orientada pela verificação de lógica formal que intercala dinamicamente a verificação simbólica formal com o processo de geração de linguagem natural, fornecendo feedback em tempo real para detetar e retificar erros à medida que ocorrem. Distinguindo-se de métodos neuro-simbólicos anteriores limitados pela validação passiva a posteriori, a nossa abordagem penaliza ativamente falácias intermédias durante a cadeia de raciocínio. Operacionalizamos esta estrutura através de um pipeline de treino inovador em duas fases que sinergiza o ajuste fino supervisionado orientado por verificação de lógica formal e a otimização de políticas. A avaliação extensiva em seis benchmarks abrangendo raciocínio matemático, lógico e geral demonstra que os nossos modelos de 7B e 14B superam os melhores baselines existentes por margens médias de 10,4% e 14,2%, respetivamente. Estes resultados validam que a verificação formal pode servir como um mecanismo escalável para expandir significativamente os limites de desempenho do raciocínio avançado em LLMs.
A geração de imagens baseada em VQ (Vector Quantization) segue tipicamente um pipeline de dois estágios: um tokenizador codifica as imagens em *tokens* discretos, e um modelo generativo aprende as suas dependências para reconstrução. Contudo, a melhoria na tokenização na primeira etapa não necessariamente melhora a geração na segunda etapa, uma vez que os métodos existentes não conseguem restringir as dependências entre *tokens*. Este desajuste força o modelo generativo a aprender a partir de distribuições não ordenadas, resultando em *bias* e fraca coerência. Para resolver isto, propomos uma tokenização visual nativa, que impõe dependências causais durante a tokenização. Com base nesta ideia, introduzimos o **NativeTok**, um *framework* que alcança uma reconstrução eficiente enquanto incorpora restrições relacionais nas sequências de *tokens*. O NativeTok é composto por: (1) um *Meta Image Transformer* (MIT) para modelar a imagem latente, e (2) uma *Mixture of Causal Expert Transformer* (MoCET), na qual cada bloco especialista (*expert*) leve gera um único *token* condicionado aos *tokens* anteriores e às características latentes. Projetamos ainda uma estratégia de *Hierarchical Native Training* que atualiza apenas os novos blocos especialistas, garantindo a eficiência do treino. Experiências extensivas demonstram a eficácia do NativeTok.
Os grandes modelos de linguagem (LLMs) conseguem invocar ferramentas de forma eficaz, mas permanecem frágeis na execução multi-turno: após um erro de chamada de ferramenta, modelos menores frequentemente degeneram em reinvocações inválidas e repetitivas, falhando em interpretar o *feedback* de erro e autocorrigir-se. Essa fragilidade dificulta a implantação confiável no mundo real, onde os erros de execução são inerentemente inevitáveis durante os procedimentos de interação com ferramentas. Identificamos uma limitação fundamental das abordagens atuais: o reforço de aprendizagem (RL) padrão trata os erros como recompensas negativas esparsas, não fornecendo orientação sobre como recuperar-se, enquanto conjuntos de dados sintéticos de correção de erros pré-coletados sofrem com desvio de distribuição em relação aos modos de erro *on-policy* do modelo. Para preencher essa lacuna, propomos o Fission-GRPO, uma estrutura que converte erros de execução em supervisão corretiva dentro do ciclo de treinamento de RL. Nosso mecanismo central fissiona cada trajetória falhada em uma nova instância de treinamento, aumentando-a com *feedback* diagnóstico de um Simulador de Erros afinado (*finetuned*), e então reamostrando *rollouts* de recuperação *on-policy*. Isso permite que o modelo aprenda com os erros precisos que comete durante a exploração, em vez de casos de erro estáticos e pré-coletados. No BFCL v4 Multi-Turn, o Fission-GRPO melhora a taxa de recuperação de erros do Qwen3-8B em 5,7% absolutos e, crucialmente, produz um ganho de precisão geral de 4% (42,75% para 46,75%) em relação ao GRPO, superando agentes especializados em uso de ferramentas.
Embora os Modelos de Linguagem de Grande Porte (LLMs) tenham mostrado potencial em engenharia de software, sua aplicação em teste de unidade permanece amplamente confinada à geração isolada de testes ou à predição de oráculos, negligenciando o desafio mais amplo da manutenção de conjuntos de testes. Apresentamos o TAM-Eval (Test Automated Maintenance Evaluation), uma estrutura e benchmark concebidos para avaliar o desempenho de modelos em três cenários centrais de manutenção de testes: criação, reparo e atualização de conjuntos de testes. Diferente de trabalhos anteriores limitados a tarefas em nível de função, o TAM-Eval opera em nível de arquivo de teste, mantendo acesso ao contexto completo do repositório durante a avaliação isolada, refletindo melhor os fluxos de trabalho de manutenção do mundo real. Nosso benchmark compreende 1.539 cenários extraídos e validados automaticamente de projetos em Python, Java e Go. O TAM-Eval suporta avaliação independente de sistema para LLMs brutos e fluxos de trabalho agentivos, usando um protocolo livre de referência baseado na taxa de aprovação do conjunto de testes, cobertura de código e teste de mutação. Resultados empíricos indicam que LLMs state-of-the-art possuem capacidades limitadas em processos realistas de manutenção de testes e produzem apenas melhorias marginais na eficácia dos testes. Disponibilizamos o TAM-Eval como uma estrutura de código aberto para apoiar pesquisas futuras em teste de software automatizado. Nossos dados e código estão publicamente disponíveis em https://github.com/trndcenter/TAM-Eval.
Apresentamos o RM-RF, um modelo de recompensa leve para avaliação livre de execução de testes unitários gerados automaticamente. Em vez de compilar e executar repetidamente testes candidatos, o RM-RF prevê - apenas a partir do código-fonte e do código de teste - três sinais derivados da execução: (1) se o conjunto de testes aumentado compila e é executado com sucesso, (2) se os casos de teste gerados aumentam a cobertura de código, e (3) se os casos de teste gerados melhoram a taxa de eliminação de mutantes. Para treinar e avaliar o RM-RF, reunimos um conjunto de dados multilíngue (Java, Python, Go) de arquivos focais, arquivos de teste e adições de teste candidatas rotuladas por um *pipeline* baseado em execução, e disponibilizamos um conjunto de dados e metodologia associados para avaliação comparativa. Testamos várias famílias de modelos e regimes de ajuste (*zero-shot*, *fine-tuning* completo e PEFT via LoRA), alcançando um F1 médio de 0,69 nos três objetivos. Em comparação com os instrumentos convencionais de compilação e execução, o RM-RF oferece uma latência e um custo de infraestrutura substancialmente menores, fornecendo ao mesmo tempo uma fidelidade preditiva competitiva, permitindo um *feedback* rápido e escalável para geração de testes em larga escala e otimização de código baseada em Aprendizado por Reforço.
Embora os sistemas multiagente tenham demonstrado potencial para lidar com tarefas complexas por meio da especialização, o ajuste fino de múltiplos agentes simultaneamente enfrenta dois desafios principais: (1) a atribuição de crédito entre os agentes e (2) a eficiência amostral de rollouts multiagente dispendiosos. Neste trabalho, propomos o ajuste fino de sistemas multiagente com recompensas de processo por ação a partir de feedback de IA (MAPPA) para abordar ambos. Ao atribuir crédito a ações individuais dos agentes, em vez de apenas na conclusão da tarefa, o MAPPA permite uma supervisão refinada sem rótulos de verdade fundamental, extraindo ao mesmo tempo o sinal de treinamento máximo de cada rollout. Demonstramos nossa abordagem em problemas de matemática competitiva e tarefas de análise de dados aumentadas por ferramentas. Em problemas matemáticos não vistos, o MAPPA alcança +5,0–17,5 pp no AIME e +7,8–17,2 pp no AMC. Para tarefas de análise de dados, nosso método melhora a taxa de sucesso em +12,5 pp, enquanto as métricas de qualidade melhoram em até 30%, validando que a supervisão por ação pode levar a melhorias em diferentes sistemas multiagente em vários domínios. Ao abordar esses desafios, nosso trabalho dá um primeiro passo em direção à escalabilidade de sistemas multiagente para tarefas complexas e de longo horizonte com supervisão humana mínima.
Agentes de busca profunda (deep search) alimentados por grandes modelos de linguagem demonstraram capacidades robustas em recuperação multi-etapas, raciocínio e execução de tarefas de longo horizonte. No entanto, suas falhas práticas frequentemente decorrem da falta de mecanismos para monitorar e regular os estados de raciocínio e recuperação à medida que as tarefas evoluem sob incerteza. Percepções da neurociência cognitiva sugerem que a metacognição humana é organizada hierarquicamente, integrando detecção rápida de anomalias com uma reflexão acionada seletivamente e orientada pela experiência. Neste trabalho, propomos a Busca Profunda com Monitoramento Metacognitivo (DS-MCM), uma estrutura de busca profunda ampliada com um mecanismo explícito e hierárquico de monitoramento metacognitivo. O DS-MCM integra um Monitor de Consistência Rápida, que realiza verificações leves sobre o alinhamento entre evidências externas e a confiança do raciocínio interno, e um Monitor Lento Orientado pela Experiência, que é ativado seletivamente para orientar intervenções corretivas com base na memória experiencial de trajetórias históricas do agente. Ao incorporar o monitoramento diretamente no ciclo de raciocínio-recuperação, o DS-MCM determina tanto quando uma intervenção é necessária quanto como as ações corretivas devem ser informadas por experiências prévias. Experimentos em múltiplos benchmarks de busca profunda e modelos de base (backbone) demonstram que o DS-MCM melhora consistentemente o desempenho e a robustez.
Estudos de *probing* investigam que informação está codificada nas representações de camadas congeladas de um LLM, treinando um preditor leve sobre elas. Para além da análise, as *probes* são frequentemente usadas operacionalmente em pipelines do tipo *probe-then-steer*: um vetor de conceito aprendido é extraído de uma *probe* e injetado via *steering* de ativação aditiva, somando-o a uma representação de camada durante a *forward pass*. A eficácia deste pipeline depende da estimação de vetores de conceito que sejam precisos, directionalmente estáveis sob ablação e de baixo custo computacional. Motivados por estes desideratos, propomos o RAPTOR (*Ridge-Adaptive Logistic Probe*), uma *probe* logística simples com regularização L2, cuja força *ridge* ajustada por validação produz vetores de conceito a partir de pesos normalizados. Através de extensivos experimentos em LLMs ajustados por instrução e conjuntos de dados de conceitos escritos por humanos, o RAPTOR iguala ou supera *baselines* fortes em precisão, ao mesmo tempo que alcança estabilidade direcional competitiva e um custo de treinamento substancialmente menor; estes resultados quantitativos são apoiados por demonstrações qualitativas de *steering* em tarefas subsequentes. Finalmente, usando o Teorema do Min-max Gaussiano Convexo (CGMT), fornecemos uma caracterização mecanicista da regressão logística *ridge* num modelo Gaussiano idealizado de professor-aluno no regime de alta dimensionalidade e poucos exemplos, explicando como a força da penalização media a precisão da *probe* e a estabilidade do vetor de conceito, e produzindo previsões estruturais que se alinham qualitativamente com as tendências observadas em *embeddings* de LLMs reais.
A Cadeia de Pensamento (CoT) capacita os Grandes Modelos de Linguagem (LLMs) a enfrentarem problemas complexos, mas permanece limitada pelo custo computacional e pelo colapso do percurso de raciocínio quando fundamentada em espaços discretos de tokens. Abordagens recentes de raciocínio latente tentam otimizar a eficiência realizando o raciocínio dentro de estados ocultos contínuos. No entanto, esses métodos geralmente operam como mapeamentos opacos de ponta a ponta, passando de etapas de raciocínio explícitas para estados latentes, e frequentemente exigem um número predefinido de etapas latentes durante a inferência. Neste trabalho, introduzimos o PLaT (Planejamento com Pensamentos Latentes), uma estrutura que reformula o raciocínio latente como planejamento, ao dissociar fundamentalmente o raciocínio da verbalização. Modelamos o raciocínio como uma trajetória determinística de estados de planejamento latentes, enquanto um Decodificador separado ancora esses pensamentos em texto quando necessário. Essa dissociação permite que o modelo determine dinamicamente quando terminar o raciocínio, em vez de depender de hiperparâmetros fixos. Resultados empíricos em benchmarks matemáticos revelam uma compensação distinta: embora o PLaT atinja uma precisão greedy menor do que as linhas de base, ele demonstra escalabilidade superior em termos de diversidade de raciocínio. Isso indica que o PLaT aprende um espaço de solução mais robusto e amplo, oferecendo uma base transparente e escalável para busca durante a inferência.
Como os ambientes digitais (distribuição de dados) estão em constante mudança, com novos dados de interface gráfica chegando ao longo do tempo - introduzindo novos domínios ou resoluções - os agentes treinados em ambientes estáticos sofrem deterioração de desempenho. Neste trabalho, introduzimos os Agentes de IGU Contínuos, uma nova tarefa que requer que agentes de IGU realizem aprendizado contínuo sob domínios e resoluções em mudança. Descobrimos que os métodos existentes falham em manter uma ancoragem estável conforme as distribuições de IGU mudam ao longo do tempo, devido à diversidade de pontos e regiões de interação da interface do usuário em cenários flutuantes. Para resolver isso, introduzimos a Ancoragem de IGU em Fluxo (GUI-AiF), uma nova estrutura de ajuste fino por reforço que estabiliza o aprendizado contínuo através de duas novas recompensas: Recompensa de Ponto de Ancoragem em Fluxo (APR-iF) e Recompensa de Região de Ancoragem em Fluxo (ARR-iF). Essas recompensas orientam os agentes a se alinharem com pontos e regiões de interação em mudança, mitigando a tendência das estratégias de recompensa existentes de superadaptarem-se a pistas de ancoragem estáticas (por exemplo, coordenadas fixas ou escalas de elementos). Experimentos extensivos mostram que o GUI-AiF supera os baselines state-of-the-art. Nosso trabalho estabelece a primeira estrutura de aprendizado contínuo para agentes de IGU, revelando o potencial inexplorado do ajuste fino por reforço para Agentes de IGU Contínuos.
Avanços recentes em modelos de difusão e *flow matching* destacaram uma mudança no alvo de previsão preferido – passando da previsão de ruído (ε) e velocidade (v) para a previsão direta dos dados (x) – particularmente em configurações de alta dimensionalidade. No entanto, uma explicação formal de por que o alvo ideal depende das propriedades específicas dos dados permanece indefinida. Neste trabalho, fornecemos uma estrutura teórica baseada numa formulação de previsão generalizada que acomoda alvos de saída arbitrários, dos quais a previsão de ε, v e x são casos especiais. Derivamos a relação analítica entre a geometria dos dados e o alvo de previsão ótimo, oferecendo uma justificação rigorosa para a superioridade da previsão de x quando a dimensão ambiente excede significativamente a dimensão intrínseca dos dados. Além disso, embora a nossa teoria identifique a dimensionalidade como o fator governante para o alvo de previsão ótimo, a dimensão intrínseca de dados confinados a uma variedade é tipicamente intratável de estimar na prática. Para colmatar esta lacuna, propomos o k-Diff, uma estrutura que emprega uma abordagem orientada por dados para aprender o parâmetro de previsão ótimo k diretamente a partir dos dados, contornando a necessidade de estimação explícita da dimensão. Experiências extensivas em geração de imagens no espaço latente e no espaço de píxeis demonstram que o k-Diff supera consistentemente as linhas de base com alvos fixos em várias arquiteturas e escalas de dados, fornecendo uma abordagem fundamentada e automatizada para melhorar o desempenho generativo.
A aprendizagem de representação é fundamental para muitas tarefas subsequentes, como busca, agrupamento, classificação e reordenação. Os codificadores de sequência de última geração normalmente condensam uma sequência de tokens de comprimento variável em um único vetor usando um operador de pooling, mais comumente um token especial [CLS] ou o *pooling* médio (*mean pooling*) sobre os *embeddings* dos tokens. Neste artigo, identificamos fragilidades sistemáticas nessas estratégias de *pooling*: o [CLS] tende a concentrar a informação nas posições iniciais da sequência e pode sub-representar evidências distribuídas, enquanto o *pooling* médio pode diluir sinais locais salientes, por vezes levando a um desempenho inferior em contextos curtos. Para resolver estas questões, introduzimos o *Landmark Pooling* (LMK), que particiona uma sequência em segmentos, insere tokens de referência (*landmarks*) entre os segmentos e forma a representação final através do *pooling* médio dos *embeddings* desses tokens de referência. Este mecanismo simples melhora a extrapolação para contextos longos sem sacrificar características locais salientes, ao custo de introduzir um pequeno número de tokens especiais. Demonstramos empiricamente que o LMK *pooling* equipara-se aos métodos existentes em tarefas de recuperação de contexto curto e produz melhorias substanciais em tarefas de contexto longo, tornando-o uma alternativa prática e escalável aos métodos de *pooling* atuais.
A Destilação de Conhecimento (KD, do inglês *Knowledge Distillation*) está sendo cada vez mais adotada para transferir capacidades de modelos de linguagem grandes para modelos menores, oferecendo melhorias significativas em eficiência e utilidade, frequentemente superando o ajuste fino padrão. Além do desempenho, a KD também é explorada como um mecanismo de preservação de privacidade para mitigar o risco de vazamento de dados de treinamento. Embora a memorização de dados de treinamento tenha sido amplamente estudada em contextos padrão de pré-treinamento e ajuste fino, sua dinâmica em uma configuração de destilação de conhecimento permanece pouco compreendida. Neste trabalho, estudamos a memorização em todo o pipeline de KD usando três famílias de modelos de linguagem grandes (Pythia, OLMo-2, Qwen-3) e três conjuntos de dados (FineWeb, Wikitext, Nemotron-CC-v2). Descobrimos: (1) modelos destilados memorizam significativamente menos dados de treinamento do que o ajuste fino padrão (reduzindo a memorização em mais de 50%); (2) alguns exemplos são inerentemente mais fáceis de memorizar e representam uma grande fração da memorização durante a destilação (mais de ~95%); (3) a memorização do aluno é previsível antes da destilação usando características baseadas na entropia zlib, divergência KL e perplexidade; e (4) embora a destilação suave e a rígida tenham taxas gerais de memorização semelhantes, a destilação rígida representa um risco maior: ela herda 2,7 vezes mais exemplos específicos do professor do que a destilação suave. No geral, demonstramos que a destilação pode proporcionar tanto uma generalização aprimorada quanto riscos reduzidos de memorização em comparação com o ajuste fino padrão.
A localização de vocabulário aberto requer um alinhamento preciso entre visão e linguagem sob supervisão fraca, mas os métodos existentes dependem de embeddings de sentença globais que carecem de expressividade granular ou introduzem alinhamento em nível de token com supervisão explícita ou designs pesados de atenção cruzada. Propomos o ExpAlign, uma estrutura de alinhamento visão-linguagem fundamentada teoricamente, construída sobre uma formulação principiada de aprendizagem por múltiplas instâncias. O ExpAlign introduz um Cabeçalho de Alinhamento por Expectativa que realiza um agrupamento MIL suave baseado em atenção sobre similaridades token-região, permitindo seleção implícita de tokens e instâncias sem anotações adicionais. Para estabilizar ainda mais o aprendizado de alinhamento, desenvolvemos um esquema de regularização de consistência multiescala baseado em energia, incluindo um objetivo contrastivo multi-positivo Top-K e um Objetivo de Consistência com Consciência Geométrica derivado de uma minimização de energia livre com restrição Lagrangiana. Experimentos extensos mostram que o ExpAlign melhora consistentemente a detecção de vocabulário aberto e a segmentação de instância com zero-shot, particularmente em categorias de cauda longa. Mais notavelmente, ele alcança 36.2 AP_r na divisão minival do LVIS, superando outros métodos state-of-the-art em escala de modelo comparável, mantendo-se leve e eficiente em inferência.
A condução autónoma de ponta a ponta recorre cada vez mais ao pré-treinamento de vídeo auto-supervisionado para aprender representações de planeamento transferíveis. No entanto, o pré-treinamento de modelos de mundo de vídeo para compreensão de cena tem, até agora, proporcionado apenas melhorias limitadas. Esta limitação é agravada pela ambiguidade inerente à condução: cada cenário normalmente fornece apenas uma trajetória humana única, dificultando a aprendizagem de comportamentos multimodais. Neste trabalho, propomos o Drive-JEPA, uma estrutura que integra a Video Joint-Embedding Predictive Architecture (V-JEPA) com destilação de trajetória multimodal para condução de ponta a ponta. Primeiro, adaptamos a V-JEPA para condução de ponta a ponta, pré-treinando um codificador ViT em vídeos de condução em grande escala para produzir representações preditivas alinhadas com o planeamento de trajetória. Segundo, introduzimos um planeador centrado em propostas que destila diversas trajetórias geradas por simulador juntamente com trajetórias humanas, com um mecanismo de seleção sensível ao momento para promover comportamentos estáveis e seguros. Quando avaliado no NAVSIM, a representação V-JEPA combinada com um descodificador simples baseado em transformer supera métodos anteriores em 3 PDMS no cenário livre de perceção. A estrutura completa Drive-JEPA atinge 93.3 PDMS na versão 1 e 87.8 EPDMS na versão 2, estabelecendo um novo estado da arte.
Na poda de redes neurais, a Hipótese do Bilhete Premiado postula que redes grandes contêm sub-redes esparsas, ou "bilhetes premiados", que podem ser treinadas isoladamente para igualar o desempenho de suas contrapartes densas. No entanto, a maioria das abordagens existentes assume um único bilhete premiado universal compartilhado por todas as entradas, ignorando a heterogeneidade inerente dos dados do mundo real. Neste trabalho, propomos o Roteamento do Bilhete (RTL), uma estrutura de poda adaptativa que descobre múltiplas sub-redes especializadas, denominadas *bilhetes adaptativos*, cada uma ajustada a uma classe, cluster semântico ou condição ambiental. Em diversos conjuntos de dados e tarefas, o RTL supera consistentemente as linhas de base de modelo único e múltiplos modelos em precisão balanceada e *recall*, utilizando até 10 vezes menos parâmetros do que modelos independentes e exibindo alinhamento semântico. Além disso, identificamos o *colapso da sub-rede*, uma queda de desempenho sob poda agressiva, e introduzimos uma pontuação de similaridade entre sub-redes que permite o diagnóstico de esparsificação excessiva sem a necessidade de rótulos. No geral, nossos resultados reformulam a poda como um mecanismo para alinhar a estrutura do modelo com a heterogeneidade dos dados, abrindo caminho para uma aprendizagem profunda mais modular e consciente do contexto.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) são um foco principal da pesquisa recente em IA. No entanto, a maior parte do trabalho anterior concentra-se na compreensão de imagens estáticas, enquanto sua capacidade de processar dados sequenciais de áudio e vídeo permanece pouco explorada. Esta lacuna destaca a necessidade de um benchmark de alta qualidade para avaliar sistematicamente o desempenho dos MLLMs em um contexto do mundo real. Apresentamos o SONIC-O1, um benchmark abrangente e totalmente verificado por humanos, abrangendo 13 domínios conversacionais do mundo real com 4.958 anotações e metadados demográficos. O SONIC-O1 avalia os MLLMs em tarefas-chave, incluindo sumarização de resposta aberta, resposta a perguntas de múltipla escolha (MCQ) e localização temporal com racionalizações de apoio (raciocínio). Experimentos com modelos proprietários e de código aberto revelam limitações. Embora a diferença de desempenho na precisão de MCQ entre duas famílias de modelos seja relativamente pequena, observamos uma diferença substancial de 22,6% no desempenho de localização temporal entre os melhores modelos proprietários e de código aberto. O desempenho degrada-se ainda mais entre grupos demográficos, indicando disparidades persistentes no comportamento dos modelos. No geral, o SONIC-O1 fornece um conjunto aberto de avaliação para compreensão multimodal temporalmente fundamentada e socialmente robusta. Disponibilizamos o SONIC-O1 para reprodutibilidade e pesquisa: Página do projeto: https://vectorinstitute.github.io/sonic-o1/ Conjunto de dados: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
Apresentamos o KAPSO, uma estrutura modular para síntese e otimização autónoma de programas. Dado um objetivo em linguagem natural e um método de avaliação, o KAPSO executa iterativamente ideação, síntese e edição de código, execução, avaliação e aprendizagem para melhorar um artefacto executável em direção a objetivos mensuráveis. Em vez de tratar a síntese como um ponto final, o KAPSO utiliza a síntese como um operador dentro de um ciclo de otimização de longo prazo, onde o progresso é definido pelos resultados do avaliador. O KAPSO visa as falhas de longo prazo comuns em agentes de codificação, incluindo a perda de estado experimental, a depuração frágil e a fraca reutilização de conhecimento de domínio, através da integração de três componentes fortemente acoplados. Primeiro, um motor de experimentação nativo do git isola cada tentativa como um *branch*, produzindo artefactos reproduzíveis e preservando a proveniência ao longo das iterações. Segundo, um sistema de conhecimento ingere fontes heterogéneas, incluindo repositórios, manuais internos e recursos externos curados, como documentação, artigos científicos e resultados de pesquisa na web, e organiza-os numa representação estruturada que suporta a recuperação de fluxos de trabalho, implementações e restrições de ambiente. Terceiro, uma camada de memória cognitiva coordena a recuperação e mantém um repositório episódico de lições reutilizáveis, destiladas a partir de *traces* de experimentação (registos de execução, *diffs* e *feedback* do avaliador), reduzindo modos de erro repetitivos e acelerando a convergência. Avaliámos o KAPSO no MLE-Bench (competições de *Machine Learning* estilo Kaggle) e no ALE-Bench (otimização heurística AtCoder) e reportamos o desempenho de ponta a ponta. Código disponível em: https://github.com/Leeroo-AI/kapso
Os padrões de atenção desempenham um papel crucial tanto no treinamento quanto na inferência de grandes modelos de linguagem (LLMs). Trabalhos anteriores identificaram padrões individuais, como cabeças de recuperação, cabeças sumidouro e traços diagonais, mas essas observações permanecem fragmentadas e carecem de uma explicação unificadora. Para preencher essa lacuna, introduzimos a Análise de Previsibilidade de Padrões de Atenção Temporal (TAPPA), uma estrutura unificadora que explica diversos padrões de atenção analisando suas formulações matemáticas subjacentes a partir de uma perspectiva temporalmente contínua. A TAPPA tanto aprofunda a compreensão do comportamento da atenção quanto orienta abordagens de aceleração de inferência. Especificamente, a TAPPA caracteriza os padrões de atenção como padrões previsíveis com regularidades claras e padrões imprevisíveis que aparentam ser efetivamente aleatórios. Nossa análise revela ainda que essa distinção pode ser explicada pelo grau de auto-semelhança das consultas ao longo da dimensão temporal. Concentrando-nos nos padrões previsíveis, fornecemos ainda uma análise matemática detalhada de três casos representativos através do efeito conjunto das consultas, chaves e *Embeddings* Posicionais Rotativos (RoPE). Validamos a TAPPA aplicando as suas perspetivas a tarefas de compressão da cache KV e de poda de LLMs. Nestas tarefas, uma métrica simples motivada pela TAPPA melhora consistentemente o desempenho em relação aos métodos de base. O código está disponível em https://github.com/MIRALab-USTC/LLM-TAPPA.
Apresentamos o Teste de Turing de Personalização Visual (VPTT), um novo paradigma para avaliar a personalização visual contextual baseado na indistinguibilidade perceptual, em vez da replicação de identidade. Um modelo passa no VPTT se a sua saída (imagem, vídeo, recurso 3D, etc.) for indistinguível para um juiz humano ou para um Modelo de Linguagem Visual (VLM) calibrado, em comparação com conteúdos que uma determinada pessoa poderia plausivelmente criar ou partilhar. Para operacionalizar o VPTT, apresentamos a Estrutura VPTT, que integra uma referência de 10.000 personas (VPTT-Bench), um gerador aumentado por recuperação visual (VPRAG) e a Pontuação VPTT, uma métrica baseada apenas em texto calibrada com base em julgamentos humanos e de VLMs. Demonstramos uma alta correlação entre as avaliações humanas, de VLMs e do VPTT, validando a Pontuação VPTT como um proxy perceptual fiável. Experiências demonstram que o VPRAG alcança o melhor equilíbrio entre alinhamento e originalidade, oferecendo uma base escalável e segura em termos de privacidade para a IA generativa personalizada.
Na era pós-Dennard, a otimização de sistemas embarcados exige navegar por complexos compromissos entre eficiência energética e latência. A sintonia heurística tradicional mostra-se frequentemente ineficiente nestes espaços de alta dimensionalidade e não suaves. Neste trabalho, propomos um framework de Otimização Bayesiana utilizando Processos Gaussianos para automatizar a busca por configurações ótimas de escalonamento em arquiteturas heterogéneas de multi-núcleo. Abordamos explicitamente a natureza multi-objetivo do problema através da aproximação da Fronteira de Pareto entre energia e tempo. Adicionalmente, ao incorporar Análise de Sensibilidade (fANOVA) e comparar diferentes kernels de covariância (por exemplo, Matérn vs. RBF), conferimos interpretabilidade física ao modelo de caixa preta, revelando os parâmetros de hardware dominantes que conduzem o desempenho do sistema.
Uma pequena quantidade de informação verificada sobre o objetivo pode direcionar o custoso pré-treinamento auto supervisionado de modelos de base? O pré-treinamento padrão otimiza um objetivo fixo indireto (por exemplo, previsão do próximo token), o que pode alocar incorretamente recursos computacionais para longe das capacidades downstream de interesse. Apresentamos o V-Pretraining: um método baseado em valor e agnóstico à modalidade para pré-treinamento contínuo controlado, no qual um projetista de tarefas leve remodela a tarefa de pré-treinamento para maximizar o valor de cada passo do gradiente. Por exemplo, considere a aprendizagem auto supervisionada (SSL) com aumento de amostras. O projetista de tarefas do V-Pretraining seleciona tarefas de pré-treinamento (por exemplo, aumentos) para as quais o gradiente da perda do pré-treinamento está alinhado com um gradiente calculado sobre uma tarefa downstream (por exemplo, segmentação de imagem). Isso ajuda a direcionar o pré-treinamento para capacidades downstream relevantes. Notavelmente, o modelo pré-treinado nunca é atualizado com rótulos da tarefa downstream; estes são usados apenas para moldar a tarefa de pré-treinamento. Sob orçamentos de atualização equivalentes para o aprendiz, o V-Pretraining de modelos de linguagem de 0,5B a 7B melhora o raciocínio (GSM8K teste Pass@1) em até 18% em relação à previsão padrão do próximo token, usando apenas 12% dos exemplos de treinamento do GSM8K como feedback. Na SSL de visão, melhoramos os resultados de última geração no ADE20K em até 1,07 mIoU e reduzimos o RMSE do NYUv2 enquanto melhoramos a precisão linear do ImageNet, e fornecemos evidências preliminares de melhor eficiência de token no pré-treinamento contínuo.