Artigos de pesquisa em IA selecionados diariamente com traduções
Embora o RLVR tenha se tornado um componente essencial para o desenvolvimento de habilidades avançadas de raciocínio em LLMs, estudos contemporâneos documentaram platôs de treinamento que surgem após milhares de etapas de otimização, demonstrando reduções notáveis nos ganhos de desempenho, apesar do aumento do investimento computacional. Essa limitação decorre dos padrões esparsos de exploração inerentes às práticas atuais de RLVR, onde os modelos dependem de rollouts limitados que frequentemente perdem caminhos críticos de raciocínio e falham em fornecer uma cobertura sistemática do espaço de soluções. Apresentamos o DeepSearch, um framework que integra a Busca em Árvore de Monte Carlo diretamente no treinamento de RLVR. Em contraste com os métodos existentes que dependem da busca em árvore apenas na inferência, o DeepSearch incorpora a busca estruturada no loop de treinamento, permitindo uma exploração sistemática e uma atribuição de crédito refinada entre as etapas de raciocínio. Por meio da exploração durante o treinamento, o DeepSearch aborda o gargalo fundamental da exploração insuficiente, que leva a melhorias de desempenho decrescentes ao longo de etapas prolongadas de treinamento. Nossas contribuições incluem: (1) uma estratégia de seleção de fronteira global que prioriza nós promissores em toda a árvore de busca, (2) seleção com orientação baseada em entropia que identifica caminhos confiantes para supervisão, e (3) treinamento adaptativo de buffer de replay com cache de soluções para eficiência. Experimentos em benchmarks de raciocínio matemático mostram que o DeepSearch alcança 62,95% de precisão média e estabelece um novo estado da arte para modelos de raciocínio de 1,5B - utilizando 5,7x menos horas de GPU do que abordagens de treinamento estendido. Esses resultados destacam a importância da exploração estratégica em relação ao escalonamento por força bruta e demonstram a promessa da inovação algorítmica para avançar as metodologias de RLVR. O DeepSearch estabelece uma nova direção para escalar as capacidades de raciocínio por meio de busca sistemática, em vez de computação prolongada.
O paradigma de treinamento para grandes modelos de linguagem (LLMs) está evoluindo de conjuntos de dados estáticos para o aprendizado baseado em experiência, onde agentes adquirem habilidades por meio da interação com ambientes complexos. Para facilitar essa transição, introduzimos o GEM (General Experience Maker), um simulador de ambiente de código aberto projetado para a era dos LLMs. Análogo ao OpenAI-Gym para o aprendizado por reforço tradicional (RL), o GEM fornece uma estrutura padronizada para a interface ambiente-agente, incluindo execução vetorizada assíncrona para alta produtividade e wrappers flexíveis para fácil extensibilidade. O GEM também apresenta uma diversificada suíte de ambientes, ferramentas robustas integradas e scripts de exemplo em arquivo único que demonstram o uso do GEM com cinco frameworks populares de treinamento RL. Junto disso, também fornecemos um conjunto de linhas de base em 24 ambientes usando REINFORCE com Normalização de Lote de Retorno (ReBN), que — ao contrário do GRPO — é compatível com o cenário completo de RL de recompensas densas por turno e oferece uma melhor atribuição de crédito. Além disso, realizamos uma comparação direta entre PPO, GRPO e REINFORCE em cenários de turno único e múltiplo usando o GEM para esclarecer os designs algorítmicos. Por fim, o GEM também funciona como um kit de ferramentas conveniente para avaliação, além de ser um ambiente de treinamento. Esperamos que essa estrutura possa ajudar a acelerar futuras pesquisas em LLMs agentivos.
A quantização pós-treinamento emergiu como a estratégia mais amplamente utilizada para implantar modelos de linguagem grandes em baixa precisão. No entanto, os métodos atuais apresentam degradação de perplexidade em larguras de bits menores ou iguais a 4, em parte porque a representação de valores atípicos causa problemas de precisão em parâmetros que compartilham as mesmas escalas desses valores atípicos. Esse problema é especialmente pronunciado para métodos de quantização uniforme e sem calibração. Introduzimos o SINQ para aprimorar os quantizadores pós-treinamento existentes com um fator de escala adicional no segundo eixo e um algoritmo rápido no estilo Sinkhorn-Knopp que encontra escalas para normalizar as variâncias por linha e por coluna, minimizando assim um novo alvo proxy de quantização por matriz: o desequilíbrio da matriz. Nosso método não tem interações entre camadas e pode ser trivialmente aplicado a novas arquiteturas para quantizar quaisquer camadas lineares. Avaliamos nosso método na família de modelos Qwen3 e DeepSeek-V2.5. O SINQ melhora significativamente a perplexidade do WikiText2 e C4 em comparação com as linhas de base de quantização uniforme sem calibração e pode ser ainda mais aprimorado ao ser combinado com calibração e níveis de quantização não uniformes. O código para reproduzir os resultados deste trabalho e para quantizar facilmente modelos usando o SINQ está disponível em https://github.com/huawei-csl/SINQ.
Os modelos Visão-Linguagem-Ação (VLA) permitem a tomada de decisões embarcadas, mas dependem fortemente do aprendizado por imitação, o que leva a erros cumulativos e baixa robustez sob mudanças de distribuição. O aprendizado por reforço (RL) pode mitigar esses problemas, mas geralmente exige interações custosas no mundo real ou sofre com lacunas de simulação para realidade. Apresentamos o VLA-RFT, uma estrutura de ajuste fino por reforço que utiliza um modelo de mundo baseado em dados como um simulador controlável. Treinado a partir de dados de interação real, o simulador prevê observações visuais futuras condicionadas a ações, permitindo a execução de políticas com recompensas densas e em nível de trajetória derivadas de referências de alcance de objetivos. Esse design fornece um sinal de aprendizado eficiente e alinhado à ação, reduzindo drasticamente os requisitos de amostras. Com menos de 400 etapas de ajuste fino, o VLA-RFT supera baselines supervisionados fortes e alcança maior eficiência do que o RL baseado em simulador. Além disso, ele exibe forte robustez sob condições perturbadas, mantendo a execução estável de tarefas. Nossos resultados estabelecem o ajuste fino por reforço baseado em modelo de mundo como um paradigma prático de pós-treinamento para melhorar a generalização e a robustez dos modelos VLA. Para mais detalhes, consulte https://vla-rft.github.io/.
Modelos de Linguagem de Grande Escala (LLMs) podem se autoaperfeiçoar por meio de aprendizado por reforço, onde geram trajetórias para explorar e descobrir soluções melhores. No entanto, esse processo de exploração é computacionalmente caro, frequentemente forçando os métodos atuais a atribuir orçamentos limitados de exploração para cada tarefa. Essa alocação uniforme cria casos problemáticos: tarefas fáceis consistentemente têm sucesso, enquanto tarefas difíceis consistentemente falham, ambas produzindo gradientes zero durante as atualizações de treinamento para o amplamente utilizado Group Relative Policy Optimization (GRPO). Abordamos esse problema sob a perspectiva da alocação de orçamento de exploração. Ao ver a exploração de cada tarefa como um "item" com um "valor" e "custo" distintos, estabelecemos uma conexão com o clássico problema da mochila. Essa formulação nos permite derivar uma regra de atribuição ótima que distribui recursos de forma adaptativa com base no status atual de aprendizado do modelo. Quando aplicado ao GRPO, nosso método aumenta a proporção efetiva de gradientes de política não zero em 20-40% durante o treinamento. Funcionando como um "almoço grátis" computacional, nossa abordagem pode realocar orçamentos de exploração de tarefas onde o aprendizado está saturado para aquelas onde ele é mais impactante. Isso permite orçamentos significativamente maiores (por exemplo, 93 rollouts) para problemas especialmente desafiadores, que seriam proibitivos computacionalmente sob uma alocação uniforme. Essas melhorias se traduzem em ganhos significativos em benchmarks de raciocínio matemático, com melhorias médias de 2-4 pontos e ganhos máximos de 9 pontos em tarefas específicas. Notavelmente, alcançar desempenho comparável com a alocação homogênea tradicional exigiria cerca de 2x os recursos computacionais.
A configuração do ambiente - o processo de configurar o sistema para funcionar com um projeto de software específico - representa um desafio persistente na Engenharia de Software (ES). Métodos automatizados de configuração de ambiente poderiam auxiliar desenvolvedores ao fornecer ambientes totalmente configurados para repositórios arbitrários sem esforço manual. Isso também ajuda pesquisadores de ES a escalar benchmarks baseados em execução. No entanto, estudos recentes revelam que mesmo os modelos de linguagem de última geração (LLMs) obtêm sucesso limitado na automação dessa tarefa. Para abordar essa limitação, ajustamos um modelo especializado para configuração de ambiente. Combinamos fine-tuning supervisionado para gerar scripts Bash corretos e Aprendizado por Reforço com Recompensas Verificáveis (RLVR) para adaptá-lo à tarefa de configuração de ambiente. No EnvBench-Python, nosso método permite que o Qwen3-8B (um modelo executável em hardware de consumo) tenha desempenho equivalente a modelos maiores - Qwen3-32B e GPT-4o. O código de treinamento e os checkpoints do modelo estão disponíveis online: https://github.com/JetBrains-Research/PIPer.
Embora os modelos generativos recentes avancem na síntese de vídeos no espaço de pixels, eles ainda são limitados na produção de vídeos educacionais profissionais, que exigem conhecimento disciplinar, estruturas visuais precisas e transições coerentes, limitando sua aplicabilidade em cenários educacionais. Intuitivamente, tais requisitos são melhor abordados por meio da manipulação de um ambiente renderizável, que pode ser explicitamente controlado por comandos lógicos (por exemplo, código). Neste trabalho, propomos o Code2Video, uma estrutura de agente centrada em código para gerar vídeos educacionais por meio de código Python executável. A estrutura compreende três agentes colaborativos: (i) Planejador, que estrutura o conteúdo da aula em fluxos temporalmente coerentes e prepara os recursos visuais correspondentes; (ii) Codificador, que converte instruções estruturadas em códigos Python executáveis, incorporando correção automática guiada por escopo para aumentar a eficiência; e (iii) Crítico, que aproveita modelos de visão e linguagem (VLM) com prompts de âncora visual para refinar o layout espacial e garantir clareza. Para apoiar a avaliação sistemática, construímos o MMMC, um benchmark de vídeos educacionais específicos de disciplina, produzidos profissionalmente. Avaliamos o MMMC em diversas dimensões, incluindo pontuações estéticas VLM-as-a-Judge, eficiência de código e, particularmente, o TeachQuiz, uma nova métrica de ponta a ponta que quantifica o quão bem um VLM, após o desaprendizado, pode recuperar o conhecimento ao assistir aos vídeos gerados. Nossos resultados demonstram o potencial do Code2Video como uma abordagem escalável, interpretável e controlável, alcançando uma melhoria de 40% em relação à geração direta de código e produzindo vídeos comparáveis a tutoriais criados por humanos. O código e os conjuntos de dados estão disponíveis em https://github.com/showlab/Code2Video.
O Group Relative Policy Optimization (GRPO) é um algoritmo proeminente de aprendizado por reforço para o pós-treinamento de Modelos de Linguagem de Grande Escala (LLMs). É amplamente aceito que o GRPO requer um tamanho de grupo grande para garantir um treinamento estável por meio de estimativas estatísticas precisas, o que acarreta um custo computacional significativo. Neste trabalho, desafiamos essa suposição ao reformular o GRPO como uma forma de aprendizado contrastivo, revelando uma conexão fundamental com o Direct Preference Optimization (DPO). Motivados pelo sucesso empírico do DPO, investigamos o caso mínimo de dois rollouts (2-GRPO), uma configuração anteriormente considerada inviável. Apresentamos uma análise teórica rigorosa para validar o 2-GRPO e demonstramos empiricamente que ele alcança desempenho equivalente ao 16-GRPO, apesar de utilizar apenas 1/8 dos rollouts e reduzir o tempo de treinamento em mais de 70%.
Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais implantados como agentes em ambientes dinâmicos e do mundo real, onde o sucesso requer tanto raciocínio quanto o uso eficaz de ferramentas. Um desafio central para tarefas agentivas é o aumento do comprimento do contexto, já que os agentes devem acumular longos históricos de ações e observações. Essa expansão eleva os custos e reduz a eficiência em tarefas de longo horizonte, mas trabalhos anteriores sobre compressão de contexto focaram principalmente em tarefas de etapa única ou aplicações restritas. Introduzimos a Otimização de Contexto de Agente (ACON), uma estrutura unificada que comprime de forma ideal tanto as observações do ambiente quanto os históricos de interação em condensações concisas, porém informativas. A ACON aproveita a otimização de diretrizes de compressão no espaço de linguagem natural: dadas trajetórias pareadas onde o contexto completo tem sucesso, mas o contexto comprimido falha, LLMs capazes analisam as causas da falha, e a diretriz de compressão é atualizada de acordo. Além disso, propomos destilar o compressor LLM otimizado em modelos menores para reduzir a sobrecarga do módulo adicional. Experimentos no AppWorld, OfficeBench e Multi-objective QA mostram que a ACON reduz o uso de memória em 26-54% (tokens de pico) enquanto mantém amplamente o desempenho da tarefa, preserva mais de 95% da precisão quando destilada em compressores menores e aprimora LLMs menores como agentes de longo horizonte com uma melhoria de desempenho de até 46%.
Recentemente, testemunhamos grandes avanços na edição de imagens com instruções em linguagem natural. Vários modelos proprietários, como GPT-Image-1, Seedream e Google-Nano-Banana, mostraram progressos altamente promissores. No entanto, os modelos de código aberto ainda estão atrasados. O principal gargalo é a falta de um modelo de recompensa confiável para escalar dados de treinamento sintéticos de alta qualidade. Para resolver esse gargalo crítico, construímos o \mname, treinado com nosso novo conjunto de dados de preferências humanas em larga escala, meticulosamente anotado por especialistas treinados seguindo um protocolo rigoroso contendo mais de 200 mil pares de preferências. O \mname demonstra um alinhamento superior com as preferências humanas em tarefas de edição de imagens guiadas por instruções. Experimentos mostram que o \mname alcança correlação humana de ponta em benchmarks estabelecidos, como GenAI-Bench, AURORA-Bench, ImagenHub e nosso novo \benchname, superando uma ampla gama de modelos VLM-as-judge. Além disso, usamos o \mname para selecionar um subconjunto de alta qualidade do conjunto de dados ruidoso existente ShareGPT-4o-Image. Treinamos o Step1X-Edit no subconjunto selecionado, que mostra uma melhoria significativa em relação ao treinamento no conjunto completo. Isso demonstra a capacidade do \mname de servir como um modelo de recompensa para escalar dados de treinamento de alta qualidade para edição de imagens. Além disso, seu forte alinhamento sugere potencial para aplicações avançadas, como pós-treinamento baseado em aprendizado por reforço e escalonamento em tempo de teste de modelos de edição de imagens. O \mname, juntamente com seu conjunto de dados de treinamento, será liberado para ajudar a comunidade a construir mais conjuntos de dados de treinamento de edição de imagens de alta qualidade.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como um componente essencial para desbloquear capacidades de raciocínio complexo em grandes modelos de linguagem. Trabalhos recentes, como o ProRL, mostraram potencial ao escalar o RL aumentando o número de etapas de treinamento. No entanto, o desempenho atinge um platô após milhares de etapas, com retornos claramente decrescentes ao alocar mais computação para treinamento adicional. Neste trabalho, investigamos um paradigma complementar para escalar o RL, o BroRL, que aumenta o número de rollouts por exemplo para centenas, a fim de explorar exaustivamente e ampliar a exploração, o que resulta em ganhos contínuos de desempenho além do ponto de saturação observado no ProRL ao escalar o número de etapas de treinamento. Nossa abordagem é motivada por uma análise de equação de balanço de massa, permitindo-nos caracterizar a taxa de mudança na massa de probabilidade para tokens corretos e incorretos durante o processo de reforço. Mostramos que, sob uma suposição de RL de uma etapa, os tokens amostrados em rollouts sempre contribuem para a expansão da massa correta, enquanto tokens não amostrados fora dos rollouts podem levar a ganhos ou perdas, dependendo de sua distribuição e do balanço líquido de recompensas. Importante, à medida que o número de rollouts por exemplo N aumenta, o efeito dos termos não amostrados diminui, garantindo a expansão geral da massa correta. Para validar nossa análise teórica, conduzimos simulações sob condições mais relaxadas e descobrimos que um tamanho de rollout suficientemente grande N—correspondendo a uma exploração ampla—garante um aumento na massa de probabilidade de todos os tokens corretos. Empiricamente, o BroRL revive modelos saturados após 3 mil etapas de treinamento ProRL e demonstra melhorias contínuas e robustas, alcançando resultados de ponta para o modelo de 1,5B em diversos benchmarks.
Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades notáveis em tarefas de raciocínio complexo quando equipados com ferramentas externas. No entanto, os frameworks atuais dependem predominantemente de processamento sequencial, levando a uma execução ineficiente, especialmente para tarefas que exigem interação extensiva com ferramentas. Este artigo apresenta o Flash-Searcher, um novo framework de raciocínio de agentes paralelos que redefine fundamentalmente o paradigma de execução de cadeias sequenciais para grafos acíclicos direcionados (DAGs). O Flash-Searcher decompõe tarefas complexas em subtarefas com dependências explícitas, permitindo a execução concorrente de caminhos de raciocínio independentes enquanto mantém restrições lógicas. Através da otimização dinâmica de fluxo de trabalho, nosso framework refina continuamente o grafo de execução com base em resultados intermediários, integrando efetivamente um módulo de resumo. Avaliações abrangentes em múltiplos benchmarks demonstram que o Flash-Searcher supera consistentemente as abordagens existentes. Especificamente, ele alcança 67,7% de precisão no BrowseComp e 83% no xbench-DeepSearch, enquanto reduz os passos de execução do agente em até 35% em comparação com os frameworks atuais. Além disso, ao destilar esse pipeline de raciocínio paralelo em modelos únicos, observamos ganhos substanciais de desempenho em diversas arquiteturas de backbone, destacando a generalizabilidade de nossa metodologia. Nosso trabalho representa, portanto, um avanço significativo no design de arquitetura de agentes, oferecendo um paradigma mais escalável e eficiente para tarefas de raciocínio complexo.
Os modelos de linguagem estão se tornando cada vez mais capazes, mas ainda falham em uma tarefa aparentemente simples: a multiplicação de múltiplos dígitos. Neste trabalho, investigamos o porquê, ao fazer uma engenharia reversa de um modelo que aprende com sucesso a multiplicação por meio de uma cadeia de pensamento implícita, e relatamos três descobertas: (1) Evidência de estrutura de longo alcance: Atribuições de logits e sondagens lineares indicam que o modelo codifica as dependências de longo alcance necessárias para a multiplicação de múltiplos dígitos. (2) Mecanismo: o modelo codifica dependências de longo alcance usando atenção para construir um grafo acíclico direcionado para "armazenar em cache" e "recuperar" produtos parciais aos pares. (3) Geometria: o modelo implementa produtos parciais em cabeças de atenção formando somas de Minkowski entre pares de dígitos, e os dígitos são representados usando uma base de Fourier, ambas representações intuitivas e eficientes que o modelo de ajuste fino padrão não possui. Com esses insights, revisitamos a dinâmica de aprendizado do ajuste fino padrão e descobrimos que o modelo converge para um ótimo local que carece das dependências de longo alcance necessárias. Validamos ainda mais essa compreensão ao introduzir uma perda auxiliar que prevê a "soma acumulada" por meio de uma sonda de regressão linear, o que fornece um viés indutivo que permite ao modelo aprender com sucesso a multiplicação de múltiplos dígitos. Em resumo, ao fazer a engenharia reversa dos mecanismos de um modelo de cadeia de pensamento implícita, revelamos uma armadilha para o aprendizado de dependências de longo alcance em Transformers e fornecemos um exemplo de como o viés indutivo correto pode resolver esse problema.
Estudos existentes sobre métodos de mitigação de viés em modelos de linguagem de grande escala (LLMs) utilizam diversas linhas de base e métricas para avaliar o desempenho de desviesamento, resultando em comparações inconsistentes entre eles. Além disso, suas avaliações são principalmente baseadas na comparação entre as probabilidades de contextos tendenciosos e não tendenciosos gerados pelos LLMs, o que ignora a lacuna entre tais avaliações e os casos de uso do mundo real, onde os usuários interagem com os LLMs lendo as respostas do modelo e esperam saídas justas e seguras, em vez das probabilidades dos LLMs. Para permitir uma avaliação consistente entre os métodos de desviesamento e preencher essa lacuna, introduzimos o BiasFreeBench, um benchmark empírico que compara de forma abrangente oito técnicas principais de mitigação de viés (cobrindo quatro métodos baseados em prompt e quatro métodos baseados em treinamento) em dois cenários de teste (QA de múltipla escolha e QA aberta de múltiplas interações) reorganizando conjuntos de dados existentes em um cenário unificado de consulta-resposta. Além disso, introduzimos uma métrica de nível de resposta, o Bias-Free Score, para medir até que ponto as respostas dos LLMs são justas, seguras e anti-estereotipadas. Os desempenhos de desviesamento são sistematicamente comparados e analisados em dimensões-chave: o paradigma de prompt versus treinamento, o tamanho do modelo e a generalização de diferentes estratégias de treinamento para tipos de viés não vistos. Disponibilizaremos publicamente nosso benchmark, com o objetivo de estabelecer um ambiente de teste unificado para pesquisas em mitigação de viés.
Projetar e otimizar circuitos quânticos específicos para tarefas é crucial para aproveitar a vantagem da computação quântica. A geração recente de circuitos quânticos baseada em modelos de linguagem de grande escala (LLM) surgiu como uma solução automática promissora. No entanto, os desafios fundamentais permanecem sem solução: (i) portas quânticas parametrizadas exigem valores numéricos precisos para um desempenho ideal, que também dependem de múltiplos aspectos, incluindo o número de portas quânticas, seus parâmetros e o layout/profundidade dos circuitos. (ii) LLMs frequentemente geram circuitos quânticos de baixa qualidade ou incorretos devido à falta de conhecimento específico do domínio quântico. Propomos o QUASAR, um framework de aprendizado por reforço (RL) agentivo para geração e otimização de circuitos quânticos baseado em LLMs aumentados por ferramentas. Para alinhar o LLM com conhecimento específico de quântica e melhorar os circuitos quânticos gerados, o QUASAR projeta (i) uma abordagem de verificação de circuitos quânticos com simuladores quânticos externos e (ii) um mecanismo de recompensa hierárquico sofisticado no treinamento de RL. Avaliações extensivas mostram melhorias tanto no desempenho sintático quanto semântico dos circuitos quânticos gerados. Ao aumentar um LLM de 4B, o QUASAR alcançou uma validade de 99,31% em Pass@1 e 100% em Pass@10, superando LLMs industriais como GPT-4o, GPT-5 e DeepSeek-V3, além de várias baselines que utilizam apenas ajuste fino supervisionado (SFT) ou apenas RL.
A obtenção de gerações de alta qualidade em LLMs modernos tem sido amplamente enquadrada como um problema de seleção: identificar uma única geração vencedora a partir de um conjunto diversificado de N amostras, o Best-of-N (BoN). No entanto, essa abordagem é intrinsecamente de soma zero, descartando informações diversas e potencialmente úteis do conjunto. Em vez disso, exploramos uma configuração colaborativa, onde todos os candidatos podem potencialmente contribuir para a geração vencedora final. Para isso, propomos o Fusion-of-N (FusioN): um método que utiliza um juiz LLM geral para sintetizar os elementos mais informativos de cada amostra em uma única resposta final. Comparamos o FusioN ao BoN em dois cenários: (i) escalonamento em tempo de teste, onde amostramos e agregamos a partir de um único modelo em tempo de teste, e (ii) geração de dados sintéticos, onde fundimos amostras de um conjunto de professores diversos para melhorar um modelo estudante. Realizamos extensos benchmarks de ambas as configurações em 11 idiomas, 3 tarefas diversas e escalas variadas de modelos. Em todos os benchmarks, o FusioN consistentemente supera o BoN, mostrando versatilidade e robustez tanto no escalonamento em tempo de teste quanto nos ganhos subsequentes da geração de dados sintéticos. Também realizamos uma análise extensiva do FusioN, onde ele demonstra forças surpreendentes e robustez em cenários desafiadores. Esses resultados mostram que devemos mudar a forma como pensamos em avaliar e utilizar as gerações de LLMs, passando de uma medida monolítica de qualidade para abraçar sua natureza polilítica. Essa mudança nos permite integrar forças diversas, desbloquear potencial latente e alcançar melhorias que antes eram inacessíveis apenas por meio da seleção.
Os recentes avanços nas capacidades de raciocínio de modelos de linguagem de grande escala (LLMs) são amplamente impulsionados pelo aprendizado por reforço (RL), mas a dinâmica subjacente dos parâmetros durante o treinamento de RL ainda é pouco compreendida. Este trabalho identifica duas propriedades fundamentais das atualizações de parâmetros induzidas por RL em LLMs: (1) Dominância de Rank-1, onde o subespaço singular superior da matriz de atualização de parâmetros determina quase completamente as melhorias de raciocínio, recuperando mais de 99% dos ganhos de desempenho; e (2) Dinâmica Linear de Rank-1, onde esse subespaço dominante evolui linearmente ao longo do treinamento, permitindo previsões precisas a partir de checkpoints iniciais. Experimentos extensivos em 8 LLMs e 7 algoritmos validam a generalizabilidade dessas propriedades. Mais importante, com base nessas descobertas, propomos o AlphaRL, uma estrutura de aceleração plug-in que extrapola a atualização final de parâmetros usando uma breve janela inicial de treinamento, alcançando até 2,5 vezes de aceleração enquanto mantém mais de 96% do desempenho de raciocínio, sem módulos extras ou ajuste de hiperparâmetros. Isso posiciona nossa descoberta como uma ferramenta versátil e prática para RL em larga escala, abrindo caminho para um paradigma de treinamento de LLMs que seja fundamentado, interpretável e eficiente.
O ajuste fino supervisionado (SFT) é a abordagem padrão para o pós-treinamento de grandes modelos de linguagem (LLMs), mas frequentemente apresenta generalização limitada. Rastreamos essa limitação ao seu objetivo de treinamento padrão: a log-verossimilhança negativa (NLL). Embora a NLL seja classicamente ótima ao treinar do zero, o pós-treinamento opera em um paradigma diferente e pode violar suas suposições de otimalidade, onde os modelos já codificam prioridades relevantes para a tarefa e a supervisão pode ser longa e ruidosa. Para isso, estudamos uma família geral de objetivos baseados em probabilidade e caracterizamos sua eficácia sob diferentes condições. Por meio de experimentos abrangentes e extensos estudos de ablação em 7 arquiteturas de modelos, 14 benchmarks e 3 domínios, descobrimos uma dimensão crítica que governa o comportamento dos objetivos: o contínuo de capacidade do modelo. Próximo ao extremo de modelo forte, objetivos que priorizam as probabilidades anteriores e reduzem o peso de tokens de baixa probabilidade (por exemplo, -p, -p^{10}, variantes com limiar) consistentemente superam a NLL; no extremo de modelo fraco, a NLL domina; no meio, nenhum objetivo único prevalece. Nossa análise teórica ainda esclarece como os objetivos trocam de posição ao longo do contínuo, fornecendo uma base fundamentada para adaptar os objetivos à capacidade do modelo. Nosso código está disponível em https://github.com/GaotangLi/Beyond-Log-Likelihood.
Apresentamos o MixtureVitae, um corpus de pré-treinamento de acesso aberto desenvolvido para minimizar riscos legais enquanto oferece um forte desempenho de modelos. O MixtureVitae segue uma estratégia de obtenção de dados mitigada em relação a riscos, combinando textos de domínio público e licenciados de forma permissiva (por exemplo, CC-BY/Apache) com adições cuidadosamente justificadas de baixo risco (por exemplo, obras governamentais e fontes elegíveis para TDM da UE), juntamente com instruções direcionadas, raciocínio e dados sintéticos com proveniência documentada. Detalhamos um pipeline transparente e de múltiplas etapas para filtragem consciente de licenças, triagem de segurança e qualidade, e mistura consciente de domínios, e disponibilizamos o conjunto de dados e as receitas de curadoria para apoiar pesquisas reproduzíveis. Em experimentos controlados usando o protocolo de treinamento open-sci-ref (arquiteturas fixas com 130M/400M/1.3B/1.7B de parâmetros; orçamentos de treinamento de 50B e 300B de tokens), modelos treinados no MixtureVitae superam consistentemente outros conjuntos de dados permissivos em uma série de benchmarks padrão, e na configuração de 1.7B/300B eles superam o FineWeb-Edu e se aproximam do DCLM nas fases finais do treinamento. O desempenho é particularmente forte em tarefas de matemática/código e competitivo em tarefas de QA. Esses resultados demonstram que dados de primeira escolha permissivos e mitigados em relação a riscos fornecem uma base prática e legalmente segura para treinar LLMs capazes, reduzindo a dependência de raspagem indiscriminada da web sem sacrificar a competitividade. Código: https://github.com/ontocord/mixturevitae
Agentes de interface gráfica do usuário (GUI) construídos sobre modelos visão-linguagem surgiram como uma abordagem promissora para automatizar fluxos de trabalho humano-computador. No entanto, eles também enfrentam o desafio da ineficiência ao processar longas sequências de capturas de tela de alta resolução e resolver tarefas de longo horizonte, tornando a inferência lenta, custosa e limitada pela memória. Embora o cache de chave-valor (KV) possa mitigar isso, armazenar o cache completo é proibitivo para contextos ricos em imagens. Os métodos existentes de compressão de cache são subótimos, pois não levam em consideração a redundância espacial e temporal das GUIs. Neste trabalho, primeiro analisamos os padrões de atenção em cargas de trabalho de agentes GUI e descobrimos que, ao contrário das imagens naturais, a esparsidade de atenção é uniformemente alta em todas as camadas do transformador. Essa percepção motiva uma estratégia simples de alocação de orçamento uniforme, que mostramos empiricamente superar esquemas mais complexos de variação por camada. Com base nisso, introduzimos o GUI-KV, um método de compressão de cache KV plug-and-play para agentes GUI que não requer retreinamento. O GUI-KV combina duas técnicas novas: (i) orientação de saliência espacial, que aumenta as pontuações de atenção com a norma L2 dos estados ocultos para preservar melhor os tokens visuais semanticamente importantes, e (ii) pontuação de redundância temporal, que projeta as chaves dos quadros anteriores no subespaço de chaves do quadro atual para podar preferencialmente o histórico redundante. Em benchmarks e modelos padrão de agentes GUI, o GUI-KV supera as linhas de base competitivas de compressão KV, aproximando-se da precisão do cache completo em orçamentos modestos. Notavelmente, em uma configuração de 5 capturas de tela no benchmark AgentNetBench, o GUI-KV reduz os FLOPs de decodificação em 38,9% enquanto aumenta a precisão por etapa em 4,1% em relação à linha de base de cache completo. Esses resultados demonstram que explorar redundâncias específicas de GUI permite um desempenho eficiente e confiável dos agentes.
Modelos de Recompensa de Processo (PRMs) fornecem supervisão em nível de etapa que melhora a confiabilidade do raciocínio em grandes modelos de linguagem. Embora os PRMs tenham sido extensivamente estudados em domínios baseados em texto, sua extensão para Modelos de Linguagem Visual (VLMs) permanece limitada. Os PRMs Visuais-Linguísticos (VL-PRMs) existentes dependem da Busca em Árvore de Monte Carlo (MCTS) para a construção de dados, o que frequentemente pode produzir sinais de supervisão ruidosos e limitar a generalização entre tarefas. Neste trabalho, buscamos elucidar o espaço de design dos VL-PRMs explorando diversas estratégias para a construção de conjuntos de dados, treinamento e escalonamento em tempo de teste. Primeiro, introduzimos um framework híbrido de síntese de dados que combina MCTS com julgamentos de um VLM forte, produzindo rótulos de etapa mais precisos. Segundo, propomos uma supervisão focada em percepção, permitindo que nosso PRM detecte explicitamente erros na etapa de fundamentação visual do raciocínio. Terceiro, avaliamos sistematicamente múltiplas estratégias de escalonamento em tempo de teste, mostrando que nossos PRMs podem guiar VLMs de forma confiável em direção a soluções mais precisas. Nossos experimentos, abrangendo cinco benchmarks multimodais diversos (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista e MathVision), revelam várias conclusões-chave: (i) VL-PRMs, quando usados como Modelos de Recompensa de Resultado (ORMs) durante o escalonamento em tempo de teste (TTS), podem superar a seleção de etapas de processo guiada por VL-PRM, (ii) VL-PRMs menores podem igualar ou até superar os maiores na detecção de erros de processo, (iii) VL-PRMs revelam habilidades de raciocínio latentes em backbones de VLM mais fortes, (iv) a supervisão em nível de percepção leva a ganhos significativos no escalonamento em tempo de teste, e (v) o desempenho de TTS de diferentes políticas melhora em conjuntos de dados avançados de raciocínio matemático, apesar de não treinar VL-PRMs nesses conjuntos de dados. Esperamos que nosso trabalho motive pesquisas adicionais e apoie o avanço dos VLMs.
Os LLMs não conseguem reconhecer de forma confiável os limites de seu conhecimento paramétrico e frequentemente alucinam respostas para perguntas fora desses limites. Em contraste, os humanos reconhecem suas limitações e podem buscar ajuda externa para tais perguntas ou se abster de respondê-las. Neste artigo, introduzimos o MASH (Modeling Abstention via Selective Help-seeking), um framework de treinamento que extrai facilmente abstenções de LLMs. Nossa ideia central é que qualquer busca por ajuda externa por um LLM, ou seja, o uso de ferramentas de busca, pode servir como um proxy para abstenção se a ajuda externa (busca) for adequadamente penalizada enquanto se recompensa a precisão das respostas. O MASH opera essa ideia usando aprendizado por reforço com uma recompensa paga por busca. Realizamos experimentos em três conjuntos de dados de QA intensivos em conhecimento. Nossos resultados mostram que o MASH melhora substancialmente o desempenho de busca seletiva por ajuda em comparação com abordagens de busca eficientes anteriores; em conjuntos de dados multi-hop, o MASH aumenta a precisão das respostas em 7,6%. Além disso, o MASH demonstra uma forte capacidade de abstenção pronta para uso — ele consegue distinguir entre perguntas impossíveis de responder e perguntas respondíveis e gerar respostas seletivamente para perguntas respondíveis — exibindo um comportamento análogo a abordagens especializadas em abstenção. Ressaltamos que, ao contrário de métodos de abstenção anteriores, o MASH não requer a pré-determinação de limites de conhecimento para construir dados de treinamento. Em vez disso, as abstenções do MASH são um subproduto do treinamento para a tarefa auxiliar de busca seletiva por ajuda. No geral, mostramos que o treinamento do MASH alinha efetivamente o uso de ferramentas de busca com o conhecimento paramétrico, o que pode ser aproveitado com sucesso para tomar decisões de abstenção.
A Teoria da Mente (ToM) - a compreensão dos estados mentais dos outros - é um aspecto fundamental da inteligência social humana, mas chatbots e agentes sociais baseados em LLMs (Large Language Models) normalmente não a integram. Neste trabalho, demonstramos que LLMs que utilizam explicitamente a ToM se tornam mais eficazes em diálogos, alcançando objetivos com maior sucesso. Após mostrar que simplesmente instruir os modelos a gerar estados mentais entre turnos de diálogo já traz benefícios significativos, introduzimos ainda o ToMAgent (ToMA), um agente de diálogo focado na ToM. O ToMA é treinado combinando a ToM com a antecipação de diálogo para produzir estados mentais que sejam maximamente úteis para alcançar os objetivos do diálogo. Experimentos no benchmark de avaliação social interativa Sotopia demonstram a eficácia do nosso método em comparação com uma variedade de baselines. Análises detalhadas mostram que o ToMA exibe comportamentos de raciocínio mais estratégicos e orientados a objetivos, o que permite adaptação de longo prazo, ao mesmo tempo que mantém melhores relações com seus parceiros. Nossos resultados sugerem um avanço na integração da ToM para a construção de agentes LLM socialmente inteligentes.
O Diffusion Transformer tem demonstrado habilidades notáveis na geração de vídeos de alta fidelidade, entregando quadros visualmente coerentes e detalhes ricos ao longo de durações estendidas. No entanto, os modelos existentes de geração de vídeos ainda apresentam deficiências na geração de vídeos com consistência de sujeito, devido a uma dificuldade inerente em interpretar prompts que especificam relações espaciais complexas, lógica temporal e interações entre múltiplos sujeitos. Para abordar essa questão, propomos o BindWeave, um framework unificado que lida com uma ampla gama de cenários de sujeito-para-vídeo, desde casos de um único sujeito até cenas complexas com múltiplos sujeitos e entidades heterogêneas. Para vincular a semântica complexa dos prompts a sujeitos visuais concretos, introduzimos um framework MLLM-DiT no qual um modelo de linguagem multimodal pré-treinado realiza raciocínio cruzado profundo para fundamentar entidades e desembaraçar papéis, atributos e interações, gerando estados ocultos conscientes do sujeito que condicionam o diffusion transformer para a geração de vídeos de alta fidelidade e consistência de sujeito. Experimentos no benchmark OpenS2V demonstram que nosso método alcança desempenho superior em consistência de sujeito, naturalidade e relevância textual nos vídeos gerados, superando modelos de código aberto e comerciais existentes.
Estudamos a elicitação de segredos: a descoberta de conhecimento que uma IA possui, mas não verbaliza explicitamente. Como campo de teste, treinamos três famílias de modelos de linguagem de grande escala (LLMs) para possuírem conhecimento específico que aplicam em tarefas subsequentes, mas negam saber quando questionados diretamente. Por exemplo, em um cenário, treinamos um LLM para gerar respostas consistentes com o conhecimento de que o usuário é do sexo feminino, enquanto nega esse conhecimento quando questionado diretamente. Em seguida, projetamos várias técnicas de elicitação de segredos de caixa-preta e caixa-branca e as avaliamos com base em sua capacidade de ajudar um auditor de LLM a adivinhar com sucesso o conhecimento secreto. Muitas de nossas técnicas superam as abordagens baselines simples. Nossas técnicas mais eficazes (com melhor desempenho em 2/3 dos cenários) são baseadas em ataques de preenchimento prévio, uma técnica de caixa-preta em que o LLM revela conhecimento secreto ao gerar uma conclusão a partir de um prefixo predefinido. Em nosso cenário restante, técnicas de caixa-branca baseadas em lentes de logits e autoencoders esparsos (SAEs) são mais eficazes. Disponibilizamos nossos modelos e código, estabelecendo um benchmark público para a avaliação de métodos de elicitação de segredos.
Propomos o ImitSAT, uma política de ramificação para solucionadores de aprendizado de cláusulas baseado em conflitos (CDCL) que utiliza aprendizado por imitação para o problema de satisfatibilidade booleana (SAT). Diferentemente de métodos anteriores que preveem sinais em nível de instância para melhorar indiretamente a ramificação do CDCL, ou que dependem de aprendizado por reforço e informações insuficientes do CDCL para aprimorar a ramificação, o ImitSAT aprende a partir de KeyTrace especializado, que condensa uma execução completa na sequência de decisões sobreviventes. A reprodução de um KeyTrace na mesma instância é praticamente livre de conflitos, fornecendo supervisão densa em nível de decisão e reduzindo diretamente as propagações — o principal contribuinte para o tempo de execução. Essa supervisão condicionada ao prefixo permite que o ImitSAT reproduza ramificações de alta qualidade sem exploração, resultando em convergência mais rápida, treinamento estável e integração perfeita ao CDCL. Experimentos extensivos demonstram que o ImitSAT reduz as contagens de propagação e o tempo de execução, superando abordagens aprendidas de ponta. Disponibilizamos o código-fonte e o modelo treinado em https://github.com/zewei-Zhang/ImitSAT.
Modelos de Linguagem de Grande Escala estão sendo cada vez mais implantados como agentes autônomos para tarefas complexas do mundo real, mas os sistemas existentes frequentemente se concentram em melhorias isoladas sem um design unificador para robustez e adaptabilidade. Propomos uma arquitetura de agente generalista que integra três componentes principais: um framework multiagente coletivo que combina agentes de planejamento e execução com votação de modelos críticos, um sistema de memória hierárquico abrangendo camadas de trabalho, semântica e procedimental, e um conjunto refinado de ferramentas para busca, execução de código e análise multimodal. Avaliado em um benchmark abrangente, nosso framework consistentemente supera as bases de código aberto e se aproxima do desempenho de sistemas proprietários. Esses resultados demonstram a importância da integração em nível de sistema e destacam um caminho para assistentes de IA escaláveis, resilientes e adaptáveis, capazes de operar em diversos domínios e tarefas.
Agentes de IA baseados em modelos de fundação (Foundation Models - FMs) estão ganhando rápida adoção em diversos domínios, mas seu caráter inerentemente não determinístico e não reprodutivo apresenta desafios para testes e garantia de qualidade. Embora benchmarks recentes forneçam avaliações em nível de tarefa, há uma compreensão limitada de como os desenvolvedores verificam a correção interna desses agentes durante o desenvolvimento. Para abordar essa lacuna, realizamos o primeiro estudo empírico em larga escala sobre práticas de teste no ecossistema de agentes de IA, analisando 39 frameworks de agentes de código aberto e 439 aplicações agentivas. Identificamos dez padrões distintos de teste e descobrimos que métodos novos e específicos para agentes, como o DeepEval, são raramente utilizados (cerca de 1%), enquanto padrões tradicionais, como testes negativos e de pertinência, são amplamente adaptados para lidar com a incerteza dos FMs. Ao mapear esses padrões para componentes arquitetônicos canônicos de frameworks de agentes e aplicações agentivas, revelamos uma inversão fundamental no esforço de teste: componentes determinísticos, como Artefatos de Recursos (ferramentas) e Artefatos de Coordenação (fluxos de trabalho), consomem mais de 70% do esforço de teste, enquanto o Corpo do Plano baseado em FM recebe menos de 5%. Crucialmente, isso revela um ponto cego crítico, já que o componente de Gatilho (prompts) permanece negligenciado, aparecendo em cerca de 1% de todos os testes. Nossas descobertas oferecem a primeira linha de base empírica de teste em frameworks de agentes e aplicações agentivas baseados em FMs, revelando uma adaptação racional, mas incompleta, ao não determinismo. Para enfrentar isso, desenvolvedores de frameworks devem melhorar o suporte a métodos de teste inovadores, desenvolvedores de aplicações precisam adotar testes de regressão de prompts, e pesquisadores devem explorar barreiras à adoção. Fortalecer essas práticas é vital para a construção de agentes de IA mais robustos e confiáveis.
Modelos Visão-Linguagem (VLMs) se destacam na compreensão de cenas de alto nível, mas falham em tarefas de percepção refinada que exigem localização precisa. Essa falha decorre de uma incompatibilidade fundamental, já que gerar coordenadas numéricas exatas é uma tarefa desafiadora para arquiteturas centradas em linguagem. Neste artigo, apresentamos o VLM-FO1, uma nova estrutura que supera essa limitação ao reformular a percepção centrada em objetos, transformando um problema frágil de geração de coordenadas em uma tarefa robusta de recuperação de características. Nosso método funciona como um módulo plug-and-play que se integra a qualquer VLM pré-treinado. Ele utiliza um Codificador de Região de Detalhe Híbrido (HFRE), que possui um codificador visual duplo, para gerar tokens de região poderosos, ricos em detalhes semânticos e espaciais. Um sistema de referência baseado em tokens permite que o LLM raciocine e ancore a linguagem nessas regiões visuais específicas de forma contínua. Experimentos mostram que o VLM-FO1 alcança desempenho de ponta em uma variedade de benchmarks, demonstrando capacidades excepcionais em ancoragem de objetos, compreensão geracional de regiões e raciocínio sobre regiões visuais. Crucialmente, nossa estratégia de treinamento em duas etapas garante que esses ganhos de percepção sejam alcançados sem comprometer as capacidades gerais de compreensão visual do modelo base. O VLM-FO1 estabelece um paradigma eficaz e flexível para a construção de VLMs conscientes da percepção, preenchendo a lacuna entre o raciocínio de alto nível e a ancoragem visual refinada.
O surgimento dos Modelos de Linguagem de Grande Escala (LLMs) está remodelando os modelos multimodais, com a síntese de fala sendo uma aplicação proeminente. No entanto, as abordagens existentes frequentemente subutilizam a inteligência linguística desses modelos, geralmente falhando em aproveitar suas poderosas capacidades de seguir instruções. Essa limitação dificulta a capacidade do modelo de seguir instruções textuais para uma síntese de fala controlável (Text-to-Speech, TTS). Para resolver isso, propomos um novo paradigma inspirado no "operacionalismo" que desacopla a compreensão de instruções da geração de fala. Introduzimos o BatonVoice, um framework no qual um LLM atua como um "maestro", compreendendo as instruções do usuário e gerando um "plano" textual — características vocais explícitas (por exemplo, tom, energia). Um modelo TTS separado, a "orquestra", então gera a fala a partir dessas características. Para concretizar esse componente, desenvolvemos o BatonTTS, um modelo TTS treinado especificamente para essa tarefa. Nossos experimentos demonstram que o BatonVoice alcança um desempenho robusto na síntese de fala controlável e emocional, superando bases de código aberto e fechado. Notavelmente, nossa abordagem permite uma generalização notável de zero-shot entre idiomas, aplicando com precisão habilidades de controle de características a idiomas não vistos durante o pós-treinamento. Isso demonstra que objetivar a fala em características vocais textuais pode desbloquear de forma mais eficaz a inteligência linguística dos LLMs.
A correspondência de distribuições é fundamental para muitas tarefas de visão e gráficos, onde a amplamente utilizada distância de Wasserstein é muito custosa para calcular em distribuições de alta dimensionalidade. A Distância de Wasserstein Fatiada (Sliced Wasserstein Distance - SWD) oferece uma alternativa escalável, mas seu estimador de Monte Carlo sofre com alta variância, resultando em gradientes ruidosos e convergência lenta. Introduzimos a SWD de Reservatório (Reservoir SWD - ReSWD), que integra a Amostragem de Reservatório Ponderada (Weighted Reservoir Sampling) na SWD para reter de forma adaptativa direções de projeção informativas nas etapas de otimização, resultando em gradientes estáveis enquanto permanece imparcial. Experimentos em benchmarks sintéticos e tarefas do mundo real, como correção de cores e orientação de difusão, mostram que a ReSWD supera consistentemente a SWD padrão e outras linhas de base de redução de variância. Página do projeto: https://reservoirswd.github.io/
Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais estudados no contexto de raciocínio multi-turn, onde os modelos refinam iterativamente suas saídas com base em feedback fornecido pelo usuário. Tais configurações são cruciais para tarefas que exigem raciocínio complexo, mas os paradigmas de feedback existentes frequentemente dependem da emissão de novas mensagens. Os LLMs têm dificuldade em integrar essas mensagens de forma confiável, resultando em melhorias inconsistentes. Neste trabalho, introduzimos o feedback in-place, um novo paradigma de interação no qual os usuários editam diretamente a resposta anterior do LLM, e o modelo condiciona sua revisão com base nessa resposta modificada. Avaliações empíricas em diversos benchmarks intensivos em raciocínio revelam que o feedback in-place alcança um desempenho superior ao feedback multi-turn convencional, utilizando 79,1% menos tokens. Análises complementares em ambientes controlados demonstram ainda que o feedback in-place resolve uma limitação central do feedback multi-turn: os modelos frequentemente falham em aplicar o feedback precisamente às partes errôneas da resposta, deixando erros sem correção e, às vezes, introduzindo novos erros em conteúdos previamente corretos. Esses achados sugerem que o feedback in-place oferece um mecanismo mais natural e eficaz para orientar LLMs em tarefas intensivas em raciocínio.
Aprender políticas de controle para tarefas complexas e de longo horizonte é um desafio central em robótica e sistemas autônomos. A Lógica Temporal de Sinais (Signal Temporal Logic - STL) oferece uma linguagem poderosa e expressiva para especificar tais tarefas, mas sua natureza não-Markoviana e recompensas inerentemente esparsas tornam difícil sua resolução por meio de algoritmos padrão de Aprendizado por Reforço (Reinforcement Learning - RL). Abordagens anteriores de RL focam apenas em fragmentos limitados de STL ou utilizam escores de robustez de STL como recompensas terminais esparsas. Neste artigo, propomos o TGPO, Temporal Grounded Policy Optimization, para resolver tarefas gerais de STL. O TGPO decompõe a STL em subobjetivos temporizados e restrições invariantes, fornecendo uma estrutura hierárquica para abordar o problema. O componente de alto nível do TGPO propõe alocações de tempo concretas para esses subobjetivos, e a política de baixo nível condicionada ao tempo aprende a alcançar os subobjetivos sequenciados usando um sinal de recompensa denso e por estágios. Durante a inferência, amostramos várias alocações de tempo e selecionamos a atribuição mais promissora para a rede de política executar a trajetória da solução. Para promover o aprendizado eficiente de políticas para STL complexa com múltiplos subobjetivos, aproveitamos o crítico aprendido para guiar a busca temporal de alto nível por meio de amostragem Metropolis-Hastings, focando a exploração em soluções temporalmente viáveis. Realizamos experimentos em cinco ambientes, variando de navegação de baixa dimensão a manipulação, drones e locomoção quadrupedal. Sob uma ampla gama de tarefas de STL, o TGPO supera significativamente os métodos de referência mais avançados (especialmente para casos de alta dimensionalidade e longo horizonte), com uma melhoria média de 31,6% na taxa de sucesso da tarefa em comparação com o melhor baseline. O código estará disponível em https://github.com/mengyuest/TGPO.
Neste trabalho, propomos alinhar codificadores visuais pré-treinados para atuarem como tokenizadores em modelos de difusão latente para geração de imagens. Diferente de treinar um autoencoder variacional (VAE) do zero, que prioriza principalmente detalhes de baixo nível, nossa abordagem aproveita a rica estrutura semântica de codificadores de base. Introduzimos uma estratégia de alinhamento em três estágios: (1) congelar o codificador e treinar um adaptador e um decodificador para estabelecer um espaço latente semântico; (2) otimizar conjuntamente todos os componentes com uma função de perda adicional de preservação semântica, permitindo que o codificador capture detalhes perceptuais enquanto mantém a semântica de alto nível; e (3) refinar o decodificador para melhorar a qualidade da reconstrução. Esse alinhamento resulta em tokenizadores de imagens semanticamente ricos que beneficiam modelos de difusão. No ImageNet 256x256, nosso tokenizador acelera a convergência dos modelos de difusão, atingindo um gFID de 1,90 em apenas 64 épocas, e melhora a geração tanto com quanto sem orientação livre de classificador. Ao escalar para o LAION, um modelo de texto para imagem com 2 bilhões de parâmetros treinado com nosso tokenizador supera consistentemente o FLUX VAE sob o mesmo número de passos de treinamento. No geral, nosso método é simples, escalável e estabelece um paradigma semanticamente fundamentado para o design contínuo de tokenizadores.
O aprendizado curricular desempenha um papel crucial na melhoria da eficiência do treinamento de modelos de linguagem de grande escala (LLMs) em tarefas de raciocínio. No entanto, os métodos existentes frequentemente falham em considerar adequadamente as variações na dificuldade dos prompts ou dependem de mecanismos de filtragem simplistas para selecionar conjuntos de dados de prompts dentro de uma faixa estreita de critérios, resultando em um desperdício computacional significativo. Neste trabalho, abordamos o problema a partir da perspectiva da otimização de gradiente em aprendizado por reforço, oferecendo uma investigação sistemática e teórica sobre como melhorar a eficiência do treinamento de LLMs. Identificamos dois fatores-chave que influenciam a eficiência do treinamento: a seleção de prompts de treinamento e a alocação de quantidades de rollouts entre diferentes prompts. Nossa análise teórica revela que a distribuição de amostragem dos prompts determina a taxa de convergência do gradiente descendente, enquanto a alocação da quantidade de rollouts influencia a consistência e a estabilidade das atualizações gerais do gradiente. Com base nessas percepções, propomos o CurES, um método de treinamento eficiente que acelera a convergência e emprega estimativa bayesiana posterior para minimizar o custo computacional. Experimentos demonstram que nosso CurES supera a Otimização de Política Relativa de Grupo (GRPO) em +3,30 pontos e +4,82 pontos com modelos de 1,5B e 7B, respectivamente. Além disso, o CurES exibe convergência mais rápida em comparação com as linhas de base, incluindo o GRPO.
Apesar de suas capacidades, os Modelos de Linguagem de Grande Escala (LLMs) permanecem opacos, com compreensão limitada de suas representações internas. Os métodos atuais de interpretabilidade, como a atribuição direta de logits (DLA) e autoencoders esparsos (SAEs), fornecem insights restritos devido a limitações como o vocabulário de saída do modelo ou nomes de recursos pouco claros. Este trabalho introduz o Hyperdimensional Probe, um novo paradigma para decodificar informações do espaço vetorial dos LLMs. Ele combina ideias de representações simbólicas e sondagem neural para projetar o fluxo residual do modelo em conceitos interpretáveis por meio de Arquiteturas Simbólicas Vetoriais (VSAs). Essa sonda combina os pontos fortes dos SAEs e das sondas convencionais, superando suas principais limitações. Validamos nosso paradigma de decodificação com tarefas controladas de completude de entrada, sondando o estado final do modelo antes da previsão do próximo token em entradas que abrangem reconhecimento de padrões sintáticos, associações chave-valor e inferência abstrata. Avaliamos ainda em um cenário de perguntas e respostas, examinando o estado do modelo antes e depois da geração de texto. Nossos experimentos mostram que nossa sonda extrai de forma confiável conceitos significativos em diversos LLMs, tamanhos de embeddings e domínios de entrada, também ajudando a identificar falhas dos LLMs. Nosso trabalho avança a decodificação de informações no espaço vetorial dos LLMs, permitindo a extração de recursos mais informativos, interpretáveis e estruturados das representações neurais.