Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Mutarjim, um modelo de linguagem compacto, porém poderoso, para tradução bidirecional entre árabe e inglês. Embora modelos de linguagem de grande escala (LLMs) tenham demonstrado progressos impressionantes em tarefas de processamento de linguagem natural, incluindo tradução automática, modelos menores também têm seu valor. Aproveitando essa percepção, desenvolvemos o Mutarjim com base no Kuwain-1.5B, um modelo de linguagem projetado especificamente para árabe e inglês. Apesar de seu tamanho modesto, o Mutarjim supera modelos muito maiores em diversos benchmarks estabelecidos, graças a uma abordagem de treinamento otimizada em duas fases e um corpus de treinamento cuidadosamente selecionado e de alta qualidade. Resultados experimentais mostram que o Mutarjim rivaliza com modelos até 20 vezes maiores, ao mesmo tempo que reduz significativamente os custos computacionais e as exigências de treinamento. Também apresentamos o Tarjama-25, um novo benchmark projetado para superar as limitações dos conjuntos de dados existentes para avaliação de tradução árabe-inglês, como a estreiteza de domínio, o comprimento curto das frases e o viés em favor de textos de origem em inglês. O Tarjama-25 é composto por 5.000 pares de frases revisados por especialistas e abrange uma ampla gama de domínios, oferecendo um framework de avaliação mais abrangente e equilibrado. Notavelmente, o Mutarjim alcança desempenho de ponta na tarefa de inglês para árabe no Tarjama-25, superando até mesmo modelos significativamente maiores e proprietários, como o GPT-4o mini. Disponibilizamos publicamente o Tarjama-25 para apoiar pesquisas futuras e avançar a avaliação de sistemas de tradução árabe-inglês.
O rápido avanço dos grandes modelos de linguagem (LLMs) e dos modelos de linguagem multimodais (MLLMs) historicamente dependeu da escalada centrada no modelo, com o aumento do número de parâmetros de milhões para centenas de bilhões, para impulsionar ganhos de desempenho. No entanto, à medida que nos aproximamos dos limites de hardware no tamanho dos modelos, o principal gargalo computacional mudou fundamentalmente para o custo quadrático da auto-atenção em sequências longas de tokens, agora impulsionado por contextos de texto ultra-longos, imagens de alta resolução e vídeos estendidos. Neste artigo de posicionamento, argumentamos que o foco da pesquisa para IA eficiente está mudando da compressão centrada no modelo para a compressão centrada nos dados. Posicionamos a compressão de tokens como a nova fronteira, que melhora a eficiência da IA por meio da redução do número de tokens durante o treinamento ou inferência do modelo. Por meio de uma análise abrangente, primeiro examinamos os desenvolvimentos recentes em IA de contexto longo em várias áreas e estabelecemos uma estrutura matemática unificada para as estratégias existentes de eficiência de modelos, demonstrando por que a compressão de tokens representa uma mudança de paradigma crucial para abordar a sobrecarga de contexto longo. Em seguida, revisamos sistematicamente o panorama de pesquisa em compressão de tokens, analisando seus benefícios fundamentais e identificando suas vantagens convincentes em diversos cenários. Além disso, fornecemos uma análise aprofundada dos desafios atuais na pesquisa de compressão de tokens e delineamos direções futuras promissoras. Por fim, nosso trabalho visa oferecer uma nova perspectiva sobre a eficiência da IA, sintetizar pesquisas existentes e catalisar desenvolvimentos inovadores para enfrentar os desafios que o aumento dos comprimentos de contexto impõe ao avanço da comunidade de IA.
O pré-treinamento equipa os modelos de texto para imagem (T2I) com um amplo conhecimento do mundo, mas isso por si só muitas vezes é insuficiente para alcançar alta qualidade estética e alinhamento. Consequentemente, o ajuste fino supervisionado (SFT) é crucial para um refinamento adicional. No entanto, sua eficácia depende muito da qualidade do conjunto de dados de ajuste fino. Os conjuntos de dados públicos de SFT existentes frequentemente se concentram em domínios restritos (por exemplo, anime ou estilos artísticos específicos), e a criação de conjuntos de dados de SFT de alta qualidade e propósito geral continua sendo um desafio significativo. Os métodos atuais de curadoria são frequentemente custosos e lutam para identificar amostras verdadeiramente impactantes. Esse desafio é ainda mais complicado pela escassez de conjuntos de dados públicos de propósito geral, uma vez que os principais modelos frequentemente dependem de grandes volumes de dados internos, proprietários e mal documentados, dificultando o progresso da pesquisa em geral. Este artigo introduz uma nova metodologia para a criação de conjuntos de dados de SFT de propósito geral, utilizando um modelo generativo pré-treinado como um estimador de amostras de treinamento de alto impacto. Aplicamos essa metodologia para construir e lançar o Alchemist, um conjunto de dados de SFT compacto (3.350 amostras), mas altamente eficaz. Experimentos demonstram que o Alchemist melhora substancialmente a qualidade gerativa de cinco modelos públicos de T2I, preservando a diversidade e o estilo. Além disso, disponibilizamos publicamente os pesos dos modelos ajustados.
Modelos de linguagem de grande escala se destacam em tarefas gerais, mas avaliar sua confiabilidade em domínios que exigem lógica e precisão, como finanças, direito e saúde, continua sendo um desafio. Para abordar isso, apresentamos o BizFinBench, o primeiro benchmark projetado especificamente para avaliar LLMs em aplicações financeiras do mundo real. O BizFinBench consiste em 6.781 consultas bem anotadas em chinês, abrangendo cinco dimensões: cálculo numérico, raciocínio, extração de informações, reconhecimento de previsões e respostas a perguntas baseadas em conhecimento, agrupadas em nove categorias detalhadas. O benchmark inclui métricas tanto objetivas quanto subjetivas. Também introduzimos o IteraJudge, um novo método de avaliação de LLMs que reduz o viés quando os LLMs atuam como avaliadores em métricas objetivas. Avaliamos 25 modelos, incluindo sistemas proprietários e de código aberto. Experimentos extensivos mostram que nenhum modelo domina todas as tarefas. Nossa avaliação revela padrões distintos de capacidade: (1) Em Cálculo Numérico, Claude-3.5-Sonnet (63,18) e DeepSeek-R1 (64,04) lideram, enquanto modelos menores como Qwen2.5-VL-3B (15,92) ficam significativamente atrás; (2) Em Raciocínio, modelos proprietários dominam (ChatGPT-o3: 83,58, Gemini-2.0-Flash: 81,15), com modelos de código aberto atrás em até 19,49 pontos; (3) Em Extração de Informações, a dispersão de desempenho é a maior, com DeepSeek-R1 marcando 71,46, enquanto Qwen3-1.7B marca 11,23; (4) Em Reconhecimento de Previsões, a variação de desempenho é mínima, com os melhores modelos marcando entre 39,16 e 50,00. Descobrimos que, embora os LLMs atuais lidem bem com consultas financeiras rotineiras, eles têm dificuldades em cenários complexos que exigem raciocínio entre conceitos. O BizFinBench oferece um benchmark rigoroso e alinhado com negócios para pesquisas futuras. O código e o conjunto de dados estão disponíveis em https://github.com/HiThink-Research/BizFinBench.
Agentes corporificados impulsionados por grandes modelos de linguagem (LLMs) têm demonstrado um desempenho robusto em tarefas de rearranjo de objetos domésticos. No entanto, essas tarefas concentram-se principalmente em interações de turno único com instruções simplificadas, o que não reflete verdadeiramente os desafios de fornecer assistência significativa aos usuários. Para oferecer assistência personalizada, os agentes corporificados devem compreender a semântica única que os usuários atribuem ao mundo físico (por exemplo, xícara favorita, rotina matinal), aproveitando o histórico de interações anteriores para interpretar instruções dinâmicas do mundo real. Ainda assim, a eficácia dos agentes corporificados na utilização da memória para assistência personalizada permanece amplamente inexplorada. Para abordar essa lacuna, apresentamos o MEMENTO, um framework de avaliação de agentes corporificados personalizados projetado para avaliar de forma abrangente as capacidades de utilização da memória para fornecer assistência personalizada. Nosso framework consiste em um processo de avaliação de memória em duas etapas que permite quantificar o impacto da utilização da memória no desempenho da tarefa. Esse processo possibilita a avaliação do entendimento dos agentes sobre conhecimento personalizado em tarefas de rearranjo de objetos, focando em seu papel na interpretação de objetivos: (1) a capacidade de identificar objetos-alvo com base em significados pessoais (semântica de objetos) e (2) a capacidade de inferir configurações objeto-localização a partir de padrões consistentes do usuário, como rotinas (padrões do usuário). Nossos experimentos com diversos LLMs revelam limitações significativas na utilização da memória, com até mesmo modelos de ponta como o GPT-4o apresentando uma queda de 30,5% no desempenho quando necessário referenciar múltiplas memórias, especialmente em tarefas envolvendo padrões do usuário. Essas descobertas, juntamente com nossas análises detalhadas e estudos de caso, fornecem insights valiosos para pesquisas futuras no desenvolvimento de agentes corporificados personalizados mais eficazes. Site do projeto: https://connoriginal.github.io/MEMENTO
Os grandes modelos de linguagem (LLMs) atuais geralmente adotam uma estratégia de raciocínio fixa, seja simples ou complexa, para todas as perguntas, independentemente de sua dificuldade. Essa negligência em relação à variação na complexidade das tarefas e dos processos de raciocínio resulta em um desequilíbrio entre desempenho e eficiência. Métodos existentes tentam implementar a alternância entre sistemas de pensamento rápido e lento sem necessidade de treinamento para lidar com problemas de dificuldade variada, mas são limitados por ajustes de estratégia em nível de solução de granularidade grossa. Para resolver essa questão, propomos um novo paradigma de raciocínio: Alternância Adaptativa de Modo de Pensamento em Nível de Processo (PATS), que permite que os LLMs ajustem dinamicamente sua estratégia de raciocínio com base na dificuldade de cada etapa, otimizando o equilíbrio entre precisão e eficiência computacional. Nossa abordagem integra Modelos de Recompensa de Processo (PRMs) com Busca em Feixe, incorporando mecanismos de alternância progressiva de modo e penalização de etapas ruins. Experimentos em diversos benchmarks matemáticos demonstram que nossa metodologia alcança alta precisão enquanto mantém um uso moderado de tokens. Este estudo enfatiza a importância da adaptação da estratégia de raciocínio em nível de processo e consciente da dificuldade, oferecendo insights valiosos para inferência eficiente em LLMs.
Embora modelos de raciocínio de grande escala demonstrem um desempenho robusto em tarefas complexas, eles carecem da capacidade de ajustar o uso de tokens de raciocínio com base na dificuldade da tarefa. Isso frequentemente leva ao problema de "overthinking" — raciocínio excessivo e desnecessário — que, embora possa ser mitigado por intervenção humana para controlar o orçamento de tokens, ainda contradiz fundamentalmente o objetivo de alcançar uma IA totalmente autônoma. Neste trabalho, propomos o Modelo de Raciocínio Adaptativo (ARM), um modelo de raciocínio capaz de selecionar adaptativamente formatos de raciocínio apropriados com base na tarefa em questão. Esses formatos incluem três eficientes — Resposta Direta, CoT Curto e Código — além de um formato mais elaborado, o CoT Longo. Para treinar o ARM, introduzimos o Ada-GRPO, uma adaptação do Group Relative Policy Optimization (GRPO), que resolve o problema de colapso de formato no GRPO tradicional. O Ada-GRPO permite que o ARM alcance alta eficiência de tokens, reduzindo-os em média 30%, e até 70%, enquanto mantém um desempenho comparável ao modelo que depende exclusivamente do CoT Longo. Além disso, ele não apenas melhora a eficiência de inferência por meio da redução na geração de tokens, mas também traz uma aceleração de 2x no treinamento. Além do Modo Adaptativo padrão, o ARM suporta dois modos adicionais de raciocínio: 1) Modo Orientado por Instrução, que permite aos usuários especificar explicitamente o formato de raciocínio por meio de tokens especiais — ideal quando o formato apropriado é conhecido para um lote de tarefas. 2) Modo Orientado por Consenso, que agrega as saídas dos três formatos eficientes e recorre ao CoT Longo em caso de discordância, priorizando o desempenho com maior uso de tokens.
Modelos de Linguagem de Grande Escala (LLMs), como o o1 da OpenAI e o R1 da DeepSeek, destacam-se em tarefas de raciocínio avançado, como matemática e codificação, por meio de Aprendizado por Reforço com Recompensas Verificáveis (RLVR), mas ainda enfrentam dificuldades com quebra-cabeças solucionáveis por humanos sem conhecimento específico do domínio. Apresentamos o Enigmata, o primeiro conjunto abrangente projetado para aprimorar LLMs com habilidades de raciocínio em quebra-cabeças. Ele inclui 36 tarefas em sete categorias, cada uma com 1) um gerador que produz exemplos ilimitados com dificuldade controlável e 2) um verificador baseado em regras para avaliação automática. Esse design gerador-verificador suporta treinamento escalável de RL multitarefa, análise detalhada e integração perfeita de RLVR. Além disso, propomos o Enigmata-Eval, um benchmark rigoroso, e desenvolvemos estratégias otimizadas de RLVR multitarefa. Nosso modelo treinado, Qwen2.5-32B-Enigmata, supera consistentemente o o3-mini-high e o o1 em benchmarks de raciocínio em quebra-cabeças como Enigmata-Eval, ARC-AGI (32,8%) e ARC-AGI 2 (0,6%). Ele também generaliza bem para benchmarks de quebra-cabeças fora do domínio e raciocínio matemático, com pouca compensação de multitarefa. Quando treinado em modelos maiores, como o Seed1.5-Thinking (20 bilhões de parâmetros ativados e 200 bilhões de parâmetros totais), os dados de quebra-cabeças do Enigmata aumentam ainda mais o desempenho de ponta em tarefas avançadas de matemática e raciocínio STEM, como AIME (2024-2025), BeyondAIME e GPQA (Diamond), mostrando os benefícios de generalização do Enigmata. Este trabalho oferece uma estrutura unificada e controlável para avançar o raciocínio lógico em LLMs. Os recursos deste trabalho podem ser encontrados em https://seed-enigmata.github.io.
Propomos uma nova estrutura para compreender as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs) através da perspectiva do meta-aprendizado. Ao conceituar trajetórias de raciocínio como atualizações de pseudo-descida de gradiente nos parâmetros do LLM, identificamos paralelos entre o raciocínio dos LLMs e vários paradigmas de meta-aprendizado. Formalizamos o processo de treinamento para tarefas de raciocínio como uma configuração de meta-aprendizado, onde cada questão é tratada como uma tarefa individual, e as trajetórias de raciocínio servem como a otimização do loop interno para adaptar os parâmetros do modelo. Uma vez treinado em um conjunto diversificado de questões, o LLM desenvolve capacidades fundamentais de raciocínio que podem generalizar para questões nunca vistas anteriormente. Avaliações empíricas extensivas corroboram a forte conexão entre o raciocínio dos LLMs e o meta-aprendizado, explorando várias questões de interesse significativo do ponto de vista do meta-aprendizado. Nosso trabalho não apenas aprimora a compreensão do raciocínio dos LLMs, mas também fornece insights práticos para melhorar esses modelos por meio de técnicas estabelecidas de meta-aprendizado.
Modelos de Linguagem de Grande Escala (LLMs) alcançaram sucesso notável em tarefas de processamento de linguagem natural, com o Aprendizado por Reforço desempenhando um papel crucial na adaptação deles para aplicações específicas. No entanto, obter respostas de verdade fundamental (ground truth) para treinar LLMs na resolução de problemas matemáticos é frequentemente desafiador, custoso e, às vezes, inviável. Esta pesquisa investiga a utilização de formato e comprimento como sinais substitutos para treinar LLMs na resolução de problemas matemáticos, contornando a necessidade de respostas de verdade fundamental tradicionais. Nosso estudo mostra que uma função de recompensa focada apenas na correção do formato pode gerar melhorias de desempenho comparáveis ao algoritmo GRPO padrão nas fases iniciais. Reconhecendo as limitações das recompensas baseadas apenas no formato nas fases posteriores, incorporamos recompensas baseadas no comprimento. A abordagem GRPO resultante, que aproveita sinais substitutos de formato-comprimento, não apenas iguala, mas supera o desempenho do algoritmo GRPO padrão que depende de respostas de verdade fundamental em certos cenários, alcançando 40,0% de precisão no AIME2024 com um modelo base de 7B. Através de exploração e experimentação sistemáticas, esta pesquisa não apenas oferece uma solução prática para treinar LLMs na resolução de problemas matemáticos e reduzir a dependência da coleta extensiva de dados de verdade fundamental, mas também revela a essência do porquê nossa abordagem sem rótulos tem sucesso: o modelo base é como um excelente aluno que já dominou habilidades de raciocínio matemático e lógico, mas se sai mal na prova, ele simplesmente precisa desenvolver bons hábitos de resposta para alcançar resultados excepcionais em exames, ou seja, para desbloquear as capacidades que já possui.
Modelos de linguagem de grande escala (LLMs) frequentemente exibem fortes vieses, por exemplo, contra mulheres ou a favor do número 7. Investigamos se os LLMs seriam capazes de gerar respostas menos tendenciosas quando permitidos a observar suas respostas anteriores à mesma pergunta em uma conversa de múltiplos turnos. Para entender quais tipos de perguntas induzem respostas mais enviesadas, testamos os LLMs em nosso conjunto proposto de perguntas que abrangem 9 tópicos e pertencem a três tipos: (1) Subjetivas; (2) Aleatórias; e (3) Objetivas. Curiosamente, os LLMs conseguem "desenviesar-se" em uma conversa de múltiplos turnos em resposta a perguntas que buscam uma resposta Aleatória e imparcial. Além disso, propomos o B-score, uma nova métrica eficaz na detecção de vieses em perguntas Subjetivas, Aleatórias, Fáceis e Difíceis. No MMLU, HLE e CSQA, o uso do B-score melhora substancialmente a precisão de verificação das respostas dos LLMs (ou seja, aceitando respostas corretas e rejeitando as incorretas) em comparação com o uso de pontuações de confiança verbalizadas ou a frequência de respostas de turno único isoladamente. Código e dados estão disponíveis em: https://b-score.github.io.
O treinamento de grandes modelos de linguagem (LLMs) para raciocínio complexo por meio de Aprendizado por Reforço com Recompensas Verificáveis (RLVR) é eficaz, mas limitado pela dependência de supervisão específica de domínio e custosa. Exploramos o Aprendizado por Reforço a partir de Feedback Interno (RLIF), uma estrutura que permite que LLMs aprendam a partir de sinais intrínsecos sem a necessidade de recompensas externas ou dados rotulados. Propomos o Intuitor, um método RLIF que utiliza a própria confiança do modelo, denominada autocerteza, como seu único sinal de recompensa. O Intuitor substitui as recompensas externas na Otimização de Política Relativa de Grupo (GRPO) por pontuações de autocerteza, permitindo um aprendizado completamente não supervisionado. Experimentos demonstram que o Intuitor iguala o desempenho do GRPO em benchmarks matemáticos enquanto alcança uma generalização superior em tarefas fora do domínio, como geração de código, sem exigir soluções de referência ou casos de teste. Nossos resultados mostram que sinais intrínsecos do modelo podem impulsionar um aprendizado eficaz em diversos domínios, oferecendo uma alternativa escalável ao RLVR para sistemas de IA autônomos onde recompensas verificáveis não estão disponíveis. O código está disponível em https://github.com/sunblaze-ucb/Intuitor.
Sinais de recompensa gerados por humanos são cruciais para alinhar modelos generativos com as preferências humanas, orientando tanto o treinamento quanto as avaliações durante a inferência. Embora modelos de linguagem de grande escala (LLMs) empregados como avaliadores substitutos, ou seja, LLM-as-a-Judge, reduzam significativamente os custos associados a anotações manuais, eles geralmente exigem extensos dados de treinamento específicos para cada modalidade e falham em generalizar bem em tarefas multimodais diversas. Neste artigo, propomos o Flex-Judge, um modelo de juiz multimodal guiado por raciocínio que aproveita dados mínimos de raciocínio textual para generalizar de forma robusta em múltiplas modalidades e formatos de avaliação. Nossa intuição central é que explicações estruturadas de raciocínio textual codificam inerentemente padrões generalizáveis de tomada de decisão, permitindo uma transferência eficaz para julgamentos multimodais, por exemplo, com imagens ou vídeos. Resultados empíricos demonstram que o Flex-Judge, apesar de ser treinado com significativamente menos dados textuais, alcança desempenho competitivo ou superior em comparação com APIs comerciais de ponta e avaliadores multimodais extensivamente treinados. Notavelmente, o Flex-Judge apresenta impacto amplo em modalidades como moléculas, onde benchmarks de avaliação abrangentes são escassos, destacando seu valor prático em domínios com recursos limitados. Nosso framework destaca a supervisão textual baseada em raciocínio como uma alternativa poderosa e custo-efetiva às abordagens tradicionais intensivas em anotações, avançando substancialmente a escalabilidade de modelos multimodais como juízes.
Modelos de linguagem multimodal de grande escala (MLLMs) têm recentemente alcançado progressos significativos em tarefas visuais, incluindo compreensão semântica de cenas e alinhamento texto-imagem, com variantes de raciocínio aprimorando o desempenho em tarefas complexas envolvendo matemática e lógica. No entanto, sua capacidade para tarefas de raciocínio que envolvem compreensão visual detalhada permanece insuficientemente avaliada. Para abordar essa lacuna, introduzimos o ReasonMap, um benchmark projetado para avaliar a compreensão visual detalhada e as habilidades de raciocínio espacial dos MLLMs. O ReasonMap abrange mapas de trânsito de alta resolução de 30 cidades em 13 países e inclui 1.008 pares de perguntas e respostas abrangendo dois tipos de perguntas e três modelos. Além disso, projetamos um pipeline de avaliação de dois níveis que avalia corretamente a precisão e a qualidade das respostas. Avaliações abrangentes de 15 MLLMs populares, incluindo variantes base e de raciocínio, revelam um padrão contraintuitivo: entre os modelos de código aberto, os modelos base superam os de raciocínio, enquanto a tendência oposta é observada em modelos de código fechado. Além disso, o desempenho geralmente se degrada quando as entradas visuais são mascaradas, indicando que, embora os MLLMs possam aproveitar conhecimento prévio para responder a algumas perguntas, tarefas de raciocínio visual detalhado ainda exigem percepção visual genuína para um desempenho forte. Nosso estudo de benchmark oferece novos insights sobre o raciocínio visual e contribui para investigar a lacuna entre modelos de código aberto e de código fechado.
Modelos de linguagem de grande escala (LLMs) têm demonstrado potencial na automação da geração de hipóteses científicas, mas as abordagens existentes produzem principalmente hipóteses de granularidade grossa, carentes de detalhes metodológicos e experimentais críticos. Introduzimos e definimos formalmente a nova tarefa de descoberta de hipóteses científicas de granularidade fina, que envolve a geração de hipóteses detalhadas e acionáveis experimentalmente a partir de direções de pesquisa iniciais de granularidade grossa. Enquadramos isso como um problema de otimização combinatória e investigamos os limites superiores da capacidade dos LLMs para resolvê-lo quando maximamente aproveitados. Especificamente, exploramos quatro questões fundamentais: (1) como melhor aproveitar as heurísticas internas de um LLM para formular a hipótese de granularidade fina que ele próprio julgaria como a mais promissora entre todas as hipóteses possíveis que poderia gerar, com base em sua própria pontuação interna—definindo assim uma paisagem de recompensa latente sobre o espaço de hipóteses; (2) se tais hipóteses julgadas como melhores pelo LLM exibem um alinhamento mais forte com hipóteses de verdade fundamental; (3) se moldar a paisagem de recompensa usando um conjunto diversificado de LLMs de capacidade similar produz resultados melhores do que defini-la com instâncias repetidas do LLM mais forte entre eles; e (4) se um conjunto de LLMs idênticos fornece uma paisagem de recompensa mais confiável do que um único LLM. Para abordar essas questões, propomos um método de busca hierárquica que propõe e integra incrementalmente detalhes na hipótese, progredindo de conceitos gerais para configurações experimentais específicas. Mostramos que esse processo hierárquico suaviza a paisagem de recompensa e permite uma otimização mais eficaz. Avaliações empíricas em um novo benchmark de hipóteses de granularidade fina anotadas por especialistas, extraídas da literatura recente de química, mostram que nosso método supera consistentemente baselines fortes.
Os LLMs (Modelos de Linguagem de Grande Escala) têm feito progressos impressionantes, mas suas capacidades crescentes também os expõem a ataques de jailbreaking altamente flexíveis, projetados para contornar o alinhamento de segurança. Embora muitas defesas existentes se concentrem em tipos conhecidos de ataques, é mais crítico preparar os LLMs para ataques não vistos que possam surgir durante a implantação. Para abordar isso, propomos um framework de alinhamento de segurança contínuo que permite que os LLMs se adaptem continuamente a novas e evolutivas estratégias de jailbreaking. Nosso framework introduz uma configuração competitiva entre dois componentes: um Meta-Atacante, treinado para descobrir ativamente novas estratégias de jailbreaking, e um Defensor, treinado para resistir a elas. Para aquecer efetivamente o Meta-Atacante, primeiro utilizamos a API do GPT-4 para extrair insights-chave de uma grande coleção de artigos de pesquisa relacionados a jailbreaking. Por meio de treinamento iterativo, o Meta-Atacante da primeira iteração alcança uma taxa de sucesso de ataque (ASR) de 73% no RR e uma ASR de transferência de 57% no LAT usando apenas ataques de turno único. Enquanto isso, o Defensor melhora progressivamente sua robustez e, por fim, reduz a taxa de sucesso do Meta-Atacante para apenas 7%, permitindo uma implantação mais segura e confiável de LLMs em ambientes abertos. O código está disponível em https://github.com/sail-sg/LifelongSafetyAlignment.
Apesar da proeminência dos modelos de linguagem apenas com decodificador, os codificadores continuam sendo cruciais para aplicações com recursos limitados. Apresentamos o ModernGBERT (134M, 1B), uma família totalmente transparente de modelos codificadores em alemão treinados do zero, incorporando inovações arquitetônicas do ModernBERT. Para avaliar as compensações práticas de treinar codificadores do zero, também apresentamos o LL\"aMmlein2Vec (120M, 1B, 7B), uma família de codificadores derivados de modelos apenas com decodificador em alemão via LLM2Vec. Avaliamos todos os modelos em tarefas de compreensão de linguagem natural, incorporação de texto e raciocínio de contexto longo, permitindo uma comparação controlada entre codificadores dedicados e decodificadores convertidos. Nossos resultados mostram que o ModernGBERT 1B supera os codificadores em alemão de última geração anteriores, bem como os codificadores adaptados via LLM2Vec, em termos de desempenho e eficiência de parâmetros. Todos os modelos, dados de treinamento, checkpoints e código estão publicamente disponíveis, avançando o ecossistema de PLN em alemão com modelos codificadores transparentes e de alto desempenho.
A geração e compreensão visual são dois aspectos profundamente interconectados da inteligência humana, mas tradicionalmente têm sido tratados como tarefas separadas no aprendizado de máquina. Neste artigo, propomos o Jodi, um framework de difusão que unifica a geração e compreensão visual ao modelar conjuntamente o domínio de imagens e múltiplos domínios de rótulos. Especificamente, o Jodi é construído sobre um transformer de difusão linear juntamente com um mecanismo de alternância de papéis, o que permite que ele execute três tipos particulares de tarefas: (1) geração conjunta, onde o modelo gera simultaneamente imagens e múltiplos rótulos; (2) geração controlada, onde as imagens são geradas condicionadas a qualquer combinação de rótulos; e (3) percepção de imagem, onde múltiplos rótulos podem ser previstos de uma vez a partir de uma imagem dada. Além disso, apresentamos o conjunto de dados Joint-1.6M, que contém 200.000 imagens de alta qualidade coletadas de fontes públicas, rótulos automáticos para 7 domínios visuais e legendas geradas por LLM. Experimentos extensivos demonstram que o Jodi se destaca tanto em tarefas de geração quanto de compreensão e exibe forte extensibilidade para uma gama mais ampla de domínios visuais. O código está disponível em https://github.com/VIPL-GENUN/Jodi.
Propomos um sistema de física neural para simulações de fluidos interativas em tempo real. Métodos tradicionais baseados em física, embora precisos, são computacionalmente intensivos e sofrem com problemas de latência. Métodos recentes de aprendizado de máquina reduzem os custos computacionais enquanto preservam a fidelidade; no entanto, a maioria ainda não consegue satisfazer as restrições de latência para uso em tempo real e carece de suporte para aplicações interativas. Para preencher essa lacuna, introduzimos um novo método híbrido que integra simulação numérica, física neural e controle generativo. Nossa física neural busca simultaneamente simulação de baixa latência e alta fidelidade física, empregando um mecanismo de segurança de fallback para solucionadores numéricos clássicos. Além disso, desenvolvemos um controlador baseado em difusão que é treinado usando uma estratégia de modelagem reversa para gerar campos de força dinâmicos externos para manipulação de fluidos. Nosso sistema demonstra desempenho robusto em diversos cenários 2D/3D, tipos de materiais e interações com obstáculos, alcançando simulações em tempo real com altas taxas de quadros (11~29% de latência) enquanto permite o controle de fluidos guiado por esboços livres e amigáveis ao usuário. Apresentamos um passo significativo em direção a simulações de fluidos práticas, controláveis e fisicamente plausíveis para aplicações interativas em tempo real. Comprometemo-nos a liberar tanto os modelos quanto os dados após a aceitação.
À medida que os Modelos de Linguagem de Grande Escala (LLMs) se tornam essenciais nos fluxos de trabalho de desenvolvimento de software, sua capacidade de gerar saídas estruturadas tornou-se criticamente importante. Apresentamos o StructEval, um benchmark abrangente para avaliar as capacidades dos LLMs na produção de formatos estruturados não renderizáveis (JSON, YAML, CSV) e renderizáveis (HTML, React, SVG). Diferente de benchmarks anteriores, o StructEval avalia sistematicamente a fidelidade estrutural em diversos formatos por meio de dois paradigmas: 1) tarefas de geração, que produzem saídas estruturadas a partir de prompts em linguagem natural, e 2) tarefas de conversão, que traduzem entre formatos estruturados. Nosso benchmark abrange 18 formatos e 44 tipos de tarefas, com métricas inovadoras para aderência ao formato e correção estrutural. Os resultados revelam lacunas significativas de desempenho, onde até mesmo modelos de última geração, como o o1-mini, atingem apenas uma pontuação média de 75,58, com alternativas de código aberto ficando aproximadamente 10 pontos atrás. Descobrimos que as tarefas de geração são mais desafiadoras do que as de conversão, e que produzir conteúdo visual correto é mais difícil do que gerar estruturas apenas de texto.
Em 2025, em um momento crucial na busca pela Inteligência Geral Artificial (AGI), o ajuste fino por reforço (RFT) demonstrou um potencial significativo para aprimorar a capacidade de raciocínio de grandes modelos de linguagem (LLMs) e levou ao desenvolvimento de modelos de IA de ponta, como o OpenAI-o1 e o DeepSeek-R1. Além disso, a aplicação eficiente do RFT para melhorar a capacidade de raciocínio de modelos de linguagem multimodal (MLLMs) atraiu ampla atenção da comunidade. Neste artigo de posicionamento, argumentamos que o ajuste fino por reforço impulsiona a capacidade de raciocínio dos modelos de linguagem multimodal. Para começar, fornecemos uma introdução detalhada ao conhecimento fundamental de base que os pesquisadores interessados nessa área devem conhecer. Além disso, resumimos meticulosamente as melhorias do RFT no aprimoramento da capacidade de raciocínio dos MLLMs em cinco pontos-chave: modalidades diversas, tarefas e domínios variados, melhores algoritmos de treinamento, benchmarks abundantes e frameworks de engenharia prósperos. Por fim, propomos cinco direções promissoras para pesquisas futuras que a comunidade pode considerar. Esperamos que este artigo de posicionamento forneça insights valiosos para a comunidade nesta etapa pivotal no avanço em direção à AGI. Um resumo dos trabalhos realizados sobre RFT para MLLMs está disponível em https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs.
Apresentamos o REARANK, um agente de rerranqueamento baseado em modelo de linguagem de grande escala (LLM) que utiliza raciocínio listwise. O REARANK realiza raciocínio explícito antes de rerranquear, melhorando significativamente tanto o desempenho quanto a interpretabilidade. Aproveitando o aprendizado por reforço e a ampliação de dados, o REARANK alcança melhorias substanciais em relação aos modelos de referência em benchmarks populares de recuperação de informação, notavelmente exigindo apenas 179 amostras anotadas. Construído sobre o Qwen2.5-7B, nosso REARANK-7B demonstra desempenho comparável ao GPT-4 tanto em benchmarks dentro do domínio quanto fora do domínio, e até supera o GPT-4 em benchmarks de raciocínio intensivo como o BRIGHT. Esses resultados destacam a eficácia de nossa abordagem e mostram como o aprendizado por reforço pode aprimorar as capacidades de raciocínio de LLMs em tarefas de rerranqueamento.
O raciocínio de longo prazo em vídeo-áudio e a compreensão detalhada em nível de pixel impõem requisitos conflitantes em modelos omnimodais: a cobertura temporal densa exige muitos quadros de baixa resolução, enquanto o enquadramento preciso demanda entradas de alta resolução. Abordamos esse dilema com uma arquitetura de dois sistemas: um Sistema de Raciocínio Global seleciona quadros-chave informativos e reformula a tarefa com baixo custo espacial, enquanto um Sistema de Compreensão Detalhada realiza o enquadramento em nível de pixel nos trechos selecionados de alta resolução. Como a seleção e reformulação de quadros-chave "ótimos" são ambíguas e difíceis de supervisionar, as formulamos como um problema de aprendizado por reforço (RL) e apresentamos o Omni-R1, um framework RL de ponta a ponta construído sobre a Otimização de Política Relativa em Grupo. O Omni-R1 treina o Sistema de Raciocínio Global por meio de recompensas hierárquicas obtidas via colaboração online com o Sistema de Compreensão Detalhada, exigindo apenas uma época de RL em divisões pequenas de tarefas. Experimentos em dois benchmarks desafiadores, a Segmentação Áudio-Visual Referencial (RefAVS) e a Segmentação de Objetos em Vídeo com Raciocínio (REVOS), mostram que o Omni-R1 não apenas supera baselines supervisionados robustos, mas também supera modelos especializados de última geração, enquanto melhora substancialmente a generalização fora do domínio e mitiga a alucinação multimodal. Nossos resultados demonstram a primeira aplicação bem-sucedida de RL em raciocínio omnimodal em larga escala e destacam um caminho escalável em direção a modelos de base universais.
A difusão discreta emergiu recentemente como um paradigma promissor na modelagem de dados discretos. No entanto, os métodos existentes geralmente dependem de uma matriz de transição de taxa fixa durante o treinamento, o que não apenas limita a expressividade das representações latentes, uma força fundamental dos métodos variacionais, mas também restringe o espaço de design geral. Para abordar essas limitações, propomos o Discrete Markov Bridge, uma nova estrutura especificamente projetada para o aprendizado de representações discretas. Nossa abordagem é construída sobre dois componentes principais: Aprendizado de Matriz e Aprendizado de Pontuação. Realizamos uma análise teórica rigorosa, estabelecendo garantias formais de desempenho para o Aprendizado de Matriz e provando a convergência da estrutura geral. Além disso, analisamos a complexidade espacial do nosso método, abordando restrições práticas identificadas em estudos anteriores. Avaliações empíricas extensas validam a eficácia do Discrete Markov Bridge proposto, que alcança um Limite Inferior de Evidência (ELBO) de 1,38 no conjunto de dados Text8, superando as linhas de base estabelecidas. Além disso, o modelo proposto demonstra desempenho competitivo no conjunto de dados CIFAR-10, alcançando resultados comparáveis aos obtidos por abordagens específicas para geração de imagens.
Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades notáveis de raciocínio em matemática e programação, frequentemente aprimoradas por pós-treinamento nas cadeias de pensamento (CoTs) geradas por modelos mais robustos. No entanto, as estratégias existentes para a curadoria desses dados de treinamento dependem predominantemente de heurísticas, limitando a generalização e falhando em capturar as sutilezas subjacentes aos dados. Para abordar essas limitações, utilizamos funções de influência para atribuir sistematicamente a capacidade de raciocínio dos LLMs em matemática e programação a exemplos individuais de treinamento, sequências e tokens, permitindo insights mais profundos sobre as características eficazes dos dados. Nossa Atribuição de Raciocínio Baseada em Influência (Infra) revela efeitos não triviais entre domínios em tarefas de matemática e programação: exemplos de matemática de alta dificuldade melhoram tanto o raciocínio matemático quanto o de programação, enquanto tarefas de programação de baixa dificuldade beneficiam mais efetivamente o raciocínio em código. Com base nessas descobertas, introduzimos uma estratégia simples, porém eficaz, de reajuste de peso do conjunto de dados, invertendo a dificuldade das tarefas, o que dobra a precisão do AIME24 de 10% para 20% e aumenta a precisão do LiveCodeBench de 33,8% para 35,3% para o Qwen2.5-7B-Instruct. Além disso, nossa atribuição em nível granular revela que os comportamentos exploratórios em nível de sequência melhoram o desempenho do raciocínio tanto em matemática quanto em programação, e os padrões de influência em nível de token são distintos para o raciocínio matemático e de programação: o primeiro prefere conectores lógicos em linguagem natural, enquanto o segundo enfatiza a sintaxe estrutural.
Esta revisão apresenta uma análise abrangente de dois paradigmas emergentes no desenvolvimento de software assistido por IA: a codificação intuitiva (vibe coding) e a codificação agentiva (agentic coding). Embora ambos aproveitem modelos de linguagem de grande escala (LLMs), eles diferem fundamentalmente em termos de autonomia, design arquitetônico e o papel do desenvolvedor. A codificação intuitiva enfatiza a interação humana no loop, por meio de fluxos de trabalho conversacionais baseados em prompts que apoiam a ideação, experimentação e exploração criativa. Em contraste, a codificação agentiva permite o desenvolvimento autônomo de software por meio de agentes orientados a objetivos, capazes de planejar, executar, testar e iterar tarefas com intervenção humana mínima. Propomos uma taxonomia detalhada que abrange fundamentos conceituais, modelos de execução, loops de feedback, mecanismos de segurança, estratégias de depuração e ecossistemas de ferramentas do mundo real. Por meio de análises comparativas de fluxos de trabalho e 20 casos de uso detalhados, ilustramos como os sistemas intuitivos prosperam na prototipagem inicial e na educação, enquanto os sistemas agentivos se destacam na automação de nível empresarial, refatoração de bases de código e integração de CI/CD. Examinamos ainda tendências emergentes em arquiteturas híbridas, onde interfaces de linguagem natural são acopladas a pipelines de execução autônoma. Por fim, articulamos um roteiro futuro para a IA agentiva, delineando a infraestrutura necessária para sistemas confiáveis, explicáveis e colaborativos. Nossas descobertas sugerem que o sucesso da engenharia de software com IA não dependerá da escolha de um paradigma, mas da harmonização de seus pontos fortes dentro de um ciclo de desenvolvimento unificado e centrado no ser humano.
Modelos modernos de raciocínio em larga escala demonstram capacidades impressionantes de resolução de problemas ao empregar estratégias de raciocínio sofisticadas. No entanto, eles frequentemente lutam para equilibrar eficiência e eficácia, gerando cadeias de raciocínio desnecessariamente longas para problemas simples. Neste trabalho, propomos o AdaCtrl, uma nova estrutura para suportar tanto a alocação adaptativa de orçamento de raciocínio consciente da dificuldade quanto o controle explícito do usuário sobre a profundidade do raciocínio. O AdaCtrl ajusta dinamicamente o comprimento do raciocínio com base na dificuldade autoavaliada do problema, ao mesmo tempo que permite que os usuários controlem manualmente o orçamento para priorizar eficiência ou eficácia. Isso é alcançado por meio de um pipeline de treinamento em duas etapas: uma fase inicial de ajuste fino de partida a frio para incutir a capacidade de autoavaliar a dificuldade e ajustar o orçamento de raciocínio, seguida por uma etapa de aprendizado por reforço (RL) consciente da dificuldade que refina as estratégias de raciocínio adaptativo do modelo e calibra suas avaliações de dificuldade com base em suas capacidades em evolução durante o treinamento online. Para permitir uma interação intuitiva do usuário, projetamos tags explícitas acionadas por comprimento que funcionam como uma interface natural para o controle do orçamento. Resultados empíricos mostram que o AdaCtrl adapta o comprimento do raciocínio com base na dificuldade estimada; em comparação com a linha de base de treinamento padrão que também incorpora ajuste fino e RL, ele produz melhorias de desempenho e simultaneamente reduz o comprimento da resposta em 10,06% e 12,14% nos conjuntos de dados mais desafiadores AIME2024 e AIME2025, que exigem raciocínio elaborado, e em 62,05% e 91,04% nos conjuntos de dados MATH500 e GSM8K, onde respostas mais concisas são suficientes. Além disso, o AdaCtrl permite um controle preciso do usuário sobre o orçamento de raciocínio, possibilitando respostas personalizadas para atender a necessidades específicas.
A destilação centrada em dados, incluindo aumento, seleção e mistura de dados, oferece um caminho promissor para a criação de modelos de linguagem grandes (LLMs) estudantis menores e mais eficientes que mantêm fortes habilidades de raciocínio. No entanto, ainda falta um benchmark abrangente para avaliar sistematicamente o efeito de cada abordagem de destilação. Este artigo introduz o DC-CoT, o primeiro benchmark centrado em dados que investiga a manipulação de dados na destilação de cadeia de pensamento (CoT) a partir das perspectivas de método, modelo e dados. Utilizando diversos modelos professores (por exemplo, o4-mini, Gemini-Pro, Claude-3.5) e arquiteturas estudantis (por exemplo, 3B, 7B parâmetros), avaliamos rigorosamente o impacto dessas manipulações de dados no desempenho do modelo estudantil em vários conjuntos de dados de raciocínio, com foco na generalização dentro da distribuição (IID) e fora da distribuição (OOD), e na transferência entre domínios. Nossas descobertas visam fornecer insights acionáveis e estabelecer melhores práticas para otimizar a destilação CoT por meio de técnicas centradas em dados, facilitando, em última análise, o desenvolvimento de modelos de raciocínio mais acessíveis e capazes. O conjunto de dados pode ser encontrado em https://huggingface.co/datasets/rana-shahroz/DC-COT, enquanto nosso código é compartilhado em https://anonymous.4open.science/r/DC-COT-FF4C/.
Cadeias longas de pensamento (CoT) melhoram significativamente as capacidades de raciocínio de grandes modelos de linguagem (LLM). No entanto, os extensos rastros de raciocínio levam a ineficiências e a um aumento no tempo para o primeiro token (TTFT). Propomos um novo paradigma de treinamento que utiliza aprendizado por reforço (RL) para guiar modelos de raciocínio a intercalar pensamento e resposta para perguntas de múltiplos saltos. Observamos que os modelos possuem inerentemente a capacidade de realizar raciocínio intercalado, que pode ser aprimorado ainda mais por meio de RL. Introduzimos uma recompensa baseada em regras simples, porém eficaz, para incentivar etapas intermediárias corretas, o que guia o modelo de política em direção a caminhos de raciocínio corretos, aproveitando sinais intermediários gerados durante o raciocínio intercalado. Experimentos extensos realizados em cinco conjuntos de dados diversos e três algoritmos de RL (PPO, GRPO e REINFORCE++) demonstram melhorias consistentes em relação ao raciocínio tradicional de pensar-responder, sem a necessidade de ferramentas externas. Especificamente, nossa abordagem reduz o TTFT em mais de 80% em média e melhora até 19,3% na precisão Pass@1. Além disso, nosso método, treinado exclusivamente em conjuntos de dados de resposta a perguntas e raciocínio lógico, exibe forte capacidade de generalização para conjuntos de dados de raciocínio complexo, como MATH, GPQA e MMLU. Adicionalmente, realizamos uma análise aprofundada para revelar várias percepções valiosas sobre a modelagem de recompensas condicionais.
Modelos de Visão-Linguagem (VLMs) se destacam em muitas tarefas multimodais diretas, mas lutam para traduzir essa capacidade em tomadas de decisão eficazes em ambientes interativos e visualmente ricos, como jogos. Essa lacuna entre "saber e fazer" limita significativamente seu potencial como agentes autônomos, já que os principais VLMs frequentemente têm desempenho ruim em jogos simples. Para abordar isso, introduzimos o VLM-Gym, um ambiente de aprendizado por reforço (RL) cuidadosamente selecionado, que apresenta diversos jogos visuais com interfaces unificadas e dificuldade ajustável e composicional, projetado especificamente para treinamento paralelo escalável em múltiplos jogos. Utilizando o VLM-Gym, treinamos modelos G0 usando pura auto-evolução impulsionada por RL, que demonstram padrões emergentes de percepção e raciocínio. Para mitigar ainda mais os desafios decorrentes da diversidade de jogos, desenvolvemos modelos G1. O G1 incorpora um início frio aprimorado por percepção antes do ajuste fino com RL. Nossos modelos G1 resultantes superam consistentemente seu professor em todos os jogos e superam modelos proprietários líderes, como o Claude-3.7-Sonnet-Thinking. Análises sistemáticas revelam uma descoberta intrigante: as habilidades de percepção e raciocínio se impulsionam mutuamente ao longo do processo de treinamento com RL. O código-fonte, incluindo o VLM-Gym e o treinamento de RL, foi liberado em https://github.com/chenllliang/G1 para promover pesquisas futuras no avanço de VLMs como agentes interativos capazes.
Os avanços recentes em agentes de IA têm demonstrado seu crescente potencial para impulsionar e apoiar a descoberta científica. Neste trabalho, apresentamos o MLR-Bench, um benchmark abrangente para avaliar agentes de IA em pesquisas de aprendizado de máquina de natureza aberta. O MLR-Bench inclui três componentes principais: (1) 201 tarefas de pesquisa extraídas de workshops da NeurIPS, ICLR e ICML, abrangendo diversos tópicos de ML; (2) MLR-Judge, um framework de avaliação automatizada que combina revisores baseados em LLMs com rubricas de revisão cuidadosamente projetadas para avaliar a qualidade da pesquisa; e (3) MLR-Agent, um scaffold modular de agente capaz de completar tarefas de pesquisa em quatro estágios: geração de ideias, formulação de propostas, experimentação e redação de artigos. Nosso framework suporta tanto a avaliação passo a passo desses estágios distintos de pesquisa quanto a avaliação end-to-end do artigo de pesquisa final. Em seguida, utilizamos o MLR-Bench para avaliar seis LLMs de ponta e um agente de codificação avançado, descobrindo que, embora os LLMs sejam eficazes na geração de ideias coerentes e artigos bem estruturados, os agentes de codificação atuais frequentemente (por exemplo, em 80% dos casos) produzem resultados experimentais fabricados ou inválidos—o que representa uma grande barreira para a confiabilidade científica. Validamos o MLR-Judge por meio de avaliação humana, mostrando alta concordância com revisores especialistas, apoiando seu potencial como uma ferramenta escalável para avaliação de pesquisa. Disponibilizamos o MLR-Bench como código aberto para ajudar a comunidade a avaliar, diagnosticar e melhorar agentes de pesquisa de IA em direção a uma descoberta científica confiável e transparente.
A modelagem Visual Autoregressiva (VAR) tem recebido atenção significativa por sua abordagem inovadora de previsão em múltiplas escalas, que resulta em melhorias substanciais em eficiência, escalabilidade e generalização zero-shot. No entanto, a metodologia de granularidade grossa para fina inerente ao VAR leva a um crescimento exponencial do cache KV durante a inferência, causando consumo considerável de memória e redundância computacional. Para abordar esses gargalos, introduzimos o ScaleKV, um novo framework de compressão de cache KV projetado especificamente para arquiteturas VAR. O ScaleKV aproveita duas observações críticas: a variação na demanda de cache entre as camadas do transformer e os padrões distintos de atenção em diferentes escalas. Com base nessas percepções, o ScaleKV categoriza as camadas do transformer em dois grupos funcionais: rascunhadores e refinadores. Os rascunhadores exibem atenção dispersa em múltiplas escalas, exigindo, portanto, maior capacidade de cache. Por outro lado, os refinadores concentram a atenção no mapa de tokens atual para processar detalhes locais, necessitando, consequentemente, de uma capacidade de cache substancialmente reduzida. O ScaleKV otimiza o pipeline de inferência em múltiplas escalas ao identificar rascunhadores e refinadores específicos para cada escala, facilitando o gerenciamento diferenciado de cache adaptado a cada nível. A avaliação na família de modelos VAR state-of-the-art de texto para imagem, Infinity, demonstra que nossa abordagem reduz efetivamente a memória necessária do cache KV para 10%, mantendo a fidelidade em nível de pixel.
Os Modelos de Raciocínio de Grande Escala (LRMs) são criticados pela extensão excessiva da Cadeia de Pensamento (CoT) necessária para derivar a resposta final, sofrendo com alta latência tanto no primeiro token quanto no geral. Normalmente, a CoT dos LRMs mistura múltiplas unidades de pensamento; cada unidade tenta produzir uma resposta candidata à consulta original. Portanto, uma ideia natural para melhorar a eficiência é reduzir o número de unidades. No entanto, o fato de que as unidades de pensamento na CoT padrão não podem ser explicitamente gerenciadas torna isso desafiador. Este artigo introduz a Decomposição Multi-Turn (MinD) para decodificar a CoT convencional em uma sequência de interações explícitas, estruturadas e turno a turno, a fim de preencher essa lacuna. No MinD, o modelo fornece uma resposta multi-turn à consulta, onde cada turno abraça uma unidade de pensamento e produz uma resposta correspondente. Os turnos subsequentes podem refletir, verificar, revisar ou explorar abordagens alternativas tanto para o pensamento quanto para as partes da resposta dos turnos anteriores. Isso não apenas torna a resposta entregue mais rapidamente, mas também permite controles explícitos sobre o processo de raciocínio iterativo (ou seja, os usuários podem parar ou continuar em qualquer turno). Seguimos um paradigma de ajuste fino supervisionado (SFT) seguido de aprendizado por reforço (RL) para realizar o MinD. Primeiro, reformulamos as saídas de um LRM em formatos multi-turn ao solicitar outro LLM e, em seguida, ajustamos o LRM com esses dados. Observando que o modelo ajustado tende a consumir ainda mais tokens do que o original (provavelmente porque os formatos multi-turn introduzem tokens adicionais de resposta), defendemos a utilização de algoritmos de RL, como GRPO, para priorizar saídas corretas com menos turnos. Treinado no conjunto de dados MATH usando modelos R1-Distill, o MinD pode alcançar uma redução de até ~70% tanto no uso de tokens de saída quanto no tempo para o primeiro token (TTFT), mantendo um desempenho competitivo em benchmarks de raciocínio como MATH-500, AIME24, AMC23 e GPQA-Diamond.
A linguagem falada transmite significado não apenas por meio de palavras, mas também por meio de entonação, emoção e ênfase. A ênfase frasal, que é o destaque dado a palavras específicas dentro de uma frase, é crucial para transmitir a intenção do falante e tem sido amplamente estudada na linguística. Neste trabalho, apresentamos o WHISTRESS, uma abordagem livre de alinhamento para aprimorar sistemas de transcrição com detecção de ênfase frasal. Para apoiar essa tarefa, propomos o TINYSTRESS-15K, um conjunto de dados de treinamento sintético e escalável para a tarefa de detecção de ênfase frasal, resultante de um processo de criação de dados totalmente automatizado. Treinamos o WHISTRESS no TINYSTRESS-15K e o avaliamos em comparação com várias linhas de base competitivas. Nossos resultados mostram que o WHISTRESS supera os métodos existentes, sem exigir informações prévias adicionais durante o treinamento ou a inferência. Notavelmente, apesar de ter sido treinado com dados sintéticos, o WHISTRESS demonstra uma forte generalização zero-shot em diversos benchmarks. Página do projeto: https://pages.cs.huji.ac.il/adiyoss-lab/whistress.
Beneficiando-se de codificadores visuais treinados de forma contrastiva em imagens de cenas naturais em larga escala, os Modelos Multimodais de Grande Escala (LMMs) alcançaram desempenho notável em diversas tarefas de percepção visual. No entanto, as limitações inerentes ao aprendizado contrastivo baseado em descrições resumidas restringem fundamentalmente as capacidades dos modelos em raciocínios meticulosos, especialmente em cenários cruciais de resolução de problemas geométricos. Para aprimorar a compreensão geométrica, propomos uma nova estrutura de aprendizado contrastivo com negativos difíceis para o codificador visual, que combina o aprendizado contrastivo baseado em imagens utilizando negativos difíceis gerados por perturbações no código de geração de diagramas, e o aprendizado contrastivo baseado em texto utilizando negativos baseados em regras derivados de descrições geométricas modificadas e negativos baseados em recuperação selecionados com base na similaridade de legendas. Treinamos o CLIP utilizando nosso método robusto de aprendizado com negativos, denominado MMCLIP (Multimodal Math CLIP), e subsequentemente treinamos um LMM para resolução de problemas geométricos. Experimentos mostram que nosso modelo treinado, MMGeoLM, supera significativamente outros modelos de código aberto em três benchmarks de raciocínio geométrico. Mesmo com um tamanho de 7B, ele pode rivalizar com modelos poderosos de código fechado como o GPT-4o. Estudamos ainda o impacto de diferentes métodos de construção de amostras negativas e o número de amostras negativas no desempenho de raciocínio geométrico do LMM, obtendo conclusões frutíferas. O código e o conjunto de dados estão disponíveis em https://github.com/THU-KEG/MMGeoLM.
Avanços recentes em modelos de geração de vídeo despertaram interesse em modelos de mundo capazes de simular ambientes realistas. Embora a navegação tenha sido bem explorada, interações fisicamente significativas que imitam forças do mundo real permanecem amplamente pouco estudadas. Neste trabalho, investigamos o uso de forças físicas como sinal de controle para geração de vídeo e propomos "force prompts" (prompts de força), que permitem aos usuários interagir com imagens por meio de forças pontuais localizadas, como cutucar uma planta, e campos de força globais, como o vento soprando em um tecido. Demonstramos que esses prompts de força podem fazer com que os vídeos respondam de forma realista a sinais de controle físico, aproveitando o conhecimento visual e de movimento do modelo pré-treinado original, sem o uso de qualquer ativo 3D ou simulador de física durante a inferência. O principal desafio dos prompts de força é a dificuldade em obter dados de treinamento de alta qualidade que associem força e vídeo, tanto no mundo real devido à dificuldade de capturar sinais de força, quanto em dados sintéticos devido às limitações na qualidade visual e diversidade de domínio dos simuladores de física. Nossa principal descoberta é que modelos de geração de vídeo podem generalizar de forma notável quando adaptados para seguir condicionamentos de força física a partir de vídeos sintetizados pelo Blender, mesmo com demonstrações limitadas de poucos objetos. Nosso método pode gerar vídeos que simulam forças em diversas geometrias, cenários e materiais. Também tentamos entender a origem dessa generalização e realizamos ablações que revelam dois elementos-chave: diversidade visual e o uso de palavras-chave específicas durante o treinamento. Nossa abordagem é treinada com apenas cerca de 15 mil exemplos de treinamento por um único dia em quatro GPUs A100 e supera métodos existentes em aderência à força e realismo físico, aproximando os modelos de mundo das interações físicas do mundo real. Disponibilizamos todos os conjuntos de dados, códigos, pesos e demonstrações interativas de vídeo em nossa página do projeto.
As crescentes demandas computacionais de grandes modelos de linguagem (LLMs) tornam estratégias eficientes de inferência e ativação cada vez mais críticas. Embora abordagens recentes, como Mixture-of-Experts (MoE), aproveitem a ativação seletiva, elas exigem treinamento especializado, enquanto métodos de ativação esparsa sem treinamento oferecem maior aplicabilidade e eficiência de recursos por meio de seu design plug-and-play. No entanto, muitos métodos existentes dependem exclusivamente das magnitudes dos estados ocultos para determinar a ativação, resultando em altos erros de aproximação e precisão de inferência subótima. Para abordar essas limitações, propomos o WINA (Weight Informed Neuron Activation), uma nova estrutura de ativação esparsa simples e sem treinamento que considera conjuntamente as magnitudes dos estados ocultos e as normas ell_2 coluna a coluna das matrizes de pesos. Demonstramos que isso leva a uma estratégia de esparsificação que obtém limites de erro de aproximação ótimos com garantias teóricas mais rigorosas do que as técnicas existentes. Empiricamente, o WINA também supera métodos state-of-the-art (por exemplo, TEAL) em até 2,94% no desempenho médio nos mesmos níveis de esparsidade, em um conjunto diversificado de arquiteturas de LLMs e conjuntos de dados. Esses resultados posicionam o WINA como uma nova fronteira de desempenho para ativação esparsa sem treinamento na inferência de LLMs, avançando os métodos de ativação esparsa sem treinamento e estabelecendo uma linha de base robusta para inferência eficiente. O código-fonte está disponível em https://github.com/microsoft/wina.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades notáveis em diversas tarefas, mas ainda ficam significativamente atrás dos humanos em raciocínio espacial. Investigamos essa lacuna por meio do Raciocínio Visual Orientado por Transformações (TVR), uma tarefa desafiadora que requer a identificação de transformações de objetos entre imagens sob diferentes pontos de vista. Enquanto o Ajuste Fino Supervisionado (SFT) tradicional falha em gerar caminhos de raciocínio coerentes em cenários de visão cruzada, o Aprendizado por Reforço (RL) com recompensas esparsas sofre com exploração ineficiente e convergência lenta. Para abordar essas limitações, propomos o STAR-R1, uma estrutura inovadora que integra um paradigma de RL em estágio único com um mecanismo de recompensa refinado especificamente para o TVR. Especificamente, o STAR-R1 recompensa a correção parcial enquanto penaliza a enumeração excessiva e a inação passiva, permitindo uma exploração eficiente e um raciocínio preciso. Avaliações abrangentes demonstram que o STAR-R1 alcança desempenho de ponta em todas as 11 métricas, superando o SFT em 23% em cenários de visão cruzada. Análises adicionais revelam o comportamento antropomórfico do STAR-R1 e destacam sua capacidade única de comparar todos os objetos para melhorar o raciocínio espacial. Nosso trabalho fornece insights críticos para avançar a pesquisa em MLLMs e modelos de raciocínio. Os códigos, pesos do modelo e dados estarão publicamente disponíveis em https://github.com/zongzhao23/STAR-R1.
Este artigo apresenta o InfantAgent-Next, um agente generalista capaz de interagir com computadores de forma multimodal, abrangendo texto, imagens, áudio e vídeo. Diferentemente das abordagens existentes que ou constroem fluxos de trabalho intrincados em torno de um único modelo grande ou oferecem apenas modularidade de fluxo de trabalho, nosso agente integra agentes baseados em ferramentas e agentes de visão pura em uma arquitetura altamente modular, permitindo que diferentes modelos colaborem para resolver tarefas desacopladas de maneira passo a passo. Nossa generalidade é demonstrada pela capacidade de avaliar não apenas benchmarks do mundo real baseados em visão pura (ou seja, OSWorld), mas também benchmarks mais gerais ou intensivos em ferramentas (por exemplo, GAIA e SWE-Bench). Especificamente, alcançamos 7,27% de precisão no OSWorld, superior ao Claude-Computer-Use. Os códigos e scripts de avaliação são disponibilizados em código aberto em https://github.com/bin123apple/InfantAgent.
Embora os Modelos de Difusão Mascarada (MDMs), como o LLaDA, apresentem um paradigma promissor para modelagem de linguagem, tem havido relativamente pouco esforço no alinhamento desses modelos com preferências humanas por meio de aprendizado por reforço. O desafio surge principalmente da alta variância nas estimativas de verossimilhança baseadas no Limite Inferior de Evidência (ELBO) necessárias para a otimização de preferências. Para abordar essa questão, propomos a Otimização de Preferências com Redução de Variância (VRPO), uma estrutura que analisa formalmente a variância dos estimadores ELBO e deriva limites tanto para o viés quanto para a variância dos gradientes de otimização de preferências. Com base nessa fundamentação teórica, introduzimos estratégias de redução de variância não enviesadas, incluindo alocação ótima de orçamento Monte Carlo e amostragem antitética, que melhoram significativamente o desempenho do alinhamento de MDMs. Demonstramos a eficácia do VRPO aplicando-o ao LLaDA, e o modelo resultante, LLaDA 1.5, supera consistentemente e significativamente seu predecessor baseado apenas em SFT em benchmarks matemáticos (GSM8K +4.7), de código (HumanEval +3.0, MBPP +1.8) e de alinhamento (IFEval +4.0, Arena-Hard +4.3). Além disso, o LLaDA 1.5 demonstra um desempenho matemático altamente competitivo em comparação com fortes MDMs e ARMs de linguagem. Página do projeto: https://ml-gsai.github.io/LLaDA-1.5-Demo/.
Os recentes avanços no Reconhecimento Automático de Fala (ASR) têm sido amplamente impulsionados por grandes corpora de fala. No entanto, estender a cobertura para diversos idiomas com recursos limitados continua sendo um desafio formidável. Este artigo introduz o Speech Back-Translation, um pipeline escalável que melhora modelos de ASR multilíngues convertendo grandes corpora de texto em fala sintética por meio de modelos de texto-para-fala (TTS) prontos para uso. Demonstramos que apenas dezenas de horas de fala transcrita real podem treinar efetivamente modelos TTS para gerar fala sintética em volumes centenas de vezes maiores que o original, mantendo alta qualidade. Para avaliar a qualidade da fala sintética, desenvolvemos uma estrutura de avaliação baseada em inteligibilidade e estabelecemos limites claros para quando os dados sintéticos beneficiam o treinamento de ASR. Usando o Speech Back-Translation, geramos mais de 500.000 horas de fala sintética em dez idiomas e continuamos o pré-treinamento do Whisper-large-v3, alcançando reduções médias de erro de transcrição superiores a 30%. Esses resultados destacam a escalabilidade e a eficácia do Speech Back-Translation para aprimorar sistemas de ASR multilíngues.
Modelos de base estão se tornando cada vez mais programadores autônomos eficientes, levantando a possibilidade de que eles também possam automatizar operações cibernéticas ofensivas perigosas. As auditorias atuais de modelos de fronteira investigam os riscos de segurança cibernética desses agentes, mas a maioria não leva em consideração os graus de liberdade disponíveis para adversários no mundo real. Em particular, com verificadores robustos e incentivos financeiros, agentes para segurança cibernética ofensiva são passíveis de melhoria iterativa por potenciais adversários. Argumentamos que as avaliações devem considerar um modelo de ameaça expandido no contexto da segurança cibernética, enfatizando os diferentes graus de liberdade que um adversário pode possuir em ambientes com e sem estado, dentro de um orçamento de computação fixo. Mostramos que, mesmo com um orçamento de computação relativamente pequeno (8 horas de GPU H100 em nosso estudo), os adversários podem melhorar a capacidade de segurança cibernética de um agente no InterCode CTF em mais de 40% em relação à linha de base — sem qualquer assistência externa. Esses resultados destacam a necessidade de avaliar o risco de segurança cibernética dos agentes de maneira dinâmica, fornecendo uma imagem mais representativa do risco.
Ataques de inferência de associação (MIAs) de última geração normalmente exigem o treinamento de muitos modelos de referência, o que dificulta a escalabilidade desses ataques para grandes modelos de linguagem pré-treinados (LLMs). Como resultado, pesquisas anteriores ou se basearam em ataques mais fracos que evitam o treinamento de modelos de referência (por exemplo, ataques de ajuste fino) ou em ataques mais fortes aplicados a modelos e conjuntos de dados em pequena escala. No entanto, ataques mais fracos têm se mostrado frágeis - alcançando sucesso quase arbitrário - e insights de ataques fortes em cenários simplificados não se traduzem para os LLMs atuais. Esses desafios levantaram uma questão importante: as limitações observadas em trabalhos anteriores são devidas a escolhas de design de ataque ou os MIAs são fundamentalmente ineficazes em LLMs? Abordamos essa questão escalando o LiRA - um dos MIAs mais fortes - para arquiteturas GPT-2 variando de 10M a 1B de parâmetros, treinando modelos de referência em mais de 20B de tokens do conjunto de dados C4. Nossos resultados avançam a compreensão dos MIAs em LLMs de três maneiras principais: (1) MIAs fortes podem ter sucesso em LLMs pré-treinados; (2) sua eficácia, no entanto, permanece limitada (por exemplo, AUC<0,7) em cenários práticos; e (3) a relação entre o sucesso do MIA e métricas de privacidade relacionadas não é tão direta quanto trabalhos anteriores sugeriram.
Modelos de linguagem de grande escala (LLMs) têm demonstrado excelentes capacidades no campo de respostas a perguntas biomédicas, mas sua aplicação em consultas clínicas do mundo real ainda enfrenta desafios fundamentais. Os sistemas existentes dependem de um modo de transmissão de informação unidirecional, onde os pacientes devem descrever completamente seus sintomas em uma única rodada, levando a recomendações diagnósticas não específicas quando as queixas são vagas. Métodos tradicionais de diálogo multi-turn baseados em aprendizado supervisionado são limitados por paradigmas estáticos orientados por dados, carecendo de generalização e lutando para extrair inteligentemente informações clínicas-chave. Para abordar essas limitações, propomos o DoctorAgent-RL, uma estrutura colaborativa multi-agente baseada em aprendizado por reforço (RL) que modela consultas médicas como um processo dinâmico de tomada de decisão sob incerteza. O agente médico otimiza continuamente sua estratégia de questionamento dentro da estrutura RL por meio de interações multi-turn com o agente paciente, ajustando dinamicamente seu caminho de coleta de informações com base em recompensas abrangentes do Avaliador de Consulta. Esse mecanismo de ajuste fino por RL permite que os LLMs desenvolvam autonomamente estratégias de interação alinhadas com a lógica de raciocínio clínico, em vez de imitar superficialmente padrões em dados de diálogo existentes. Notavelmente, construímos o MTMedDialog, o primeiro conjunto de dados de consulta médica multi-turn em inglês capaz de simular interações com pacientes. Experimentos demonstram que o DoctorAgent-RL supera os modelos existentes tanto na capacidade de raciocínio multi-turn quanto no desempenho diagnóstico final, mostrando valor prático na assistência a consultas clínicas. https://github.com/JarvisUSTC/DoctorAgent-RL
Modelos de linguagem de grande escala se destacam na correspondência de padrões, mas frequentemente falham na generalização composicional sistemática. Propomos o princípio da cobertura: uma estrutura centrada em dados que mostra que modelos que dependem principalmente da correspondência de padrões para tarefas composicionais não podem generalizar de forma confiável além da substituição de fragmentos que produzem resultados idênticos quando usados nos mesmos contextos. Demonstramos que essa estrutura tem um forte poder preditivo para as capacidades de generalização dos Transformers. Primeiro, derivamos e confirmamos empiricamente que os dados de treinamento necessários para generalização de dois saltos crescem pelo menos quadraticamente com o tamanho do conjunto de tokens, e a eficiência dos dados de treinamento não melhora com um aumento de 20 vezes na escala de parâmetros. Segundo, para tarefas composicionais com ambiguidade de caminho, onde uma variável afeta a saída através de múltiplos caminhos computacionais, mostramos que os Transformers aprendem representações de estado dependentes de contexto que prejudicam tanto o desempenho quanto a interoperabilidade. Terceiro, a supervisão de Chain-of-Thought melhora a eficiência dos dados de treinamento para tarefas de múltiplos saltos, mas ainda luta com a ambiguidade de caminho. Finalmente, delineamos uma taxonomia baseada em mecanismos que distingue três formas pelas quais redes neurais podem generalizar: baseada em estrutura (limitada pela cobertura), baseada em propriedades (aproveitando invariantes algébricas) e de operador compartilhado (através da reutilização de funções). Essa lente conceitual contextualiza nossos resultados e destaca onde novas ideias arquitetônicas são necessárias para alcançar a composicionalidade sistemática. No geral, o princípio da cobertura fornece uma lente unificada para entender o raciocínio composicional e enfatiza a necessidade de inovações arquitetônicas ou de treinamento fundamentais para alcançar uma composicionalidade verdadeiramente sistemática.
Modelos de linguagem de grande escala (LLMs) são tipicamente alinhados para cumprir diretrizes de segurança, recusando instruções prejudiciais. Um ataque recente, denominado abliteração, isola e suprime a única direção latente mais responsável pelo comportamento de recusa, permitindo que o modelo gere conteúdo antiético. Propomos uma defesa que modifica a forma como os modelos geram recusas. Construímos um conjunto de dados de recusa estendida que contém prompts prejudiciais com uma resposta completa que justifica o motivo da recusa. Em seguida, ajustamos finamente os modelos Llama-2-7B-Chat e Qwen2.5-Instruct (com 1,5B e 3B parâmetros) em nosso conjunto de dados de recusa estendida e avaliamos os sistemas resultantes em um conjunto de prompts prejudiciais. Em nossos experimentos, os modelos de recusa estendida mantêm altas taxas de recusa, caindo no máximo em 10%, enquanto as taxas de recusa dos modelos de linha de base caem em 70-80% após a abliteração. Uma avaliação ampla de segurança e utilidade mostra que o ajuste fino de recusa estendida neutraliza o ataque de abliteração enquanto preserva o desempenho geral.
O aprendizado por reforço demonstra potencial para aprimorar as habilidades de raciocínio de modelos de linguagem de grande escala, mas é difícil de escalar devido à baixa eficiência amostral durante a fase de execução. Métodos existentes tentam melhorar a eficiência agendando problemas com base em suas dificuldades. No entanto, essas abordagens sofrem com estimativas instáveis e tendenciosas da dificuldade dos problemas e não conseguem capturar o alinhamento entre a competência do modelo e a dificuldade do problema no treinamento de RL, resultando em desempenho subótimo. Para superar essas limitações, este artigo introduz o Amostragem de Alinhamento Competência-Dificuldade (CDAS), que permite uma estimativa precisa e estável da dificuldade dos problemas agregando discrepâncias de desempenho históricas dos problemas. Em seguida, a competência do modelo é quantificada para selecionar adaptativamente problemas cuja dificuldade está alinhada com a competência atual do modelo usando um sistema de ponto fixo. Resultados experimentais em uma variedade de benchmarks matemáticos desafiadores mostram que o CDAS alcança grandes melhorias tanto em precisão quanto em eficiência. O CDAS atinge a maior precisão média em comparação com as abordagens de referência e exibe vantagens significativas de velocidade em relação à Amostragem Dinâmica, uma estratégia competitiva no DAPO, que é 2,33 vezes mais lenta que o CDAS.
Com o crescente sucesso dos modelos de raciocínio em tarefas complexas de linguagem natural, pesquisadores da comunidade de Recuperação de Informação (RI) começaram a explorar como capacidades semelhantes de raciocínio podem ser integradas em rerankers de passagens baseados em Modelos de Linguagem de Grande Escala (LLMs). Esses métodos normalmente empregam um LLM para produzir um processo de raciocínio explícito, passo a passo, antes de chegar a uma previsão final de relevância. Mas, o raciocínio realmente melhora a precisão do reranking? Neste artigo, investigamos mais a fundo essa questão, estudando o impacto do processo de raciocínio ao comparar rerankers pontuais baseados em raciocínio (ReasonRR) com rerankers pontuais padrão, sem raciocínio (StandardRR), sob condições idênticas de treinamento, e observamos que o StandardRR geralmente supera o ReasonRR. Com base nessa observação, estudamos a importância do raciocínio para o ReasonRR ao desabilitar seu processo de raciocínio (ReasonRR-NoReason) e descobrimos que o ReasonRR-NoReason é surpreendentemente mais eficaz que o ReasonRR. Ao examinar a causa desse resultado, nossas descobertas revelam que os rerankers baseados em raciocínio são limitados pelo processo de raciocínio do LLM, que o leva a atribuir pontuações de relevância polarizadas, falhando assim em considerar a relevância parcial das passagens, um fator crucial para a precisão dos rerankers pontuais.
O Aprendizado por Reforço Tradicional com Feedback Humano (RLHF) frequentemente depende de modelos de recompensa, assumindo comumente estruturas de preferência como o modelo Bradley-Terry, que pode não capturar com precisão as complexidades das preferências humanas reais (por exemplo, intransitividade). O Aprendizado de Nash com Feedback Humano (NLHF) oferece uma alternativa mais direta ao enquadrar o problema como a busca por um equilíbrio de Nash em um jogo definido por essas preferências. Neste trabalho, introduzimos o Nash Mirror Prox (Nash-MP), um algoritmo NLHF online que utiliza o esquema de otimização Mirror Prox para alcançar convergência rápida e estável para o equilíbrio de Nash. Nossa análise teórica estabelece que o Nash-MP exibe convergência linear na última iteração em direção ao equilíbrio de Nash beta-regularizado. Especificamente, provamos que a divergência KL para a política ótima diminui a uma taxa de ordem (1+2beta)^{-N/2}, onde N é o número de consultas de preferência. Além disso, demonstramos convergência linear na última iteração para a lacuna de explorabilidade e uniformemente para a semi-norma do span das probabilidades logarítmicas, com todas essas taxas sendo independentes do tamanho do espaço de ação. Adicionalmente, propomos e analisamos uma versão aproximada do Nash-MP, onde os passos proximais são estimados usando gradientes de política estocásticos, tornando o algoritmo mais próximo das aplicações práticas. Por fim, detalhamos uma estratégia de implementação prática para o ajuste fino de modelos de linguagem de grande porte e apresentamos experimentos que demonstram seu desempenho competitivo e compatibilidade com métodos existentes.
Avanços recentes em modelos de linguagem de grande escala (LLMs) introduziram o raciocínio latente como uma alternativa promissora ao raciocínio autoregressivo. Ao realizar computação interna com estados ocultos de etapas anteriores, o raciocínio latente se beneficia de características mais informativas em vez de amostrar um caminho discreto de cadeia de pensamento (CoT). No entanto, abordagens de raciocínio latente frequentemente são incompatíveis com LLMs, pois seu paradigma contínuo entra em conflito com a natureza discreta da geração autoregressiva. Além disso, esses métodos dependem de traços de CoT para treinamento e, portanto, falham em explorar os padrões inerentes de raciocínio dos LLMs. Neste trabalho, exploramos o raciocínio latente aproveitando as capacidades intrínsecas dos LLMs por meio de aprendizado por reforço (RL). Para isso, introduzimos a otimização de política de raciocínio híbrido (HRPO), uma abordagem de raciocínio latente híbrida baseada em RL que (1) integra estados ocultos anteriores em tokens amostrados com um mecanismo de portão aprendível, e (2) inicializa o treinamento predominantemente com embeddings de tokens enquanto incorpora progressivamente mais características ocultas. Esse design mantém as capacidades gerativas dos LLMs e incentiva o raciocínio híbrido usando representações discretas e contínuas. Além disso, o HRPO híbrido introduz estocasticidade no raciocínio latente por meio da amostragem de tokens, permitindo assim a otimização baseada em RL sem exigir trajetórias de CoT. Avaliações extensas em diversos benchmarks mostram que o HRPO supera métodos anteriores tanto em tarefas intensivas em conhecimento quanto em raciocínio. Além disso, LLMs treinados com HRPO permanecem interpretáveis e exibem comportamentos intrigantes, como padrões translinguísticos e comprimentos de conclusão mais curtos, destacando o potencial de nossa abordagem baseada em RL e oferecendo insights para trabalhos futuros em raciocínio latente.
Autoencoders Esparsos (SAEs) são uma ferramenta proeminente na interpretabilidade mecanicista (MI) para decompor as ativações de redes neurais em características interpretáveis. No entanto, a aspiração de identificar um conjunto canônico de características é desafiada pela inconsistência observada das características aprendidas pelos SAEs em diferentes execuções de treinamento, o que prejudica a confiabilidade e a eficiência da pesquisa em MI. Este artigo de posicionamento argumenta que a interpretabilidade mecanicista deve priorizar a consistência de características nos SAEs — a convergência confiável para conjuntos de características equivalentes em execuções independentes. Propomos o uso do Coeficiente de Correlação Média de Dicionários Pareados (PW-MCC) como uma métrica prática para operacionalizar a consistência e demonstramos que níveis elevados são alcançáveis (0,80 para SAEs TopK em ativações de LLMs) com escolhas arquiteturais apropriadas. Nossas contribuições incluem detalhar os benefícios de priorizar a consistência; fornecer fundamentação teórica e validação sintética usando um organismo modelo, que verifica o PW-MCC como um proxy confiável para a recuperação da verdade fundamental; e estender essas descobertas para dados reais de LLMs, onde a alta consistência de características está fortemente correlacionada com a similaridade semântica das explicações das características aprendidas. Defendemos uma mudança em toda a comunidade para medir sistematicamente a consistência de características, a fim de promover um progresso cumulativo robusto em MI.
O Aprendizado por Reforço (RL) desempenhou um papel central no recente avanço das habilidades matemáticas dos LLMs (Large Language Models), permitindo a autoaprimoramento por meio de sinais binários de verificação. Em contraste, o Aprendizado Supervisionado (SL) raramente é considerado para esse tipo de treinamento orientado por verificação, principalmente devido à sua forte dependência de respostas de referência e à incapacidade de refletir sobre erros. Neste trabalho, desafiamos a noção predominante de que o autoaprimoramento é exclusivo do RL e propomos o Fine-Tuning Consciente de Negativos (NFT) — uma abordagem supervisionada que permite que os LLMs reflitam sobre seus fracassos e melhorem autonomamente, sem a necessidade de professores externos. No treinamento online, em vez de descartar respostas negativas geradas pelo próprio modelo, o NFT constrói uma política implícita de negativos para modelá-las. Essa política implícita é parametrizada com o mesmo LLM positivo que buscamos otimizar com base em dados positivos, permitindo a otimização direta da política em todas as gerações dos LLMs. Realizamos experimentos em modelos de 7B e 32B em tarefas de raciocínio matemático. Os resultados mostram consistentemente que, por meio do aproveitamento adicional de feedback negativo, o NFT melhora significativamente em relação às linhas de base do SL, como o Fine-Tuning por Amostragem de Rejeição, equiparando-se ou até superando algoritmos líderes de RL, como GRPO e DAPO. Além disso, demonstramos que o NFT e o GRPO são, na verdade, equivalentes em treinamento estritamente on-policy, embora tenham origens em fundamentos teóricos completamente diferentes. Nossos experimentos e descobertas teóricas preenchem a lacuna entre os métodos de SL e RL em sistemas de aprendizado com feedback binário.
O mapeamento ativo generalizável em ambientes complexos e desconhecidos continua sendo um desafio crítico para robôs móveis. Os métodos existentes, limitados por dados de treinamento insuficientes e estratégias de exploração conservadoras, apresentam generalização limitada em cenas com layouts diversos e conectividade complexa. Para permitir treinamento escalável e avaliação confiável, introduzimos o GLEAM-Bench, o primeiro benchmark em grande escala projetado para mapeamento ativo generalizável, com 1.152 cenas 3D diversas de conjuntos de dados sintéticos e de varredura real. Com base nessa fundação, propomos o GLEAM, uma política de exploração generalizável unificada para mapeamento ativo. Sua superior generalização deriva principalmente de nossas representações semânticas, objetivos navegáveis de longo prazo e estratégias randomizadas. Ele supera significativamente os métodos state-of-the-art, alcançando 66,50% de cobertura (+9,49%) com trajetórias eficientes e precisão de mapeamento aprimorada em 128 cenas complexas não vistas. Página do projeto: https://xiao-chen.tech/gleam/.
Modelos de Linguagem de Grande Escala (LLMs) se destacam no raciocínio complexo por meio de algoritmos de busca, mas as estratégias atuais frequentemente sofrem com o consumo massivo de tokens devido à exploração redundante de etapas semanticamente equivalentes. Os métodos existentes de similaridade semântica lutam para identificar com precisão essa equivalência em contextos específicos de domínio, como o raciocínio matemático. Para resolver isso, propomos o EquivPruner, uma abordagem simples, porém eficaz, que identifica e poda ações semanticamente equivalentes durante a busca de raciocínio em LLMs. Também introduzimos o MathEquiv, o primeiro conjunto de dados que criamos para equivalência de declarações matemáticas, que permite o treinamento de um detector de equivalência leve. Experimentos extensos em vários modelos e tarefas demonstram que o EquivPruner reduz significativamente o consumo de tokens, melhorando a eficiência da busca e, muitas vezes, aumentando a precisão do raciocínio. Por exemplo, quando aplicado ao Qwen2.5-Math-7B-Instruct no GSM8K, o EquivPruner reduziu o consumo de tokens em 48,1\% enquanto também melhorou a precisão. Nosso código está disponível em https://github.com/Lolo1222/EquivPruner.
O pós-treinamento demonstrou sua importância no aprimoramento das capacidades de raciocínio de grandes modelos de linguagem (LLMs). Os principais métodos de pós-treinamento podem ser categorizados em ajuste fino supervisionado (SFT) e ajuste fino por reforço (RFT). O SFT é eficiente e bem adequado para modelos de linguagem menores, mas pode levar a sobreajuste e limitar as habilidades de raciocínio de modelos maiores. Em contraste, o RFT geralmente resulta em melhor generalização, mas depende fortemente da força do modelo base. Para abordar as limitações do SFT e do RFT, propomos o Ajuste Fino Unificado (UFT), um novo paradigma de pós-treinamento que unifica o SFT e o RFT em um único processo integrado. O UFT permite que o modelo explore soluções de forma eficaz, incorporando sinais de supervisão informativos, preenchendo a lacuna entre memorizar e pensar subjacente aos métodos existentes. Notavelmente, o UFT supera tanto o SFT quanto o RFT em geral, independentemente do tamanho do modelo. Além disso, provamos teoricamente que o UFT quebra o gargalo inerente de complexidade exponencial de amostras do RFT, mostrando pela primeira vez que o treinamento unificado pode acelerar exponencialmente a convergência em tarefas de raciocínio de longo prazo.
Modelos de Linguagem de Grande Escala (LLMs) são propensos a alucinações, especialmente durante tarefas de múltiplos passos e intensivas em raciocínio, como a resolução de problemas matemáticos. Enquanto os Modelos de Recompensa por Resultado verificam apenas as respostas finais, os Modelos de Recompensa por Processo (PRMs) pontuam cada etapa intermediária para direcionar a geração em direção a soluções coerentes. Apresentamos o PathFinder-PRM, um novo PRM discriminativo hierárquico e consciente de erros que primeiro classifica erros matemáticos e de consistência em cada etapa, depois combina esses sinais refinados para estimar a correção da etapa. Para treinar o PathFinder-PRM, construímos um conjunto de dados de 400 mil amostras enriquecendo o corpus PRM800K anotado por humanos e os traços RLHFlow Mistral com rótulos tridimensionais no nível da etapa. No PRMBench, o PathFinder-PRM alcança um novo estado da arte com um PRMScore de 67,7, superando o melhor anterior (65,5) enquanto utiliza três vezes menos dados. Quando aplicado à busca gulosa guiada por recompensa, nosso modelo produz um prm@8 de 48,3, um ganho de +1,5 ponto em relação à linha de base mais forte. Esses resultados demonstram que a detecção de erros desacoplada e a estimativa de recompensa não apenas impulsionam a detecção refinada de erros, mas também melhoram substancialmente o raciocínio matemático guiado por recompensa de ponta a ponta com maior eficiência de dados.
Modelos de linguagem recentes, como Gemini-1.5, DeepSeek-V3 e Llama-4, estão adotando cada vez mais arquiteturas de Mistura de Especialistas (MoE), que oferecem um bom equilíbrio entre eficiência e desempenho ao ativar apenas uma fração do modelo por token. No entanto, pesquisadores acadêmicos ainda carecem de uma plataforma MoE totalmente aberta e de ponta a ponta para investigar escalonamento, roteamento e comportamento dos especialistas. Lançamos o FLAME-MoE, um conjunto de pesquisa completamente de código aberto composto por sete modelos apenas de decodificação, variando de 38M a 1,7B parâmetros ativos, cuja arquitetura—64 especialistas com gateamento top-8 e 2 especialistas compartilhados—reflete de perto os LLMs modernos de produção. Todos os pipelines de dados de treinamento, scripts, logs e checkpoints estão publicamente disponíveis para permitir experimentação reproduzível. Em seis tarefas de avaliação, o FLAME-MoE melhora a precisão média em até 3,4 pontos em relação às baselines densas treinadas com o mesmo número de FLOPs. Aproveitando a transparência completa do rastreamento de treinamento, apresentamos análises iniciais mostrando que (i) os especialistas se especializam cada vez mais em subconjuntos distintos de tokens, (ii) as matrizes de co-ativação permanecem esparsas, refletindo um uso diversificado dos especialistas, e (iii) o comportamento de roteamento se estabiliza no início do treinamento. Todo o código, logs de treinamento e checkpoints dos modelos estão disponíveis em https://github.com/cmu-flame/FLAME-MoE.
Por quase uma década, a comunidade acadêmica investigou backdoors em redes neurais, focando principalmente em tarefas de classificação onde adversários manipulam a previsão do modelo. Embora claramente maliciosos, o impacto imediato no mundo real desses ataques que alteram previsões permaneceu incerto. Neste artigo, introduzimos uma nova e significativamente mais potente classe de backdoors que se baseia em avanços recentes em backdoors arquitetônicos. Demonstramos como esses backdoors podem ser especificamente projetados para explorar inferência em lote, uma técnica comum para utilização de hardware, permitindo manipulação e roubo de dados de usuários em larga escala. Ao direcionar o processo de batching, esses backdoors arquitetônicos facilitam o vazamento de informações entre solicitações de usuários concorrentes e permitem que os atacantes controlem totalmente as respostas do modelo direcionadas a outros usuários dentro do mesmo lote. Em outras palavras, um atacante que pode alterar a arquitetura do modelo pode definir e roubar entradas e saídas do modelo de outros usuários dentro do mesmo lote. Mostramos que tais ataques não apenas são viáveis, mas também alarmantemente eficazes, podem ser facilmente injetados em arquiteturas de modelos prevalentes e representam uma ameaça verdadeiramente maliciosa à privacidade do usuário e à integridade do sistema. Criticamente, para combater essa nova classe de vulnerabilidades, propomos uma estratégia de mitigação determinística que fornece garantias formais contra esse novo vetor de ataque, ao contrário de trabalhos anteriores que dependiam de Modelos de Linguagem de Grande Escala (LLMs) para encontrar os backdoors. Nossa estratégia de mitigação emprega um novo mecanismo de Controle de Fluxo de Informação que analisa o grafo do modelo e prova a não interferência entre diferentes entradas de usuários dentro do mesmo lote. Usando nossa estratégia de mitigação, realizamos uma análise em larga escala de modelos hospedados no Hugging Face e encontramos mais de 200 modelos que introduzem (involuntariamente) vazamento de informações entre entradas de lote devido ao uso de quantização dinâmica.
Com os avanços nos grandes modelos de áudio-linguagem (LALMs, do inglês Large Audio-Language Models), que aprimoram os grandes modelos de linguagem (LLMs, do inglês Large Language Models) com capacidades auditivas, espera-se que esses modelos demonstrem proficiência universal em diversas tarefas auditivas. Embora tenham surgido inúmeros benchmarks para avaliar o desempenho dos LALMs, eles permanecem fragmentados e carecem de uma taxonomia estruturada. Para preencher essa lacuna, realizamos uma pesquisa abrangente e propomos uma taxonomia sistemática para as avaliações de LALMs, categorizando-as em quatro dimensões com base em seus objetivos: (1) Consciência e Processamento Auditivo Geral, (2) Conhecimento e Raciocínio, (3) Habilidade Orientada ao Diálogo e (4) Justiça, Segurança e Confiabilidade. Fornecemos visões detalhadas dentro de cada categoria e destacamos os desafios neste campo, oferecendo insights sobre direções futuras promissoras. Até onde sabemos, esta é a primeira pesquisa especificamente focada nas avaliações de LALMs, fornecendo diretrizes claras para a comunidade. Disponibilizaremos a coleção dos artigos pesquisados e a manteremos ativamente para apoiar os avanços contínuos na área.
Geradores de imagens multimodais recentes, como GPT-4o, Gemini 2.0 Flash e Gemini 2.5 Pro, destacam-se na capacidade de seguir instruções complexas, editar imagens e manter a consistência de conceitos. No entanto, eles ainda são avaliados por conjuntos de ferramentas desconexos: benchmarks de texto para imagem (T2I) que carecem de condicionamento multimodal, e benchmarks personalizados de geração de imagens que negligenciam a semântica composicional e o conhecimento comum. Propomos o MMIG-Bench, um benchmark abrangente de Geração de Imagens Multimodal que unifica essas tarefas ao emparelhar 4.850 prompts de texto ricamente anotados com 1.750 imagens de referência de múltiplas perspectivas, abrangendo 380 temas, incluindo humanos, animais, objetos e estilos artísticos. O MMIG-Bench é equipado com uma estrutura de avaliação de três níveis: (1) métricas de baixo nível para artefatos visuais e preservação da identidade de objetos; (2) a nova Pontuação de Correspondência de Aspecto (AMS): uma métrica de nível médio baseada em VQA que oferece um alinhamento detalhado entre prompt e imagem e mostra forte correlação com julgamentos humanos; e (3) métricas de alto nível para estética e preferência humana. Utilizando o MMIG-Bench, avaliamos 17 modelos state-of-the-art, incluindo Gemini 2.5 Pro, FLUX, DreamBooth e IP-Adapter, e validamos nossas métricas com 32 mil avaliações humanas, obtendo insights profundos sobre arquitetura e design de dados. Liberaremos o conjunto de dados e o código de avaliação para promover uma avaliação rigorosa e unificada e acelerar futuras inovações na geração de imagens multimodais.
Avanços recentes, como o prompting de Cadeia de Pensamento (Chain-of-Thought), melhoraram significativamente os grandes modelos de linguagem (LLMs) no raciocínio médico zero-shot. No entanto, métodos baseados em prompting frequentemente permanecem superficiais e instáveis, enquanto LLMs médicos ajustados sofrem com generalização deficiente sob mudanças de distribuição e adaptabilidade limitada a cenários clínicos não vistos. Para abordar essas limitações, apresentamos o TAGS, uma estrutura em tempo de teste que combina um generalista amplamente capaz com um especialista específico do domínio para oferecer perspectivas complementares sem qualquer ajuste fino do modelo ou atualização de parâmetros. Para apoiar esse processo de raciocínio generalista-especialista, introduzimos dois módulos auxiliares: um mecanismo de recuperação hierárquica que fornece exemplares em múltiplas escalas ao selecionar exemplos com base na similaridade tanto semântica quanto no nível de racionalidade, e um avaliador de confiabilidade que avalia a consistência do raciocínio para orientar a agregação final de respostas. O TAGS alcança um desempenho robusto em nove benchmarks do MedQA, aumentando a precisão do GPT-4 em 13,8%, do DeepSeek-R1 em 16,8%, e melhorando um modelo vanilla de 7B de 14,1% para 23,9%. Esses resultados superam vários LLMs médicos ajustados, sem qualquer atualização de parâmetros. O código estará disponível em https://github.com/JianghaoWu/TAGS.
Um número crescente de modelos autoregressivos, como MAR, FlowAR, xAR e Harmon, adotam a amostragem por difusão para melhorar a qualidade da geração de imagens. No entanto, essa estratégia resulta em baixa eficiência de inferência, pois geralmente são necessários de 50 a 100 passos para que a difusão amostre um token. Este artigo explora como abordar efetivamente esse problema. Nossa principal motivação é que, à medida que mais tokens são gerados durante o processo autoregressivo, os tokens subsequentes seguem distribuições mais restritas e são mais fáceis de amostrar. Para explicar de forma intuitiva, se um modelo gerou parte de um cachorro, os tokens restantes devem completar o cachorro e, portanto, são mais restritos. Evidências empíricas apoiam nossa motivação: nos estágios posteriores da geração, os próximos tokens podem ser bem previstos por um perceptron multicamadas, exibem baixa variância e seguem caminhos de remoção de ruído mais próximos de uma linha reta, do ruído ao token. Com base em nossa descoberta, introduzimos o annealing de passos de difusão (DiSA), um método sem necessidade de treinamento que gradualmente usa menos passos de difusão à medida que mais tokens são gerados, por exemplo, usando 50 passos no início e diminuindo gradualmente para 5 passos nos estágios posteriores. Como o DiSA é derivado de nossa descoberta específica para difusão em modelos autoregressivos, ele é complementar aos métodos de aceleração existentes projetados apenas para difusão. O DiSA pode ser implementado com apenas algumas linhas de código em modelos existentes e, embora simples, alcança uma inferência 5 a 10 vezes mais rápida para MAR e Harmon e 1,4 a 2,5 vezes mais rápida para FlowAR e xAR, mantendo a qualidade da geração.
Os grandes modelos de linguagem (LLMs) atuais demonstraram capacidades emergentes em tarefas de inteligência social, incluindo resolução de implicaturas (Sravanthi et al. (2024)) e raciocínio sobre teoria da mente (Shapira et al. (2024)), ambas as quais exigem um entendimento pragmático substancial. No entanto, como os LLMs adquirem essa competência ao longo do processo de treinamento ainda é pouco compreendido. Neste trabalho, introduzimos o ALTPRAG, um conjunto de dados baseado no conceito pragmático de alternativas, projetado para avaliar se LLMs em diferentes estágios de treinamento podem inferir com precisão as intenções sutis do falante. Cada instância emparelha duas continuações contextualmente apropriadas, mas pragmaticamente distintas, permitindo uma avaliação refinada tanto da interpretação pragmática quanto do raciocínio contrastivo. Avaliamos sistematicamente 22 LLMs em estágios-chave do treinamento: pré-treinamento, ajuste fino supervisionado (SFT) e otimização de preferências, para examinar o desenvolvimento da competência pragmática. Nossos resultados mostram que mesmo os modelos base exibem uma sensibilidade notável a pistas pragmáticas, que melhora consistentemente com o aumento da escala do modelo e dos dados. Além disso, o SFT e o RLHF contribuem para ganhos adicionais, particularmente no raciocínio cognitivo-pragmático. Essas descobertas destacam a competência pragmática como uma propriedade emergente e composicional do treinamento de LLMs e oferecem novas perspectivas para alinhar os modelos com as normas comunicativas humanas.
A quantificação da incerteza é essencial para avaliar a confiabilidade e a credibilidade dos sistemas modernos de IA. Entre as abordagens existentes, a incerteza verbalizada, em que os modelos expressam sua confiança por meio de linguagem natural, surgiu como uma solução leve e interpretável em grandes modelos de linguagem (LLMs). No entanto, sua eficácia em modelos visão-linguagem (VLMs) ainda não foi suficientemente estudada. Neste trabalho, realizamos uma avaliação abrangente da confiança verbalizada em VLMs, abrangendo três categorias de modelos, quatro domínios de tarefas e três cenários de avaliação. Nossos resultados mostram que os VLMs atuais frequentemente exibem uma calibração notavelmente inadequada em diversas tarefas e configurações. Notavelmente, os modelos de raciocínio visual (ou seja, pensar com imagens) consistentemente apresentam uma melhor calibração, sugerindo que o raciocínio específico da modalidade é crucial para uma estimativa confiável da incerteza. Para abordar ainda mais os desafios de calibração, introduzimos o "Visual Confidence-Aware Prompting", uma estratégia de prompt em duas etapas que melhora o alinhamento da confiança em configurações multimodais. No geral, nosso estudo destaca a calibração inadequada inerente aos VLMs em diferentes modalidades. De forma mais ampla, nossas descobertas ressaltam a importância fundamental do alinhamento de modalidades e da fidelidade do modelo no avanço de sistemas multimodais confiáveis.
Apesar dos recentes avanços na robótica de propósito geral, as políticas de robôs ainda estão muito aquém das capacidades humanas básicas no mundo real. Os seres humanos interagem constantemente com o mundo físico, mas esse rico recurso de dados permanece amplamente subutilizado no aprendizado de robôs. Propomos o EgoZero, um sistema minimalista que aprende políticas robustas de manipulação a partir de demonstrações humanas capturadas com os óculos inteligentes Project Aria, sem utilizar dados de robôs. O EgoZero permite: (1) a extração de ações completas e executáveis por robôs a partir de demonstrações humanas egocêntricas e em ambientes reais, (2) a compressão de observações visuais humanas em representações de estado agnósticas à morfologia, e (3) o aprendizado de políticas em malha fechada que generalizam morfologicamente, espacialmente e semanticamente. Implantamos as políticas do EgoZero em um robô Franka Panda com garra e demonstramos transferência zero-shot com uma taxa de sucesso de 70% em 7 tarefas de manipulação, utilizando apenas 20 minutos de coleta de dados por tarefa. Nossos resultados sugerem que os dados humanos capturados em ambientes reais podem servir como uma base escalável para o aprendizado de robôs no mundo real - abrindo caminho para um futuro de dados de treinamento abundantes, diversos e naturalistas para robôs. O código e vídeos estão disponíveis em https://egozero-robot.github.io.
Grandes modelos de fundação multimodal, particularmente nos domínios de linguagem e visão, avançaram significativamente várias tarefas, incluindo robótica, direção autônoma, recuperação de informações e fundamentação. No entanto, muitos desses modelos percebem os objetos como indivisíveis, ignorando os componentes que os constituem. Compreender esses componentes e suas affordances associadas fornece insights valiosos sobre a funcionalidade de um objeto, o que é fundamental para a execução de uma ampla gama de tarefas. Neste trabalho, introduzimos um novo benchmark do mundo real, o InstructPart, composto por anotações de segmentação de partes rotuladas manualmente e instruções orientadas a tarefas para avaliar o desempenho dos modelos atuais na compreensão e execução de tarefas em nível de parte dentro de contextos cotidianos. Por meio de nossos experimentos, demonstramos que a segmentação de partes orientada a tarefas continua sendo um problema desafiador, mesmo para os mais avançados Modelos de Visão e Linguagem (VLMs). Além do nosso benchmark, introduzimos uma linha de base simples que alcança uma melhoria de desempenho em dobro por meio de ajuste fino com nosso conjunto de dados. Com nosso conjunto de dados e benchmark, visamos facilitar a pesquisa sobre segmentação de partes orientada a tarefas e aprimorar a aplicabilidade dos VLMs em vários domínios, incluindo robótica, realidade virtual, recuperação de informações e outros campos relacionados. Site do projeto: https://zifuwan.github.io/InstructPart/.
A extração de metadados é essencial para o catalogamento e preservação de conjuntos de dados, permitindo a descoberta eficaz de pesquisas e a reprodutibilidade, especialmente considerando o crescimento exponencial atual na pesquisa científica. Embora o Masader (Alyafeai et al., 2021) tenha estabelecido as bases para a extração de uma ampla gama de atributos de metadados de artigos acadêmicos de conjuntos de dados de PLN em árabe, ele depende fortemente de anotação manual. Neste artigo, apresentamos o MOLE, uma estrutura que aproveita os Modelos de Linguagem de Grande Escala (LLMs) para extrair automaticamente atributos de metadados de artigos científicos que cobrem conjuntos de dados de idiomas além do árabe. Nossa metodologia baseada em esquema processa documentos inteiros em vários formatos de entrada e incorpora mecanismos robustos de validação para garantir uma saída consistente. Além disso, introduzimos um novo benchmark para avaliar o progresso da pesquisa nessa tarefa. Por meio de uma análise sistemática do comprimento do contexto, aprendizado few-shot e integração de navegação na web, demonstramos que os LLMs modernos apresentam resultados promissores na automação dessa tarefa, destacando a necessidade de melhorias futuras para garantir um desempenho consistente e confiável. Disponibilizamos o código: https://github.com/IVUL-KAUST/MOLE e o conjunto de dados: https://huggingface.co/datasets/IVUL-KAUST/MOLE para a comunidade de pesquisa.
Métodos de direcionamento surgiram como ferramentas eficazes e direcionadas para guiar o comportamento de grandes modelos de linguagem (LLMs) sem modificar seus parâmetros. No entanto, os modelos de linguagem multimodal de grande escala (MLLMs) atualmente não contam com o mesmo conjunto de técnicas, em parte devido à sua recente criação e à diversidade arquitetônica. Inspirados por essa lacuna, investigamos se os MLLMs podem ser direcionados usando vetores derivados de sua base de LLM apenas de texto, por meio de autoencoders esparsos (SAEs), deslocamento de média (mean shift) e sondagem linear. Descobrimos que o direcionamento derivado de texto consistentemente melhora a precisão multimodal em diversas arquiteturas de MLLMs e tarefas visuais. Em particular, o deslocamento de média aumenta a precisão de relações espaciais no CV-Bench em até +7,3% e a precisão de contagem em até +3,3%, superando o prompting e exibindo forte generalização para conjuntos de dados fora da distribuição. Esses resultados destacam os vetores de direcionamento textual como um mecanismo poderoso e eficiente para melhorar o enraizamento em MLLMs com coleta de dados adicional mínima e sobrecarga computacional reduzida.
O aprendizado por reforço condicionado a objetivos offline (GCRL, na sigla em inglês) oferece um paradigma de aprendizado prático no qual políticas de alcance de objetivos são treinadas a partir de conjuntos de dados abundantes e não rotulados (sem recompensa) sem interação adicional com o ambiente. No entanto, o GCRL offline ainda enfrenta dificuldades em tarefas de longo horizonte, mesmo com avanços recentes que empregam estruturas de políticas hierárquicas, como o HIQL. Ao identificar a causa raiz desse desafio, observamos os seguintes insights: primeiro, os gargalos de desempenho decorrem principalmente da incapacidade da política de alto nível de gerar subobjetivos apropriados. Segundo, ao aprender a política de alto nível em regimes de longo horizonte, o sinal da vantagem frequentemente se torna incorreto. Assim, argumentamos que melhorar a função de valor para produzir um sinal de vantagem claro para o aprendizado da política de alto nível é essencial. Neste artigo, propomos uma solução simples, porém eficaz: o aprendizado de valor com abstração temporal consciente de opções, denominado OTA, que incorpora a abstração temporal ao processo de aprendizado por diferença temporal. Ao modificar a atualização do valor para ser consciente das opções, o esquema de aprendizado proposto reduz o comprimento efetivo do horizonte, permitindo melhores estimativas de vantagem mesmo em regimes de longo horizonte. Mostramos experimentalmente que a política de alto nível extraída usando a função de valor OTA alcança um desempenho forte em tarefas complexas do OGBench, um benchmark recentemente proposto para GCRL offline, incluindo navegação em labirintos e ambientes de manipulação robótica visual.
Este artigo investiga o surgimento de características categóricas interpretáveis em modelos de linguagem de grande escala (LLMs), analisando seu comportamento ao longo de checkpoints de treinamento (tempo), camadas do transformador (espaço) e diferentes tamanhos de modelos (escala). Utilizando autoencoders esparsos para interpretabilidade mecanicista, identificamos quando e onde conceitos semânticos específicos emergem nas ativações neurais. Os resultados indicam limiares temporais e específicos de escala claros para o surgimento de características em múltiplos domínios. Notavelmente, a análise espacial revela reativação semântica inesperada, com características de camadas iniciais ressurgindo em camadas posteriores, desafiando suposições padrão sobre a dinâmica representacional em modelos de transformadores.
Apresentamos o CASS, o primeiro conjunto de dados em larga escala e suíte de modelos para transpilação de código GPU entre arquiteturas, visando tanto a tradução em nível de código-fonte (CUDA ↔ HIP) quanto em nível de assembly (Nvidia SASS ↔ AMD RDNA3). O conjunto de dados compreende 70 mil pares de código verificados, abrangendo host e dispositivo, abordando uma lacuna crítica na portabilidade de código GPU de baixo nível. Aproveitando esse recurso, treinamos a família CASS de modelos de linguagem específicos para o domínio, alcançando 95% de precisão na tradução de código-fonte e 37,5% na tradução de assembly, superando substancialmente baselines comerciais como GPT-4o, Claude e Hipify. Nosso código gerado corresponde ao desempenho nativo em mais de 85% dos casos de teste, preservando o comportamento de tempo de execução e memória. Para apoiar uma avaliação rigorosa, introduzimos o CASS-Bench, um benchmark curado que abrange 16 domínios de GPU com execução de referência. Todos os dados, modelos e ferramentas de avaliação são liberados como código aberto para promover avanços em ferramentas de compilação GPU, compatibilidade binária e tradução de hardware guiada por LLM. O conjunto de dados e o benchmark estão disponíveis em https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}}, com o código em https://github.com/GustavoStahl/CASS{blue{GitHub}}.