Artigos de pesquisa em IA selecionados diariamente com traduções
Este artigo visa superar um grande obstáculo na escalabilidade do Aprendizado por Reforço (RL) para raciocínio com Modelos de Linguagem de Grande Escala (LLMs), especificamente o colapso da entropia da política. Esse fenômeno é consistentemente observado em diversas execuções de RL sem intervenção de entropia, onde a entropia da política cai drasticamente no estágio inicial de treinamento. Essa diminuição da capacidade exploratória é sempre acompanhada pela saturação do desempenho da política. Na prática, estabelecemos uma equação de transformação R=-a*e^H+b entre a entropia H e o desempenho subsequente R. Essa lei empírica indica fortemente que o desempenho da política é negociado em troca da entropia da política, sendo assim limitado por seu esgotamento, e o limite máximo é totalmente previsível quando H=0, resultando em R=-a+b. Nossa descoberta exige o gerenciamento da entropia para uma exploração contínua visando escalar o poder computacional para RL. Para tanto, investigamos a dinâmica da entropia tanto teoricamente quanto empiricamente. Nossa derivação destaca que a mudança na entropia da política é impulsionada pela covariância entre a probabilidade da ação e a mudança nos logits, que é proporcional à sua vantagem ao usar algoritmos semelhantes ao Gradiente de Política. O estudo empírico mostra que os valores do termo de covariância e as diferenças de entropia coincidem exatamente, apoiando a conclusão teórica. Além disso, o termo de covariância permanece principalmente positivo durante o treinamento, explicando ainda mais por que a entropia da política diminuiria monotonicamente. Ao compreender o mecanismo por trás da dinâmica da entropia, somos motivados a controlar a entropia restringindo a atualização de tokens com alta covariância. Especificamente, propomos duas técnicas simples, porém eficazes: Clip-Cov e KL-Cov, que cortam e aplicam penalidade KL, respectivamente, a tokens com altas covariâncias. Experimentos mostram que esses métodos incentivam a exploração, ajudando a política a escapar do colapso de entropia e alcançar um melhor desempenho subsequente.
Agentes baseados em LLMs têm demonstrado capacidades promissoras em uma gama crescente de tarefas de engenharia de software (SWE). No entanto, o avanço desse campo enfrenta dois desafios críticos. Primeiro, dados de treinamento de alta qualidade são escassos, especialmente dados que refletem cenários reais de SWE, onde os agentes precisam interagir com ambientes de desenvolvimento, executar código e adaptar seu comportamento com base nos resultados de suas ações. Os conjuntos de dados existentes são limitados à geração de código em uma única etapa ou consistem em pequenas coleções manualmente curadas de tarefas interativas, carecendo tanto de escala quanto de diversidade. Segundo, a falta de tarefas interativas recentes de SWE afeta a avaliação de modelos que estão melhorando rapidamente, já que benchmarks estáticos rapidamente se tornam desatualizados devido a problemas de contaminação. Para abordar essas limitações, introduzimos um pipeline novo, automatizado e escalável para extrair continuamente tarefas interativas de SWE do mundo real de diversos repositórios do GitHub. Usando esse pipeline, construímos o SWE-rebench, um conjunto de dados público que compreende mais de 21.000 tarefas interativas de SWE baseadas em Python, adequadas para o aprendizado por reforço de agentes de SWE em escala. Além disso, utilizamos o fornecimento contínuo de tarefas recentes coletadas usando a metodologia do SWE-rebench para construir um benchmark livre de contaminação para engenharia de software agentiva. Comparamos os resultados de vários LLMs nesse benchmark com os resultados do SWE-bench Verified e mostramos que o desempenho de alguns modelos de linguagem pode estar inflado devido a problemas de contaminação.
Modelos de Linguagem de Grande Escala (LLMs) alcançam capacidades impressionantes de raciocínio ao custo de uma sobrecarga substancial de inferência, o que representa desafios significativos de implantação. Embora os Modelos de Linguagem Pequenos (SLMs) destilados melhorem significativamente a eficiência, seu desempenho sofre, pois não conseguem seguir os caminhos de raciocínio dos LLMs. Felizmente, revelamos que apenas uma pequena fração de tokens realmente diverge os caminhos de raciocínio entre LLMs e SLMs. A maioria dos tokens gerados são idênticos ou exibem diferenças neutras, como pequenas variações em abreviações ou expressões. Aproveitando essa percepção, introduzimos **Roads to Rome (R2R)**, um método de roteamento neural de tokens que utiliza seletivamente LLMs apenas para esses tokens críticos e divergentes, enquanto deixa a maior parte da geração de tokens para o SLM. Também desenvolvemos um pipeline automático de geração de dados que identifica tokens divergentes e gera rótulos de roteamento em nível de token para treinar o roteador leve. Aplicamos o R2R para combinar os modelos R1-1.5B e R1-32B da família DeepSeek, e avaliamos em benchmarks desafiadores de matemática, codificação e Q&A. Com um tamanho médio de parâmetros ativados de 5.6B, o R2R supera a precisão média do R1-7B em 1.6x, superando até mesmo o modelo R1-14B. Em comparação com o R1-32B, ele oferece uma aceleração de 2.8x no tempo de execução com desempenho comparável, avançando a fronteira de Pareto da eficiência de escalonamento em tempo de teste. Nosso código está disponível em https://github.com/thu-nics/R2R.
O sucesso do DeepSeek-R1 destaca o papel significativo do aprendizado por reforço (RL) na melhoria das capacidades de raciocínio de modelos de linguagem de grande escala (LLMs). Neste trabalho, apresentamos o Skywork-OR1, uma implementação eficaz e escalável de RL para modelos de Cadeia de Pensamento (CoT) longa. Baseando-nos na série de modelos DeepSeek-R1-Distill, nossa abordagem de RL alcança ganhos de desempenho notáveis, aumentando a precisão média nos benchmarks AIME24, AIME25 e LiveCodeBench de 57,8% para 72,8% (+15,0%) para o modelo de 32B e de 43,6% para 57,5% (+13,9%) para o modelo de 7B. Nosso modelo Skywork-OR1-32B supera tanto o DeepSeek-R1 quanto o Qwen3-32B nos benchmarks AIME24 e AIME25, enquanto alcança resultados comparáveis no LiveCodeBench. Os modelos Skywork-OR1-7B e Skywork-OR1-Math-7B demonstram capacidades de raciocínio competitivas entre modelos de tamanho similar. Realizamos estudos abrangentes de ablação sobre os componentes principais de nosso pipeline de treinamento para validar sua eficácia. Além disso, investigamos minuciosamente o fenômeno do colapso de entropia, identificamos fatores-chave que afetam a dinâmica da entropia e demonstramos que mitigar o colapso prematuro de entropia é crucial para melhorar o desempenho em testes. Para apoiar a pesquisa da comunidade, disponibilizamos totalmente os pesos dos modelos, o código de treinamento e os conjuntos de dados de treinamento como código aberto.
Modelos de Raciocínio Visão-Linguagem (VLMs) têm demonstrado desempenho promissor em tarefas multimodais complexas. No entanto, eles ainda enfrentam desafios significativos: são altamente sensíveis a erros de raciocínio, exigem grandes volumes de dados anotados ou verificadores precisos, e lutam para generalizar além de domínios específicos. Para abordar essas limitações, exploramos a autocorreção como uma estratégia para aprimorar VLMs de raciocínio. Primeiro, realizamos uma análise aprofundada das habilidades de autocorreção dos VLMs de raciocínio e identificamos lacunas importantes. Com base em nossas descobertas, introduzimos Sherlock, um framework de treinamento de autocorreção e autoaperfeiçoamento. Sherlock apresenta um objetivo de autocorreção em nível de trajetória, um método de construção de dados de preferência baseado em perturbação visual e um beta dinâmico para ajuste de preferências. Uma vez que o modelo adquire capacidades de autocorreção usando apenas 20k dados anotados amostrados aleatoriamente, ele continua a se autoaperfeiçoar sem supervisão externa. Construído sobre o modelo Llama3.2-Vision-11B, Sherlock alcança resultados notáveis em oito benchmarks, atingindo uma precisão média de 64,1 com geração direta e 65,4 após autocorreção. Ele supera LLaVA-CoT (63,2), Mulberry (63,9) e LlamaV-o1 (63,4) enquanto utiliza menos de 20% dos dados anotados.
Os modelos modernos de super-resolução de imagem única (SISR) fornecem resultados foto-realistas nos fatores de escala para os quais foram treinados, mas falham quando solicitados a ampliar muito além desse regime. Abordamos esse gargalo de escalabilidade com o Chain-of-Zoom (CoZ), uma estrutura agnóstica de modelos que fatora o SISR em uma cadeia autoregressiva de estados de escala intermediários com prompts conscientes de múltiplas escalas. O CoZ reutiliza repetidamente um modelo SR de base, decompondo a probabilidade condicional em subproblemas tratáveis para alcançar resoluções extremas sem treinamento adicional. Como os indicadores visuais diminuem em altas ampliações, aumentamos cada etapa de zoom com prompts de texto conscientes de múltiplas escalas gerados por um modelo de visão e linguagem (VLM). O extrator de prompts em si é ajustado usando Generalized Reward Policy Optimization (GRPO) com um VLM crítico, alinhando a orientação textual com a preferência humana. Experimentos mostram que um modelo de SR por difusão 4x encapsulado no CoZ atinge ampliações além de 256x com alta qualidade perceptual e fidelidade. Página do Projeto: https://bryanswkim.github.io/chain-of-zoom/ .
A eficiência da atenção é crucial porque sua complexidade temporal cresce quadraticamente com o comprimento da sequência. O SageAttention2 aborda isso utilizando quantização para acelerar as multiplicações de matrizes (Matmul) na atenção. Para acelerar ainda mais o SageAttention2, propomos utilizar a instrução mais rápida de Matmul FP8 acumulada em FP16. Essa instrução é 2x mais rápida que a Matmul FP8 usada no SageAttention2. Nossos experimentos mostram que o SageAttention2++ alcança um ganho de velocidade de 3,9x em relação ao FlashAttention, mantendo a mesma precisão de atenção do SageAttention2. Isso significa que o SageAttention2++ acelera efetivamente diversos modelos, incluindo aqueles para geração de linguagem, imagens e vídeos, com perda insignificante nas métricas de ponta a ponta. O código estará disponível em https://github.com/thu-ml/SageAttention.
A melhoria de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) na fase de pós-treinamento geralmente depende de ajuste fino supervisionado (SFT) ou aprendizado por reforço (RL). No entanto, esses métodos supervisionados exigem dados multimodais caros e anotados manualmente—um recurso que, em última análise, não é sustentável. Embora esforços recentes tenham explorado o pós-treinamento não supervisionado, seus métodos são complexos e difíceis de iterar. Neste trabalho, somos os primeiros a investigar o uso do GRPO, um algoritmo de RL online estável e escalável, para permitir a melhoria contínua sem qualquer supervisão externa. Propomos o MM-UPT, uma estrutura simples, porém eficaz, para o pós-treinamento não supervisionado de MLLMs. O MM-UPT se baseia no GRPO, substituindo os sinais de recompensa tradicionais por um mecanismo de autorrecompensa baseado na votação majoritária de múltiplas respostas amostradas. Nossos experimentos demonstram que o MM-UPT melhora significativamente a capacidade de raciocínio do Qwen2.5-VL-7B (por exemplo, 66,3 %rightarrow72,9 % no MathVista, 62,9 %rightarrow68,7 % no We-Math), utilizando um conjunto de dados padrão sem rótulos de verdade absoluta. O MM-UPT também supera as linhas de base não supervisionadas anteriores e até se aproxima dos resultados do GRPO supervisionado. Além disso, mostramos que a incorporação de perguntas sintéticas, geradas exclusivamente pelo próprio MLLM, também pode impulsionar o desempenho, destacando uma abordagem promissora para a melhoria escalável e autônoma. No geral, o MM-UPT oferece um novo paradigma para o aprimoramento contínuo e autônomo de MLLMs na ausência de supervisão externa. Nosso código está disponível em https://github.com/waltonfuture/MM-UPT.
Apresentamos o RenderFormer, um pipeline de renderização neural que renderiza diretamente uma imagem a partir de uma representação baseada em triângulos de uma cena, com efeitos completos de iluminação global, e que não requer treinamento ou ajuste específico por cena. Em vez de adotar uma abordagem centrada na física para renderização, formulamos a renderização como uma transformação de sequência para sequência, onde uma sequência de tokens representando triângulos com propriedades de refletância é convertida em uma sequência de tokens de saída representando pequenos blocos de pixels. O RenderFormer segue um pipeline de dois estágios: um estágio independente da visão que modela o transporte de luz entre triângulos, e um estágio dependente da visão que transforma um token representando um feixe de raios nos valores de pixel correspondentes, guiado pela sequência de triângulos do estágio independente da visão. Ambos os estágios são baseados na arquitetura transformer e são aprendidos com restrições mínimas de conhecimento prévio. Demonstramos e avaliamos o RenderFormer em cenas com complexidade variada em forma e transporte de luz.
Avanços recentes em modelos de linguagem de grande escala (LLMs) demonstraram capacidades impressionantes de raciocínio em cadeia de pensamento, com o aprendizado por reforço (RL) desempenhando um papel crucial nesse progresso. Embora padrões de "momento de insight" — onde os modelos exibem autocorreção por meio de reflexão — sejam frequentemente atribuídos a propriedades emergentes do RL, primeiro demonstramos que esses padrões existem em modelos de linguagem multimodal (MLLMs) antes do treinamento com RL, mas podem não necessariamente correlacionar-se com melhorias no desempenho de raciocínio. Com base nessas percepções, apresentamos um estudo abrangente sobre o aprimoramento do raciocínio multimodal por meio de uma abordagem em duas etapas: (1) ajuste fino supervisionado (SFT) como uma inicialização a frio com padrões estruturados de raciocínio em cadeia de pensamento, seguido por (2) aprendizado por reforço via GRPO para refinar ainda mais essas capacidades. Nossos extensos experimentos mostram que essa abordagem combinada supera consistentemente tanto os métodos apenas com SFT quanto apenas com RL em benchmarks desafiadores de raciocínio multimodal. Os modelos resultantes alcançam desempenho de ponta entre os MLLMs de código aberto em escalas de 3B e 7B, com nosso modelo de 7B mostrando melhorias substanciais em relação aos modelos base (por exemplo, 66,3 %rightarrow73,4 % no MathVista, 62,9 %rightarrow70,4 % no We-Math) e nosso modelo de 3B alcançando desempenho competitivo com vários modelos de 7B. No geral, este trabalho fornece orientações práticas para a construção de modelos avançados de raciocínio multimodal. Nosso código está disponível em https://github.com/waltonfuture/RL-with-Cold-Start.
Resolver problemas complexos do mundo real exige uma busca profunda por informações e raciocínio em múltiplas etapas. Os recentes avanços em sistemas agentes, exemplificados pelo Deep Research, destacam o potencial para pesquisas autônomas em múltiplas etapas. Neste trabalho, apresentamos um paradigma coeso para a construção de agentes de busca de informações de ponta a ponta, sob uma perspectiva centrada em dados e no estágio de treinamento. Nossa abordagem consiste em quatro etapas principais: (1) construção de dados de navegação, (2) amostragem de trajetórias, (3) ajuste fino supervisionado para um início eficiente e (4) aprendizado por reforço para melhorar a generalização. Instanciamos esse framework em um agente web baseado no ReAct, o WebDancer. Avaliações empíricas em benchmarks desafiadores de busca de informações, como GAIA e WebWalkerQA, demonstram o forte desempenho do WebDancer, alcançando resultados consideráveis e destacando a eficácia do nosso paradigma de treinamento. Uma análise mais aprofundada do treinamento de agentes fornece insights valiosos e caminhos sistemáticos e acionáveis para o desenvolvimento de modelos agentes mais capazes. Os códigos e a demonstração serão disponibilizados em https://github.com/Alibaba-NLP/WebAgent.
Sistemas de pesquisa profunda representam uma classe emergente de métodos de recuperação de informação agentiva que geram relatórios abrangentes e bem fundamentados para consultas complexas. No entanto, a maioria dos frameworks existentes depende de APIs de busca comercial dinâmicas, que apresentam desafios de reprodutibilidade e transparência, além de seus custos. Para abordar essas limitações, introduzimos o DeepResearchGym, um sandbox de código aberto que combina uma API de busca reproduzível com um protocolo de avaliação rigoroso para benchmarking de sistemas de pesquisa profunda. A API indexa grandes corpora públicos da web, especificamente o ClueWeb22 e o FineWeb, utilizando um recuperador denso de última geração e busca por vizinhos mais próximos aproximada via DiskANN. Ela alcança latência menor do que as APIs comerciais populares, garantindo rankings de documentos estáveis entre execuções, e está disponível gratuitamente para uso em pesquisa. Para avaliar as saídas dos sistemas de pesquisa profunda, estendemos o benchmark Researchy Questions com métricas automáticas por meio de avaliações LLM-as-a-judge para medir o alinhamento com as necessidades de informação dos usuários, a fidelidade da recuperação e a qualidade dos relatórios. Resultados experimentais mostram que os sistemas integrados ao DeepResearchGym alcançam desempenho comparável àqueles que utilizam APIs comerciais, com rankings de desempenho permanecendo consistentes entre as métricas de avaliação. Um estudo de avaliação humana confirma ainda que nosso protocolo automático está alinhado com as preferências humanas, validando a capacidade do framework de apoiar a avaliação controlada de sistemas de pesquisa profunda. Nosso código e documentação da API estão disponíveis em https://www.deepresearchgym.ai.
A previsão do próximo token serve como a tarefa de aprendizado fundamental que habilita o raciocínio em LLMs. Mas qual deve ser a tarefa de aprendizado ao buscar equipar MLLMs com capacidades de raciocínio temporal sobre entradas de vídeo? Tarefas existentes, como a resposta a perguntas sobre vídeos, frequentemente dependem de anotações feitas por humanos ou por MLLMs muito mais robustos, enquanto a legendagem de vídeos tende a entrelaçar o raciocínio temporal com informações espaciais. Para abordar essa lacuna, propomos a previsão do próximo evento (NEP), uma tarefa de aprendizado que aproveita segmentos futuros de vídeo como um sinal rico e auto-supervisionado para promover o raciocínio temporal. Segmentamos cada vídeo em quadros passados e futuros: o MLLM recebe os quadros passados como entrada e prevê um resumo dos eventos derivados dos quadros futuros, incentivando assim o modelo a raciocinar temporalmente para completar a tarefa. Para apoiar essa tarefa, compilamos o V1-33K, um conjunto de dados que compreende 33.000 segmentos de vídeo extraídos automaticamente, abrangendo diversos cenários do mundo real. Exploramos ainda uma variedade de estratégias de ajuste fino por instrução em vídeo para estudar seus efeitos no raciocínio temporal. Para avaliar o progresso, introduzimos o FutureBench para avaliar a coerência na previsão de eventos futuros não vistos. Experimentos validam que o NEP oferece um paradigma de treinamento escalável e eficaz para promover o raciocínio temporal em MLLMs.
Sistemas de busca empresarial frequentemente enfrentam dificuldades para recuperar informações precisas e específicas de um domínio devido a incompatibilidades semânticas e sobreposição de terminologias. Esses problemas podem prejudicar o desempenho de aplicações subsequentes, como gerenciamento de conhecimento, suporte ao cliente e agentes de geração aumentada por recuperação. Para enfrentar esse desafio, propomos uma estrutura escalável de mineração de negativos difíceis, especialmente projetada para dados empresariais específicos de domínio. Nossa abordagem seleciona dinamicamente documentos semanticamente desafiadores, mas contextualmente irrelevantes, para aprimorar modelos de reclassificação já implantados. Nosso método integra diversos modelos de embedding, realiza redução de dimensionalidade e seleciona de forma única negativos difíceis, garantindo eficiência computacional e precisão semântica. A avaliação em nosso corpus empresarial proprietário (domínio de serviços em nuvem) demonstra melhorias substanciais de 15% em MRR@3 e 19% em MRR@10 em comparação com baselines state-of-the-art e outras técnicas de amostragem negativa. Validações adicionais em conjuntos de dados públicos específicos de domínio (FiQA, Climate Fever, TechQA) confirmam a generalizabilidade do nosso método e sua prontidão para aplicações no mundo real.
Neste trabalho, propomos o Few Shot Domain Adapting Graph (FS-DAG), uma arquitetura de modelo escalável e eficiente para a compreensão de documentos visualmente ricos (VRDU) em cenários de poucos exemplos. O FS-DAG aproveita backbones específicos de domínio e de linguagem/visão dentro de uma estrutura modular para se adaptar a diversos tipos de documentos com um mínimo de dados. O modelo é robusto a desafios práticos, como o tratamento de erros de OCR, erros ortográficos e mudanças de domínio, que são críticos em implantações do mundo real. O FS-DAG é altamente performático com menos de 90 milhões de parâmetros, tornando-o adequado para aplicações complexas do mundo real em tarefas de Extração de Informação (IE) onde os recursos computacionais são limitados. Demonstramos a capacidade do FS-DAG por meio de experimentos extensos para a tarefa de extração de informações, mostrando melhorias significativas na velocidade de convergência e no desempenho em comparação com métodos state-of-the-art. Além disso, este trabalho destaca o progresso contínuo no desenvolvimento de modelos menores e mais eficientes que não comprometem o desempenho. Código: https://github.com/oracle-samples/fs-dag
Os Grandes Modelos de Linguagem (LLMs) demonstraram capacidades gerais impressionantes, mas aprimorar habilidades como raciocínio frequentemente exige recursos computacionais substanciais e pode comprometer sua generalização. Embora os métodos de Ajuste Fino Eficiente em Parâmetros (PEFT) ofereçam uma alternativa mais consciente dos recursos, eles geralmente exigem retreinamento para cada arquitetura de LLM devido a dependências arquitetônicas. Para enfrentar esses desafios, aqui propomos o Raciocinador Universal (UniR) - um módulo único, leve, componível e plug-and-play de raciocínio que pode ser usado com qualquer LLM congelado para dotá-lo de capacidades especializadas de raciocínio. Especificamente, o UniR decompõe a recompensa em um módulo de raciocínio independente que é treinado separadamente usando recompensas predefinidas, efetivamente traduzindo sinais de nível de trajetória em orientações de nível de token. Uma vez treinado, o UniR pode ser combinado com qualquer LLM congelado no momento da inferência simplesmente adicionando seus logits de saída aos da arquitetura do LLM. Essa estrutura aditiva naturalmente permite composição modular: múltiplos módulos UniR treinados para diferentes tarefas podem ser aplicados conjuntamente somando seus logits, possibilitando raciocínio complexo por meio de composição. Resultados experimentais em tarefas de raciocínio matemático e tradução automática mostram que o UniR supera significativamente os métodos de ajuste fino existentes usando o modelo Llama3.2. Além disso, o UniR demonstra forte generalização de fraco para forte: módulos de raciocínio treinados em modelos menores orientam efetivamente LLMs muito maiores. Isso torna o UniR uma solução econômica, adaptável e robusta para aprimorar o raciocínio em LLMs sem comprometer suas capacidades principais. O código está disponível em https://github.com/hangeol/UniR.
Modelos de linguagem autoregressivos (LMs) geram um token de cada vez, enquanto o raciocínio humano opera em abstrações de nível superior - frases, proposições e conceitos. Esse contraste levanta uma questão central: Os LMs podem, da mesma forma, aprender a raciocinar sobre unidades semânticas estruturadas em vez de sequências brutas de tokens? Neste trabalho, investigamos se LMs pré-treinados podem ser elevados a tais espaços de raciocínio abstrato, construindo sobre suas representações aprendidas. Apresentamos um framework que adapta um LM pré-treinado no nível de token para operar no espaço de frases, prevendo autoregressivamente embeddings contínuos de próximas frases. Exploramos dois paradigmas de embeddings inspirados em aprendizado de representação clássico: 1) embeddings semânticos, aprendidos via autoencodificação para preservar o significado superficial; e 2) embeddings contextuais, treinados via previsão de próxima frase para codificar estrutura antecipatória. Avaliamos ambos sob dois regimes de inferência: Discretizado, que decodifica cada embedding previsto em texto antes de re-codificar; e Contínuo, que raciocina inteiramente no espaço de embeddings para maior eficiência. Em quatro domínios - matemática, lógica, senso comum e planejamento - embeddings contextuais sob inferência contínua mostram desempenho competitivo com Chain-of-Thought (CoT) enquanto reduzem, em média, pela metade os FLOPs no tempo de inferência. Também apresentamos sinais iniciais de escalabilidade e adaptação modular. Por fim, para visualizar trajetórias latentes, introduzimos o SentenceLens, uma ferramenta de diagnóstico que decodifica estados intermediários do modelo em frases interpretáveis. Juntos, nossos resultados indicam que LMs pré-treinados podem efetivamente transicionar para o raciocínio abstrato e estruturado dentro de espaços latentes de embeddings.
Dados de treinamento multilíngue de alta qualidade são essenciais para o pré-treinamento eficaz de grandes modelos de linguagem (LLMs). No entanto, a disponibilidade de conjuntos de dados multilíngues de código aberto adequados permanece limitada. Os conjuntos de dados state-of-the-art existentes dependem principalmente de métodos de filtragem heurística, o que restringe tanto sua transferibilidade quanto escalabilidade entre idiomas. Aqui, apresentamos o JQL, uma abordagem sistemática que cuida de forma eficiente de dados multilíngues diversos e de alta qualidade em escala, reduzindo significativamente as demandas computacionais. O JQL destila as capacidades de anotação dos LLMs em anotadores leves baseados em embeddings multilíngues pré-treinados. Esses modelos exibem um desempenho multilíngue e entre idiomas robusto, mesmo para idiomas e scripts não vistos durante o treinamento. Avaliado empiricamente em 35 idiomas, o pipeline de anotação resultante supera substancialmente os métodos de filtragem heurística atuais, como o Fineweb2. O JQL melhora notavelmente a qualidade do treinamento de modelos subsequentes e aumenta as taxas de retenção de dados. Nossa pesquisa fornece insights práticos e recursos valiosos para a curadoria de dados multilíngues, elevando os padrões de desenvolvimento de conjuntos de dados multilíngues.
Apresentamos o "Thinking with Generated Images" (Pensando com Imagens Geradas), um novo paradigma que transforma fundamentalmente como os modelos multimodais de grande escala (LMMs) lidam com o raciocínio visual, permitindo que eles pensem nativamente entre as modalidades de texto e visão por meio da geração espontânea de etapas intermediárias de pensamento visual. Atualmente, o raciocínio visual com LMMs está limitado ao processamento de imagens fixas fornecidas pelo usuário ou ao raciocínio exclusivamente por meio de cadeias de pensamento (CoT) baseadas em texto. O "Thinking with Generated Images" desbloqueia uma nova dimensão de capacidade cognitiva, onde os modelos podem construir ativamente pensamentos visuais intermediários, criticar suas próprias hipóteses visuais e refiná-las como componentes integrais de seu processo de raciocínio. Demonstramos a eficácia de nossa abordagem por meio de dois mecanismos complementares: (1) geração de visão com subobjetivos visuais intermediários, onde os modelos decompõem tarefas visuais complexas em componentes gerenciáveis que são gerados e integrados progressivamente, e (2) geração de visão com autocrítica, onde os modelos geram uma hipótese visual inicial, analisam suas deficiências por meio de raciocínio textual e produzem saídas refinadas com base em suas próprias críticas. Nossos experimentos em benchmarks de geração visual mostram melhorias substanciais em relação às abordagens baselines, com nossos modelos alcançando uma melhoria relativa de até 50% (de 38% para 57%) no tratamento de cenários complexos com múltiplos objetos. De bioquímicos explorando novas estruturas proteicas, e arquitetos iterando sobre projetos espaciais, a analistas forenses reconstruindo cenas de crime, e jogadores de basquete visualizando jogadas estratégicas, nossa abordagem permite que modelos de IA se envolvam no tipo de imaginação visual e refinamento iterativo que caracteriza o pensamento criativo, analítico e estratégico humano. Disponibilizamos nossa suíte de código aberto em https://github.com/GAIR-NLP/thinking-with-generated-images.
Uma característica marcante da inovação humana é o processo de recombinação - a criação de ideias originais por meio da integração de elementos de mecanismos e conceitos existentes. Neste trabalho, mineramos automaticamente a literatura científica e construímos o CHIMERA: uma base de conhecimento (KB) em larga escala de exemplos de recombinação. O CHIMERA pode ser usado para explorar empiricamente, em escala, como os cientistas recombinam conceitos e se inspiram em diferentes áreas, ou para treinar modelos de aprendizado de máquina supervisionados que aprendem a prever novas direções criativas entre domínios. Para construir essa KB, apresentamos uma nova tarefa de extração de informações que consiste em extrair recombinações de resumos de artigos científicos, coletamos um corpus de alta qualidade com centenas de resumos anotados manualmente e o utilizamos para treinar um modelo de extração baseado em LLM (Large Language Model). O modelo é aplicado a um grande corpus de artigos na área de IA, resultando em uma KB com mais de 28 mil exemplos de recombinação. Analisamos o CHIMERA para explorar as propriedades da recombinação em diferentes subáreas da IA. Por fim, treinamos um modelo de geração de hipóteses científicas usando a KB, que prevê novas direções de recombinação consideradas inspiradoras por pesquisadores do mundo real. Nossos dados e código estão disponíveis em https://github.cs.huji.ac.il/tomhope-lab/CHIMERA.
À medida que os Modelos de Linguagem de Grande Escala (LLMs) participam cada vez mais das interações humano-IA, a avaliação de suas capacidades de Teoria da Mente (ToM) – particularmente sua habilidade de rastrear estados mentais dinâmicos – torna-se crucial. Embora os benchmarks existentes avaliem habilidades básicas de ToM, eles se concentram predominantemente em instantâneos estáticos de estados mentais, negligenciando a evolução temporal que caracteriza as interações sociais do mundo real. Apresentamos o DynToM, um benchmark inovador projetado especificamente para avaliar a capacidade dos LLMs de compreender e rastrear a progressão temporal dos estados mentais em cenários interconectados. Por meio de uma estrutura sistemática de quatro etapas, geramos 1.100 contextos sociais que abrangem 5.500 cenários e 78.100 perguntas, cada uma validada quanto ao realismo e qualidade. Nossa avaliação abrangente de dez LLMs state-of-the-art revela que seu desempenho médio fica 44,7% abaixo do humano, com o desempenho degradando-se significativamente ao rastrear e raciocinar sobre a mudança de estados mentais. Essa lacuna de desempenho destaca limitações fundamentais na capacidade dos LLMs atuais de modelar a natureza dinâmica dos estados mentais humanos.
O recente sucesso dos modelos de difusão de texto para imagem, como o Stable Diffusion, tem estimulado pesquisas para adaptá-los à geração de panoramas de 360 graus. Trabalhos anteriores demonstraram a viabilidade de usar técnicas convencionais de adaptação de baixo rank em modelos de difusão pré-treinados para gerar imagens panorâmicas. No entanto, a grande diferença de domínio entre imagens perspectivas e panorâmicas levanta questões sobre os mecanismos subjacentes que permitem esse sucesso empírico. Nós hipotetizamos e examinamos que as contrapartes treináveis exibem comportamentos distintos quando ajustadas em dados panorâmicos, e que tal adaptação oculta algum mecanismo intrínseco para aproveitar o conhecimento prévio dentro dos modelos de difusão pré-treinados. Nossa análise revela o seguinte: 1) as matrizes de consulta e chave nos módulos de atenção são responsáveis por informações comuns que podem ser compartilhadas entre os domínios panorâmico e perspectivo, sendo, portanto, menos relevantes para a geração de panoramas; e 2) as matrizes de valor e de peso de saída especializam-se em adaptar o conhecimento pré-treinado ao domínio panorâmico, desempenhando um papel mais crítico durante o ajuste fino para a geração de panoramas. Verificamos empiricamente essas percepções introduzindo uma estrutura simples chamada UniPano, com o objetivo de estabelecer uma linha de base elegante para pesquisas futuras. O UniPano não apenas supera os métodos existentes, mas também reduz significativamente o uso de memória e o tempo de treinamento em comparação com abordagens de ramificação dupla anteriores, tornando-o escalável para a geração de panoramas de alta resolução de ponta a ponta. O código será liberado.
Nas arquiteturas Transformer, tokens — unidades discretas derivadas de dados brutos — são formados segmentando as entradas em blocos de comprimento fixo. Cada token é então mapeado para um embedding, permitindo cálculos de atenção paralelos enquanto preserva as informações essenciais da entrada. Devido à complexidade computacional quadrática dos mecanismos de auto-atenção dos Transformers, a redução de tokens tem sido usada principalmente como uma estratégia de eficiência. Isso é especialmente verdadeiro nos domínios de visão única e linguagem, onde ajuda a equilibrar custos computacionais, uso de memória e latência de inferência. Apesar desses avanços, este artigo argumenta que a redução de tokens deve transcender seu papel tradicional voltado para eficiência na era dos grandes modelos generativos. Em vez disso, a posicionamos como um princípio fundamental na modelagem generativa, influenciando criticamente tanto a arquitetura do modelo quanto aplicações mais amplas. Especificamente, defendemos que, em sistemas de visão, linguagem e multimodais, a redução de tokens pode: (i) facilitar uma integração e alinhamento multimodal mais profundos, (ii) mitigar o "pensamento excessivo" e alucinações, (iii) manter a coerência em entradas longas e (iv) melhorar a estabilidade do treinamento, entre outros benefícios. Reenquadramos a redução de tokens como mais do que uma medida de eficiência. Ao fazer isso, delineamos direções futuras promissoras, incluindo o design de algoritmos, redução de tokens guiada por aprendizado por reforço, otimização de tokens para aprendizado em contexto e domínios mais amplos de ML e ciência. Destacamos seu potencial para impulsionar novas arquiteturas de modelo e estratégias de aprendizado que melhoram a robustez, aumentam a interpretabilidade e se alinham melhor com os objetivos da modelagem generativa.
Modelos de linguagem de grande escala (LLMs) normalmente geram respostas idênticas ou semelhantes para todos os usuários diante do mesmo prompt, o que representa sérios riscos de segurança em aplicações de alto impacto, onde as vulnerabilidades dos usuários variam amplamente. As avaliações de segurança existentes dependem principalmente de métricas independentes de contexto - como factualidade, viés ou toxicidade - ignorando o fato de que a mesma resposta pode apresentar riscos divergentes dependendo do histórico ou condição do usuário. Introduzimos o conceito de segurança personalizada para preencher essa lacuna e apresentamos o PENGUIN - um benchmark composto por 14.000 cenários em sete domínios sensíveis, com variantes ricas em contexto e livres de contexto. Ao avaliar seis LLMs líderes, demonstramos que informações personalizadas do usuário melhoram significativamente as pontuações de segurança em 43,2%, confirmando a eficácia da personalização no alinhamento de segurança. No entanto, nem todos os atributos de contexto contribuem igualmente para a melhoria da segurança. Para abordar isso, desenvolvemos o RAISE - uma estrutura de agente em duas etapas, sem necessidade de treinamento, que adquire estrategicamente o histórico específico do usuário. O RAISE melhora as pontuações de segurança em até 31,6% em relação a seis LLMs padrão, mantendo um baixo custo de interação de apenas 2,7 consultas do usuário em média. Nossas descobertas destacam a importância da coleta seletiva de informações em domínios críticos para a segurança e oferecem uma solução prática para personalizar as respostas dos LLMs sem a necessidade de retreinamento do modelo. Este trabalho estabelece uma base para pesquisas de segurança que se adaptam aos contextos individuais dos usuários, em vez de assumir um padrão universal de dano.
Este artigo investiga abordagens para aprimorar as capacidades de raciocínio de agentes de Modelos de Linguagem de Grande Escala (LLM) utilizando Aprendizado por Reforço (RL). Especificamente, focamos em cenários de uso de ferramentas em múltiplos turnos, que podem ser naturalmente modelados como Processos de Decisão de Markov (MDPs). Embora as abordagens existentes frequentemente treinem agentes LLM de múltiplos turnos com estimativa de vantagem em nível de trajetória em configurações de bandit, elas enfrentam dificuldades com a atribuição de crédito em nível de turno ao longo de múltiplos passos de decisão, limitando seu desempenho em tarefas de raciocínio de múltiplos turnos. Para resolver isso, introduzimos uma estratégia de estimativa de vantagem em nível de turno mais refinada, permitindo uma atribuição de crédito mais precisa nas interações de agentes em múltiplos turnos. A estratégia é geral e pode ser incorporada em vários algoritmos de RL, como a Otimização de Preferência Relativa de Grupo (GRPO). Nossa avaliação experimental em tarefas de raciocínio de múltiplos turnos e uso de ferramentas baseadas em busca com implementações de GRPO destaca a eficácia da estrutura MDP e da atribuição de crédito em nível de turno no avanço das capacidades de raciocínio de múltiplos turnos de agentes LLM em cenários complexos de tomada de decisão. Nosso método alcança 100% de sucesso na execução de ferramentas e 50% de precisão na correspondência exata de respostas, superando significativamente as linhas de base, que falham em invocar ferramentas e alcançam apenas 20-30% de precisão na correspondência exata.
O roteamento robusto sob incerteza é fundamental para a logística do mundo real, mas a maioria dos benchmarks assume cenários estáticos e idealizados. Apresentamos o SVRPBench, o primeiro benchmark aberto a capturar dinâmicas estocásticas de alta fidelidade no roteamento de veículos em escala urbana. Abrangendo mais de 500 instâncias com até 1000 clientes, ele simula condições realistas de entrega: congestionamento dependente do tempo, atrasos log-normais, acidentes probabilísticos e janelas de tempo empiricamente fundamentadas para clientes residenciais e comerciais. Nossa pipeline gera cenários diversos e ricos em restrições, incluindo configurações multi-depósito e multi-veículo. A avaliação revela que solucionadores de última geração baseados em aprendizado por reforço, como POMO e AM, degradam-se em mais de 20% sob mudanças distribucionais, enquanto métodos clássicos e metaheurísticos permanecem robustos. Para permitir pesquisas reproduzíveis, disponibilizamos o conjunto de dados e a suíte de avaliação. O SVRPBench desafia a comunidade a projetar solucionadores que generalizem além de suposições sintéticas e se adaptem à incerteza do mundo real.
Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades notáveis de raciocínio por meio de abordagens de escalonamento em tempo de teste, especialmente quando ajustados com dados de cadeia de pensamento (CoT) destilados de modelos de raciocínio de grande escala (LRMs) mais poderosos. No entanto, essas cadeias de raciocínio frequentemente contêm elementos verbosos que espelham a resolução de problemas humana, categorizados como raciocínio progressivo (o caminho essencial de desenvolvimento da solução) e elementos funcionais (processos de verificação, abordagens alternativas de solução e correções de erros). Embora o raciocínio progressivo seja crucial, os elementos funcionais aumentam significativamente as demandas computacionais durante a inferência em tempo de teste. Introduzimos o PIR (Refinamento de Importância Baseado em Perplexidade), um framework fundamentado que avalia quantitativamente a importância de cada etapa de raciocínio com base em seu impacto na confiança da previsão da resposta. O PIR identifica sistematicamente e poda seletivamente apenas as etapas funcionais de baixa importância, preservando os componentes de raciocínio progressivo, criando dados de treinamento otimizados que mantêm a integridade do caminho central da solução enquanto reduzem a verbosidade. Modelos ajustados com dados otimizados pelo PIR exibem propriedades superiores de escalonamento em tempo de teste, gerando cadeias de raciocínio mais concisas enquanto alcançam precisão melhorada (+0,9\% a +6,6\%) com uso significativamente reduzido de tokens (-3\% a -41\%) em benchmarks desafiadores de raciocínio (AIME, AMC e GPQA Diamond). Nossa abordagem demonstra forte generalizabilidade em diferentes tamanhos de modelos, fontes de dados e orçamentos de tokens, oferecendo uma solução prática para a implantação de LLMs com capacidade de raciocínio em cenários onde escalonamento eficiente em tempo de teste, tempo de resposta e eficiência computacional são restrições valiosas.
Recuperar, raciocinar e compreender efetivamente informações visualmente ricas continua sendo um desafio para os métodos RAG (Retrieval-Augmented Generation). Métodos tradicionais baseados em texto não conseguem lidar com informações relacionadas a elementos visuais. Por outro lado, as abordagens atuais de RAG baseadas em visão frequentemente são limitadas por pipelines fixos e enfrentam dificuldades para raciocinar de forma eficaz devido à ativação insuficiente das capacidades fundamentais dos modelos. Como o RL (Reinforcement Learning) tem se mostrado benéfico para o raciocínio de modelos, introduzimos o VRAG-RL, uma nova estrutura de RL projetada para raciocínio complexo em informações visualmente ricas. Com essa estrutura, modelos de linguagem visual (VLMs) interagem com mecanismos de busca, amostrando de forma autônoma trajetórias de raciocínio de única ou múltiplas etapas com o auxílio de tokens de percepção visual e passando por otimização contínua com base nessas amostras. Nossa abordagem destaca limitações-chave do RL em domínios RAG: (i) Abordagens anteriores de RAG multimodal tendem a apenas incorporar imagens no contexto, levando a uma alocação insuficiente de tokens de raciocínio e negligenciando a percepção específica de elementos visuais; e (ii) Quando os modelos interagem com mecanismos de busca, suas consultas frequentemente falham em recuperar informações relevantes devido à incapacidade de articular requisitos, resultando em desempenho subótimo. Para enfrentar esses desafios, definimos um espaço de ação adaptado para entradas visualmente ricas, com ações como recorte e escalonamento, permitindo que o modelo colete informações de uma perspectiva de grosseira para refinada. Além disso, para reduzir a lacuna entre as consultas originais dos usuários e o recuperador, empregamos uma recompensa simples, porém eficaz, que integra a reformulação de consultas e o desempenho de recuperação com uma recompensa baseada no modelo. Nosso VRAG-RL otimiza VLMs para tarefas RAG usando estratégias de RL especialmente projetadas, alinhando o modelo com aplicações do mundo real. O código está disponível em https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}.
Mangá, ou quadrinhos japoneses, é uma forma narrativa ricamente multimodal que combina imagens e texto de maneiras complexas. Ensinar modelos multimodais de grande escala (LMMs) a compreender tais narrativas em um nível semelhante ao humano poderia ajudar os criadores de mangá a refletir e aprimorar suas histórias. Para esse fim, introduzimos dois benchmarks para a compreensão multimodal de mangá: MangaOCR, que visa o reconhecimento de texto dentro das páginas, e MangaVQA, um novo benchmark projetado para avaliar a compreensão contextual por meio de respostas a perguntas visuais. MangaVQA consiste em 526 pares de perguntas e respostas de alta qualidade, construídos manualmente, permitindo uma avaliação confiável em diversos cenários narrativos e visuais. Com base nesses benchmarks, desenvolvemos o MangaLMM, um modelo especializado em mangá, ajustado a partir do LMM de código aberto Qwen2.5-VL para lidar conjuntamente com ambas as tarefas. Por meio de extensos experimentos, incluindo comparações com modelos proprietários como GPT-4o e Gemini 2.5, avaliamos quão bem os LMMs compreendem mangá. Nosso benchmark e modelo fornecem uma base abrangente para avaliar e avançar os LMMs no domínio narrativamente rico do mangá.
Abordagens recentes para controle de câmera 3D em modelos de difusão de vídeo (VDMs) frequentemente criam vídeos âncora para guiar os modelos de difusão como um prior estruturado, renderizando a partir de nuvens de pontos estimadas seguindo trajetórias de câmera anotadas. No entanto, erros inerentes à estimativa de nuvens de pontos frequentemente resultam em vídeos âncora imprecisos. Além disso, a necessidade de extensas anotações de trajetórias de câmera aumenta ainda mais a demanda por recursos. Para abordar essas limitações, introduzimos o EPiC, um framework de aprendizado de controle de câmera eficiente e preciso que constrói automaticamente vídeos âncora de alta qualidade sem anotações caras de trajetórias de câmera. Concretamente, criamos vídeos âncora altamente precisos para treinamento mascarando vídeos de origem com base na visibilidade do primeiro quadro. Essa abordagem garante alto alinhamento, elimina a necessidade de anotações de trajetórias de câmera e, portanto, pode ser facilmente aplicada a qualquer vídeo in-the-wild para gerar pares de treinamento imagem-para-vídeo (I2V). Além disso, introduzimos o Anchor-ControlNet, um módulo de condicionamento leve que integra a orientação de vídeo âncora em regiões visíveis a VDMs pré-treinados, com menos de 1% dos parâmetros do modelo base. Ao combinar os dados de vídeo âncora propostos e o módulo ControlNet, o EPiC alcança treinamento eficiente com substancialmente menos parâmetros, etapas de treinamento e menos dados, sem exigir modificações no modelo base de difusão tipicamente necessárias para mitigar desalinhamentos de renderização. Embora treinado em vídeos âncora baseados em mascaramento, nosso método generaliza robustamente para vídeos âncora feitos com nuvens de pontos durante a inferência, permitindo controle de câmera 3D informado e preciso. O EPiC alcança desempenho SOTA no RealEstate10K e MiraData para a tarefa de controle de câmera I2V, demonstrando capacidade de controle de câmera precisa e robusta tanto quantitativamente quanto qualitativamente. Notavelmente, o EPiC também exibe forte generalização zero-shot para cenários vídeo-para-vídeo.
A reescrita de legendas de imagens é amplamente utilizada para gerar conjuntos de dados de treinamento com qualidade aprimorada para diversas tarefas multimodais. Os métodos existentes de reescrita geralmente dependem de modelos de linguagem multimodal de grande escala (MLLMs) para aprimorar descrições textuais, mas frequentemente sofrem com imprecisões devido a alucinações e incompletude causadas pela ausência de detalhes refinados. Para abordar essas limitações, propomos o RICO, uma nova estrutura que refina legendas por meio de reconstrução visual. Especificamente, utilizamos um modelo de texto para imagem para reconstruir uma legenda em uma imagem de referência e solicitamos que um MLLM identifique discrepâncias entre as imagens original e reconstruída para refinar a legenda. Esse processo é realizado iterativamente, promovendo progressivamente a geração de descrições mais fiéis e abrangentes. Para mitigar o custo computacional adicional induzido pelo processo iterativo, introduzimos o RICO-Flash, que aprende a gerar legendas como o RICO usando DPO. Experimentos extensivos demonstram que nossa abordagem melhora significativamente a precisão e a completude das legendas, superando a maioria das baselines em aproximadamente 10% tanto no CapsBench quanto no CompreCap. O código foi liberado em https://github.com/wangyuchi369/RICO.
O RLHF tradicional otimiza modelos de linguagem com recompensas escalares e grosseiras que mascaram as razões detalhadas por trás do sucesso ou fracasso, levando a um aprendizado lento e opaco. Trabalhos recentes aprimoram o RL com críticas textuais por meio de prompts ou reflexão, melhorando a interpretabilidade, mas deixando os parâmetros do modelo inalterados. Apresentamos o Text2Grad, um paradigma de aprendizado por reforço que transforma feedback textual de forma livre em gradientes em nível de span. Dadas críticas humanas (ou programáticas), o Text2Grad alinha cada frase de feedback com os spans de tokens relevantes, converte esses alinhamentos em sinais de recompensa diferenciáveis e realiza atualizações de gradiente que refinam diretamente as partes problemáticas da política do modelo. Isso resulta em ajustes precisos e condicionados ao feedback, em vez de ajustes globais. O Text2Grad é implementado por meio de três componentes: (1) um pipeline de anotação de feedback de alta qualidade que associa críticas a spans de tokens; (2) um modelo de recompensa refinado que prevê recompensa em nível de span na resposta enquanto gera críticas explicativas; e (3) um otimizador de política em nível de span que retropropaga gradientes em linguagem natural. Em tarefas de sumarização, geração de código e resposta a perguntas, o Text2Grad supera consistentemente o RL com recompensas escalares e baselines baseadas apenas em prompts, oferecendo tanto métricas de tarefa mais altas quanto uma interpretabilidade mais rica. Nossos resultados demonstram que o feedback em linguagem natural, quando convertido em gradientes, é um sinal poderoso para a otimização refinada de políticas. O código do nosso método está disponível em https://github.com/microsoft/Text2Grad.
A geração de imagens transparentes de alta qualidade e múltiplas camadas a partir de prompts de texto pode desbloquear um novo nível de controle criativo, permitindo que os usuários editem cada camada com a mesma facilidade com que editam saídas de texto de LLMs. No entanto, o desenvolvimento de modelos generativos de múltiplas camadas está atrás dos modelos convencionais de texto para imagem devido à ausência de um grande corpus de dados transparentes de múltiplas camadas e de alta qualidade. Neste artigo, abordamos esse desafio fundamental por meio de: (i) o lançamento do primeiro conjunto de dados aberto e de ultra-alta fidelidade, PrismLayers (PrismLayersPro), contendo 200K (20K) imagens transparentes de múltiplas camadas com mattes alfa precisos, (ii) a introdução de um pipeline de síntese sem treinamento que gera tais dados sob demanda usando modelos de difusão prontos para uso, e (iii) a entrega de um modelo forte e de código aberto para geração de múltiplas camadas, ART+, que corresponde à estética dos modelos modernos de geração de texto para imagem. As principais contribuições técnicas incluem: LayerFLUX, que se destaca na geração de camadas transparentes únicas de alta qualidade com mattes alfa precisos, e MultiLayerFLUX, que compõe múltiplas saídas do LayerFLUX em imagens completas, guiadas por um layout semântico anotado por humanos. Para garantir maior qualidade, aplicamos uma etapa rigorosa de filtragem para remover artefatos e incompatibilidades semânticas, seguida de seleção humana. O ajuste fino do modelo ART state-of-the-art em nosso PrismLayersPro sintético resulta no ART+, que supera o ART original em 60% das comparações em estudos de usuário head-to-head e até mesmo iguala a qualidade visual das imagens geradas pelo modelo FLUX.1-[dev]. Antecipamos que nosso trabalho estabelecerá uma base sólida de dados para a tarefa de geração de imagens transparentes de múltiplas camadas, permitindo pesquisas e aplicações que exigem imagens em camadas precisas, editáveis e visualmente atraentes.
O crescimento explosivo dos modelos generativos de vídeo ampliou a demanda por uma preservação confiável dos direitos autorais de conteúdos gerados por IA. Apesar de sua popularidade na síntese de imagens, a marca d'água generativa invisível permanece amplamente subexplorada na geração de vídeos. Para abordar essa lacuna, propomos o Safe-Sora, o primeiro framework a incorporar marcas d'água gráficas diretamente no processo de geração de vídeo. Motivados pela observação de que o desempenho da marca d'água está intimamente ligado à similaridade visual entre a marca d'água e o conteúdo de cobertura, introduzimos um mecanismo hierárquico de correspondência adaptativa do grosso ao fino. Especificamente, a imagem da marca d'água é dividida em patches, cada um atribuído ao quadro de vídeo visualmente mais semelhante, e posteriormente localizado na região espacial ideal para uma incorporação perfeita. Para permitir a fusão espaço-temporal dos patches de marca d'água entre os quadros de vídeo, desenvolvemos uma arquitetura Mamba aprimorada por transformada wavelet 3D com uma nova estratégia de varredura local espaço-temporal, modelando efetivamente dependências de longo alcance durante a incorporação e recuperação da marca d'água. Até onde sabemos, esta é a primeira tentativa de aplicar modelos de espaço de estado à marca d'água, abrindo novas vias para uma proteção eficiente e robusta de marcas d'água. Experimentos extensivos demonstram que o Safe-Sora alcança desempenho de ponta em termos de qualidade de vídeo, fidelidade da marca d'água e robustez, o que é amplamente atribuído às nossas propostas. Liberaremos nosso código após a publicação.
Modelos de linguagem visual (VLMs) normalmente emparelham um codificador visual de tamanho modesto com um grande modelo de linguagem (LLM), por exemplo, Llama-70B, tornando o decodificador o principal fardo computacional durante o treinamento. Para reduzir custos, uma estratégia potencialmente promissora é primeiro treinar o codificador visual usando um pequeno modelo de linguagem antes de transferi-lo para o modelo maior. Construímos pequenos "modelos substitutos" que compartilham o mesmo espaço de incorporação e linguagem de representação do grande LLM alvo, herdando diretamente suas camadas superficiais. Codificadores visuais treinados no substituto podem então ser transferidos diretamente para o modelo maior, um processo que chamamos de enxerto zero-shot — quando conectado diretamente ao LLM alvo de tamanho completo, o par enxertado supera o par codificador-substituto e, em alguns benchmarks, chega a performar em paridade com o treinamento completo do decodificador com o LLM alvo. Além disso, nossa abordagem de treinamento com substitutos reduz os custos gerais de treinamento de VLMs em ~45% ao usar Llama-70B como decodificador.
A natureza diversificada das tarefas de predição de proteínas tradicionalmente exigiu modelos especializados, dificultando o desenvolvimento de Modelos de Linguagem de Proteínas (PLMs) amplamente aplicáveis e computacionalmente eficientes. Neste trabalho, introduzimos o Prot2Token, uma estrutura unificada que supera esses desafios ao converter um amplo espectro de predições relacionadas a proteínas, desde propriedades em nível de sequência e atributos específicos de resíduos até interações interproteicas complexas, em um formato padronizado de predição do próximo token. No cerne do Prot2Token, um decodificador autorregressivo é empregado, condicionado a embeddings de codificadores de proteínas pré-treinados e guiado por tokens de tarefas aprendíveis, para realizar predições diversas. Essa arquitetura facilita exclusivamente o aprendizado multitarefa, permitindo que um único modelo domine diversas tarefas com eficiência aprimorada. Apresentamos uma validação experimental extensa em vários benchmarks, demonstrando o forte poder preditivo do Prot2Token em diferentes tipos de tarefas de predição de proteínas. Entre os principais resultados estão acelerações significativas (por exemplo, quase 1000x em relação ao AlphaFold2 com MSA) e desempenho que frequentemente iguala ou supera abordagens especializadas. Além disso, introduzimos uma abordagem auxiliar de pré-treinamento de decodificador auto-supervisionado para melhorar o desempenho em tarefas espacialmente sensíveis. O Prot2Token, portanto, representa um passo significativo em direção a um paradigma versátil e de alto rendimento para a modelagem de proteínas, prometendo acelerar a descoberta biológica e o desenvolvimento de novas terapias. O código está disponível em https://github.com/mahdip72/prot2token.
Verificadores confiáveis são essenciais para o sucesso do aprendizado por reforço com recompensa verificável (RLVR), que é a metodologia central por trás de vários modelos de raciocínio em larga escala, como o DeepSeek-R1. Em domínios complexos como o raciocínio matemático, verificadores baseados em regras têm sido amplamente adotados em trabalhos anteriores para treinar modelos de raciocínio robustos. No entanto, a confiabilidade desses verificadores e seu impacto no processo de treinamento de RL permanecem pouco compreendidos. Neste trabalho, utilizamos o raciocínio matemático como estudo de caso e conduzimos uma análise abrangente de vários verificadores em cenários de avaliação estática e de treinamento de RL. Primeiramente, descobrimos que os verificadores baseados em regras de código aberto atuais frequentemente falham em reconhecer respostas equivalentes apresentadas em formatos diferentes em diversos conjuntos de dados matemáticos comumente utilizados, resultando em taxas de falsos negativos não negligenciáveis. Essa limitação afeta adversamente o desempenho do treinamento de RL e se torna mais pronunciada à medida que o modelo de política se torna mais forte. Posteriormente, investigamos verificadores baseados em modelos como uma solução potencial para abordar essas limitações. Embora a avaliação estática mostre que os verificadores baseados em modelos alcançam uma precisão de verificação significativamente maior, análises adicionais e resultados de treinamento de RL indicam que eles são altamente suscetíveis a ataques, onde classificam erroneamente certos padrões nas respostas como corretos (ou seja, falsos positivos). Essa vulnerabilidade é explorada durante a otimização do modelo de política, levando a recompensas artificialmente infladas. Nossas descobertas destacam os riscos únicos inerentes tanto aos verificadores baseados em regras quanto aos baseados em modelos, com o objetivo de oferecer insights valiosos para o desenvolvimento de sistemas de recompensa mais robustos no aprendizado por reforço.
Os modelos de difusão Text-to-Image (T2I) alcançaram avanços notáveis na modelagem generativa; no entanto, enfrentam um dilema entre velocidade de inferência e qualidade da imagem, o que representa desafios para uma implantação eficiente. Os modelos T2I destilados existentes podem gerar imagens de alta fidelidade com menos etapas de amostragem, mas frequentemente lutam com diversidade e qualidade, especialmente em modelos de uma única etapa. A partir de nossa análise, observamos cálculos redundantes nos codificadores UNet. Nossas descobertas sugerem que, para modelos de difusão T2I, os decodificadores são mais aptos a capturar informações semânticas mais ricas e explícitas, enquanto os codificadores podem ser compartilhados de forma eficaz entre decodificadores de diferentes etapas temporais. Com base nessas observações, introduzimos o primeiro Codificador Unificado Independente do Tempo (TiUE) para a arquitetura UNet do modelo estudante, que é uma abordagem de geração de imagens sem loops para destilar modelos de difusão T2I. Utilizando um esquema de passagem única, o TiUE compartilha características do codificador em várias etapas temporais do decodificador, permitindo amostragem paralela e reduzindo significativamente a complexidade do tempo de inferência. Além disso, incorporamos um termo de divergência KL para regularizar a previsão de ruído, o que melhora o realismo perceptivo e a diversidade das imagens geradas. Os resultados experimentais demonstram que o TiUE supera os métodos mais avançados, incluindo LCM, SD-Turbo e SwiftBrushv2, produzindo resultados mais diversos e realistas enquanto mantém a eficiência computacional.
Modelos de IA generativa frequentemente aprendem e reproduzem informações falsas presentes em seus corpora de treinamento. Este artigo de posição argumenta que, de forma análoga à imunização biológica, onde a exposição controlada a um patógeno enfraquecido constrói imunidade, modelos de IA devem ser ajustados em pequenos conjuntos de falsidades explicitamente rotuladas e "quarentenadas", funcionando como uma "vacina" contra a desinformação. Esses exemplos falsos curados são periodicamente injetados durante o ajuste fino, fortalecendo a capacidade do modelo de reconhecer e rejeitar alegações enganosas, enquanto preservam a precisão em entradas verdadeiras. Um estudo de caso ilustrativo mostra que modelos imunizados geram substancialmente menos desinformação do que os baselines. Até onde sabemos, esta é a primeira estrutura de treinamento que trata falsidades verificadas como uma vacina supervisionada, em vez de depender de perturbações de entrada ou sinais genéricos de feedback humano, para tornar os modelos mais resistentes à desinformação futura. Também delineamos salvaguardas éticas e controles de governança para garantir o uso seguro de dados falsos. A imunização de modelos oferece um paradigma proativo para alinhar sistemas de IA com a factualidade.
Compreender as representações funcionais no córtex visual superior é uma questão fundamental na neurociência computacional. Embora redes neurais artificiais pré-treinadas em grandes conjuntos de dados exibam um alinhamento representacional impressionante com as respostas neurais humanas, a aprendizagem de modelos computáveis de imagens do córtex visual depende de conjuntos de dados individuais em larga escala obtidos por fMRI. A necessidade de aquisição de dados cara, demorada e muitas vezes impraticável limita a generalização dos codificadores para novos sujeitos e estímulos. O BraInCoRL utiliza aprendizagem em contexto para prever respostas neurais voxel a voxel a partir de poucos exemplos, sem qualquer ajuste adicional para novos sujeitos e estímulos. Aproveitamos uma arquitetura transformer que pode se adaptar de forma flexível a um número variável de estímulos de imagem em contexto, aprendendo um viés indutivo sobre múltiplos sujeitos. Durante o treinamento, otimizamos explicitamente o modelo para aprendizagem em contexto. Ao condicionar conjuntamente em características de imagem e ativações voxel, nosso modelo aprende a gerar diretamente modelos voxel a voxel de melhor desempenho para o córtex visual superior. Demonstramos que o BraInCoRL supera consistentemente os projetos existentes de codificadores voxel a voxel em um regime de baixo volume de dados, quando avaliado em imagens completamente novas, ao mesmo tempo que exibe um forte comportamento de escalonamento no momento do teste. O modelo também generaliza para um novo conjunto de dados de fMRI visual, que utiliza diferentes sujeitos e parâmetros de aquisição de dados de fMRI. Além disso, o BraInCoRL facilita uma melhor interpretabilidade dos sinais neurais no córtex visual superior ao atentar para estímulos semanticamente relevantes. Por fim, mostramos que nossa estrutura permite mapeamentos interpretáveis de consultas em linguagem natural para seletividade voxel.
Os Modelos de Visão-Linguagem (VLMs) têm feito progressos significativos em tarefas multimodais. No entanto, seu desempenho frequentemente se deteriora em cenários de contexto longo, particularmente em vídeos longos. Embora o Rotary Position Embedding (RoPE) tenha sido amplamente adotado para generalização de comprimento em Modelos de Linguagem de Grande Escala (LLMs), estender o RoPE padrão para capturar as complexas dependências espaço-temporais em vídeos continua sendo um desafio não resolvido. Os métodos existentes geralmente alocam diferentes frequências dentro do RoPE para codificar informações posicionais 3D. No entanto, essas estratégias de alocação dependem principalmente de heurísticas, carecendo de uma análise teórica aprofundada. Neste artigo, primeiro estudamos como diferentes estratégias de alocação impactam as capacidades de contexto longo dos VLMs. Nossa análise revela que os RoPEs multimodais atuais falham em capturar de forma confiável as similaridades semânticas em contextos estendidos. Para resolver esse problema, propomos o HoPE, um Híbrido de Position Embedding projetado para melhorar as capacidades de contexto longo dos VLMs. O HoPE introduz uma estratégia híbrida de alocação de frequências para modelagem semântica confiável em contextos arbitrariamente longos, e um mecanismo de escala temporal dinâmica para facilitar o aprendizado robusto e a inferência flexível em diversos comprimentos de contexto. Experimentos extensivos em quatro benchmarks de vídeo para tarefas de compreensão e recuperação de vídeos longos demonstram que o HoPE consistentemente supera os métodos existentes, confirmando sua eficácia. O código está disponível em https://github.com/hrlics/HoPE.
A seleção eficaz de dados é crucial para o treinamento eficiente de modelos de linguagem de grande escala (LLMs) modernos. Este artigo introduz o Distillation de Influência, uma nova estrutura matematicamente fundamentada para seleção de dados que emprega informações de segunda ordem para ponderar de forma ideal as amostras de treinamento. Ao destilar a influência de cada amostra em uma distribuição alvo, nosso método atribui pesos específicos ao modelo que são usados para selecionar dados de treinamento para o ajuste fino de LLMs, direcionando-o para um desempenho robusto no domínio alvo. Derivamos esses pesos ideais tanto para o Gradiente Descendente quanto para os otimizadores Adam. Para garantir escalabilidade e reduzir o custo computacional, propomos uma aproximação baseada em pontos de referência: a influência é calculada com precisão para um pequeno subconjunto de amostras "de referência" e então propagada eficientemente para todas as outras amostras para determinar seus pesos. Validamos o Distillation de Influência aplicando-o ao ajuste de instruções no conjunto de dados Tulu V2, visando uma variedade de tarefas, incluindo GSM8k, SQuAD e MMLU, em vários modelos das famílias Llama e Qwen. Os experimentos mostram que o Distillation de Influência iguala ou supera o desempenho de ponta enquanto alcança uma seleção até 3,5 vezes mais rápida.
Estilizar cenas 3D instantaneamente, mantendo a consistência de múltiplas visões e fielmente assemelhando-se a uma imagem de estilo, continua sendo um desafio significativo. Os métodos atuais de estado da arte para estilização 3D geralmente envolvem uma otimização computacionalmente intensiva durante o teste para transferir características artísticas para uma representação 3D pré-treinada, frequentemente exigindo imagens de entrada densas e com pose. Em contraste, aproveitando os avanços recentes em modelos de reconstrução de avanço direto, demonstramos uma nova abordagem para alcançar a estilização 3D direta em menos de um segundo, utilizando imagens de cena esparsas e sem pose e uma imagem de estilo arbitrária. Para abordar o desacoplamento inerente entre reconstrução e estilização, introduzimos uma arquitetura ramificada que separa a modelagem de estrutura e o sombreamento de aparência, efetivamente prevenindo que a transferência estilística distorça a estrutura subjacente da cena 3D. Além disso, adaptamos uma perda de identidade para facilitar o pré-treinamento do nosso modelo de estilização através da tarefa de síntese de novas visões. Essa estratégia também permite que nosso modelo mantenha suas capacidades originais de reconstrução enquanto é ajustado para estilização. Avaliações abrangentes, utilizando tanto conjuntos de dados dentro do domínio quanto fora do domínio, demonstram que nossa abordagem produz conteúdo 3D estilizado de alta qualidade que alcança uma combinação superior de estilo e aparência da cena, ao mesmo tempo em que supera os métodos existentes em termos de consistência de múltiplas visões e eficiência.
Avanços recentes em Modelos de Linguagem Visual (VLMs) têm demonstrado desempenho excepcional em tarefas de raciocínio visual. No entanto, a geo-localização apresenta desafios únicos, exigindo a extração de pistas visuais multigranulares de imagens e sua integração com conhecimento externo do mundo para um raciocínio sistemático. As abordagens atuais para tarefas de geo-localização frequentemente carecem de mecanismos robustos de raciocínio e explicabilidade, limitando sua eficácia. Para abordar essas limitações, propomos o Geo Reason Enhancement (GRE) Suite, um novo framework que aprimora VLMs com cadeias de raciocínio estruturadas para inferência de localização precisa e interpretável. O GRE Suite é desenvolvido sistematicamente em três dimensões principais: conjunto de dados, modelo e benchmark. Primeiro, introduzimos o GRE30K, um conjunto de dados de raciocínio de geo-localização de alta qualidade projetado para facilitar análises visuais e contextuais refinadas. Em seguida, apresentamos o modelo GRE, que emprega uma estratégia de raciocínio em múltiplos estágios para inferir progressivamente atributos de cena, detalhes locais e características semânticas, reduzindo assim as regiões geográficas potenciais com maior precisão. Por fim, construímos o Geo Reason Evaluation Benchmark (GREval-Bench), um framework de avaliação abrangente que avalia VLMs em diversas cenas urbanas, naturais e de pontos de referência, medindo tanto o desempenho de localização em nível grosseiro (por exemplo, país, continente) quanto refinado (por exemplo, cidade, rua). Resultados experimentais demonstram que o GRE supera significativamente os métodos existentes em todas as granularidades de tarefas de geo-localização, destacando a eficácia de VLMs aprimorados por raciocínio em inferências geográficas complexas. Código e dados serão disponibilizados em https://github.com/Thorin215/GRE.
O aprendizado por reforço (RL, do inglês Reinforcement Learning) tem impulsionado avanços significativos na robótica, mas sua complexidade e longos tempos de treinamento continuam sendo grandes obstáculos. Neste relatório, apresentamos o FastTD3, um algoritmo de RL simples, rápido e eficiente que acelera consideravelmente o treinamento para robôs humanoides em conjuntos populares como HumanoidBench, IsaacLab e MuJoCo Playground. Nossa abordagem é notavelmente simples: treinamos um agente TD3 off-policy com várias modificações — simulação paralela, atualizações em grandes lotes, um crítico distribucional e hiperparâmetros cuidadosamente ajustados. O FastTD3 resolve uma variedade de tarefas do HumanoidBench em menos de 3 horas em uma única GPU A100, mantendo-se estável durante o treinamento. Também fornecemos uma implementação leve e fácil de usar do FastTD3 para acelerar a pesquisa em RL na robótica.
O rápido crescimento de recursos de aprendizado de máquina (ML) de código aberto, como modelos e conjuntos de dados, acelerou a pesquisa em Recuperação de Informação (IR). No entanto, plataformas existentes como o Hugging Face não utilizam explicitamente representações estruturadas, limitando consultas avançadas e análises, como o rastreamento da evolução de modelos e a recomendação de conjuntos de dados relevantes. Para preencher essa lacuna, construímos o HuggingKG, o primeiro grafo de conhecimento em larga escala criado a partir da comunidade do Hugging Face para o gerenciamento de recursos de ML. Com 2,6 milhões de nós e 6,2 milhões de arestas, o HuggingKG captura relações específicas do domínio e atributos textuais ricos. Isso nos permite apresentar o HuggingBench, um benchmark de múltiplas tarefas com três novas coleções de testes para tarefas de IR, incluindo recomendação de recursos, classificação e rastreamento. Nossos experimentos revelam características únicas do HuggingKG e das tarefas derivadas. Ambos os recursos estão publicamente disponíveis, esperando avançar a pesquisa no compartilhamento e gerenciamento de recursos de código aberto.
Sistemas de tutoria inteligente combinados com modelos de linguagem de grande escala oferecem uma abordagem promissora para atender às diversas necessidades dos alunos e promover a aprendizagem autodirigida. Embora os modelos de linguagem de grande escala possuam um bom conhecimento básico de engenharia elétrica, eles ainda são insuficientemente capazes de responder a perguntas específicas sobre circuitos elétricos. Neste artigo, apresentamos o AITEE, um sistema de tutoria baseado em agentes para engenharia elétrica projetado para acompanhar os alunos ao longo de seu processo de aprendizagem, oferecer suporte individualizado e promover a aprendizagem autodirigida. O AITEE suporta tanto circuitos desenhados à mão quanto digitais por meio de um processo de reconstrução de circuitos adaptado, permitindo uma interação natural com os alunos. Nossa nova medida de similaridade baseada em grafos identifica o contexto relevante dos materiais de aula por meio de uma abordagem de geração aumentada por recuperação, enquanto a simulação Spice paralela aumenta ainda mais a precisão na aplicação de metodologias de solução. O sistema implementa um diálogo socrático para fomentar a autonomia do aprendiz por meio de questionamentos guiados. Avaliações experimentais demonstram que o AITEE supera significativamente as abordagens de linha de base na aplicação de conhecimento específico do domínio, com até mesmo modelos de LLM de médio porte apresentando desempenho aceitável. Nossos resultados destacam o potencial de tutores agentivos para fornecer ambientes de aprendizagem escaláveis, personalizados e eficazes para a educação em engenharia elétrica.
O ajuste fino de Modelos de Linguagem de Grande Escala (LLMs) avançou significativamente suas capacidades de seguir instruções, porém os mecanismos computacionais subjacentes que impulsionam essas melhorias ainda são pouco compreendidos. Este estudo examina sistematicamente como o ajuste fino reconfigura as computações dos LLMs ao isolar e analisar componentes esparsos específicos de instruções, ou seja, neurônios em modelos densos e tanto neurônios quanto especialistas em arquiteturas de Mistura de Especialistas (MoE). Em particular, introduzimos o HexaInst, um conjunto de dados instrucionais cuidadosamente curado e balanceado, abrangendo seis categorias distintas, e propomos o SPARCOM, uma nova estrutura analítica composta por três contribuições principais: (1) um método para identificar esses componentes esparsos, (2) uma avaliação de sua generalidade funcional e unicidade, e (3) uma comparação sistemática de suas alterações. Por meio de experimentos, demonstramos a generalidade funcional, a unicidade e o papel crítico desses componentes na execução de instruções. Ao elucidar a relação entre as adaptações induzidas pelo ajuste fino e os substratos computacionais esparsos, este trabalho fornece insights mais profundos sobre como os LLMs internalizam o comportamento de seguir instruções, contribuindo para a comunidade de LLMs confiáveis.
A compreensão da orientação de objetos representa um desafio fundamental na percepção visual, crucial para aplicações como manipulação robótica e realidade aumentada. Os benchmarks atuais de visão e linguagem falham em isolar essa capacidade, frequentemente confundindo-a com relações posicionais e compreensão geral da cena. Apresentamos o DORI (Discriminative Orientation Reasoning Intelligence), um benchmark abrangente que estabelece a percepção da orientação de objetos como um alvo primário de avaliação. O DORI avalia quatro dimensões da compreensão de orientação: alinhamento frontal, transformações rotacionais, relações direcionais relativas e compreensão da orientação canônica. Por meio de tarefas cuidadosamente selecionadas de 11 conjuntos de dados abrangendo 67 categorias de objetos em cenários sintéticos e do mundo real, o DORI oferece insights sobre como sistemas multimodais compreendem as orientações dos objetos. Nossa avaliação de 15 modelos estado da arte de visão e linguagem revela limitações críticas: mesmo os melhores modelos alcançam apenas 54,2% de precisão em tarefas grosseiras e 33,0% em julgamentos granulares de orientação, com o desempenho deteriorando-se para tarefas que exigem mudanças de referencial ou rotações compostas. Esses achados demonstram a necessidade de mecanismos dedicados de representação de orientação, já que os modelos mostram incapacidade sistemática de realizar estimativas angulares precisas, rastrear mudanças de orientação entre diferentes pontos de vista e compreender rotações compostas – sugerindo limitações em suas representações espaciais 3D internas. Como o primeiro framework diagnóstico especificamente projetado para consciência de orientação em sistemas multimodais, o DORI oferece implicações para melhorar o controle robótico, a reconstrução de cenas 3D e a interação humano-IA em ambientes físicos. Dados do DORI: https://huggingface.co/datasets/appledora/DORI-Benchmark
Embora as capacidades dos Modelos de Linguagem de Grande Escala (LLMs) tenham sido estudadas tanto em Chinês Simplificado quanto em Chinês Tradicional, ainda não está claro se os LLMs exibem desempenho diferenciado quando solicitados nessas duas variantes da escrita chinesa. Esse entendimento é crucial, já que disparidades na qualidade das respostas dos LLMs podem perpetuar danos representacionais ao ignorar os diferentes contextos culturais subjacentes ao Chinês Simplificado versus o Chinês Tradicional, e podem exacerbar danos subsequentes na tomada de decisão facilitada por LLMs em domínios como educação ou contratação. Para investigar possíveis disparidades de desempenho dos LLMs, projetamos duas tarefas de benchmark que refletem cenários do mundo real: escolha de termos regionais (solicitando ao LLM que nomeie um item descrito que é referido de forma diferente na China Continental e em Taiwan) e escolha de nomes regionais (solicitando ao LLM que escolha quem contratar a partir de uma lista de nomes tanto em Chinês Simplificado quanto em Chinês Tradicional). Para ambas as tarefas, auditamos o desempenho de 11 serviços líderes de LLMs comerciais e modelos de código aberto — abrangendo aqueles treinados principalmente em inglês, Chinês Simplificado ou Chinês Tradicional. Nossas análises indicam que os vieses nas respostas dos LLMs dependem tanto da tarefa quanto da linguagem de solicitação: enquanto a maioria dos LLMs favoreceu desproporcionalmente respostas em Chinês Simplificado na tarefa de escolha de termos regionais, eles surpreendentemente favoreceram nomes em Chinês Tradicional na tarefa de escolha de nomes regionais. Descobrimos que essas disparidades podem surgir de diferenças na representação dos dados de treinamento, preferências de caracteres escritos e tokenização do Chinês Simplificado e Tradicional. Esses achados destacam a necessidade de uma análise mais aprofundada dos vieses dos LLMs; assim, fornecemos um conjunto de dados de benchmark de código aberto para promover avaliações reproduzíveis do comportamento futuro dos LLMs em variantes da língua chinesa (https://github.com/brucelyu17/SC-TC-Bench).
A compreensão temporal de vídeos é crucial para modelos de linguagem multimodal de grande escala (MLLMs) raciocinarem sobre eventos em vídeos. Apesar dos avanços recentes na compreensão geral de vídeos, os MLLMs atuais ainda enfrentam dificuldades com raciocínio temporal de granularidade fina. Embora o aprendizado por reforço (RL) tenha sido explorado recentemente para abordar essa questão, as abordagens existentes de RL ainda são limitadas em eficácia. Neste trabalho, propomos o MUSEG, um método inovador baseado em RL que aprimora a compreensão temporal ao introduzir o alinhamento multi-segmento com consciência de timestamps. O MUSEG permite que os MLLMs alinhem consultas com múltiplos segmentos relevantes do vídeo, promovendo um raciocínio temporal mais abrangente. Para facilitar o aprendizado eficaz, projetamos uma receita de treinamento de RL personalizada com recompensas em fases que guiam progressivamente o modelo em direção a um raciocínio temporalmente fundamentado. Experimentos extensivos em tarefas de alinhamento temporal e questionamento de vídeo sensível ao tempo demonstram que o MUSEG supera significativamente os métodos existentes e generaliza bem em diversos cenários de compreensão temporal. Veja nosso projeto em https://github.com/THUNLP-MT/MUSEG.
O pré-treinamento de linguagem-imagem tem demonstrado um forte desempenho em imagens médicas 2D, mas seu sucesso em modalidades 3D, como TC e RM, permanece limitado devido às altas demandas computacionais de dados volumétricos, que representam uma barreira significativa para o treinamento em estudos clínicos em grande escala e não curados. Neste estudo, introduzimos o Hierarchical Attention for Language-Image Pre-training (HLIP), uma estrutura de pré-treinamento escalável para imagens médicas 3D. O HLIP adota um mecanismo de atenção hierárquica leve, inspirado na hierarquia natural dos dados radiológicos: fatia, exame e estudo. Esse mecanismo exibe uma forte generalização, por exemplo, +4,3% de AUC macro no benchmark Rad-ChestCT quando pré-treinado no CT-RATE. Além disso, a eficiência computacional do HLIP permite o treinamento direto em conjuntos de dados não curados. Treinado em 220 mil pacientes com 3,13 milhões de exames de RM cerebral e 240 mil pacientes com 1,44 milhão de exames de TC de crânio, o HLIP alcança desempenho de ponta, por exemplo, +32,4% de ACC balanceado no benchmark de RM cerebral proposto e publicamente disponível Pub-Brain-5; +1,4% e +6,9% de AUC macro nos benchmarks de TC de crânio RSNA e CQ500, respectivamente. Esses resultados demonstram que, com o HLIP, o pré-treinamento direto em conjuntos de dados clínicos não curados é uma direção escalável e eficaz para o pré-treinamento de linguagem-imagem em imagens médicas 3D. O código está disponível em https://github.com/Zch0414/hlip.
Modelos de linguagem de grande escala (LLMs) frequentemente adquirem conhecimento durante o pré-treinamento que é indesejável em implantações subsequentes, como informações sensíveis ou conteúdo protegido por direitos autorais. As abordagens existentes para remover esse conhecimento dependem de ajuste fino, treinamento de adaptadores de baixa classificação ou edição em nível de fatos, mas essas são ou muito grosseiras, muito superficiais ou ineficazes. Neste trabalho, propomos o PISCES (Supressão Precisa no Parâmetro para Apagamento de Conceitos), uma nova estrutura para apagar precisamente conceitos inteiros dos parâmetros do modelo, editando diretamente as direções que os codificam no espaço de parâmetros. O PISCES utiliza um modelo desentrelaçador para decompor vetores MLP em características interpretáveis, identifica aquelas associadas a um conceito alvo usando técnicas automatizadas de interpretabilidade e as remove dos parâmetros do modelo. Experimentos com o Gemma 2 e o Llama 3.1 em vários conceitos mostram que o PISCES alcança ganhos modestos em eficácia sobre os principais métodos de apagamento, reduzindo a precisão no conceito alvo para até 7,7%, enquanto melhora drasticamente a especificidade do apagamento (em até 31%) e a robustez (em até 38%). No geral, esses resultados demonstram que a edição baseada em características no parâmetro permite uma abordagem mais precisa e confiável para remover conhecimento conceitual em modelos de linguagem.
A escala em tempo de teste (TTS), que envolve a alocação dinâmica de computação durante a inferência, oferece uma maneira promissora de melhorar o raciocínio em grandes modelos de linguagem. Embora os métodos existentes de TTS funcionem bem, eles frequentemente dependem de longos caminhos de decodificação ou exigem a geração de um grande número de amostras, aumentando o uso de tokens e a latência de inferência. Observamos o fato surpreendente de que, para tarefas de raciocínio, traços mais curtos têm uma probabilidade muito maior de estarem corretos do que os mais longos. Motivados por isso, introduzimos a Busca do Primeiro a Terminar (FFS), uma estratégia de decodificação paralela sem treinamento que lança n amostras independentes e retorna assim que qualquer uma delas é concluída. Avaliamos a FFS juntamente com a decodificação simples, a busca em feixe, a votação majoritária e a forçagem de orçamento em quatro modelos de raciocínio (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B e Phi-4-Reasoning-Plus) e em quatro conjuntos de dados (AIME24, AIME25-I, AIME25-II e GPQA Diamond). Com o DeepSeek-R1, a FFS alcança 82,23% de precisão nos conjuntos de dados AIME, uma melhoria de 15% em relação à precisão independente do DeepSeek-R1, quase igualando o desempenho do o4-mini da OpenAI. Nossa análise teórica explica por que parar no traço mais curto provavelmente resulta em uma resposta correta e identifica as condições sob as quais a parada antecipada pode ser subótima. A elegância e simplicidade da FFS demonstram que estratégias simples de TTS podem ter um desempenho notavelmente bom, revelando o potencial não explorado de abordagens simples no momento da inferência.
Compreender e inferir relações causais a partir de textos é um aspecto fundamental da cognição humana e é essencial para avançar os modelos de linguagem de grande escala (LLMs, na sigla em inglês) em direção à inteligência artificial geral. Trabalhos existentes concentram-se principalmente em textos gerados sinteticamente que envolvem relações causais simples e explicitamente mencionadas no texto. Isso não reflete as complexidades das tarefas do mundo real. Neste artigo, investigamos se os LLMs são capazes de inferir relações causais a partir de textos do mundo real. Desenvolvemos um benchmark extraído de literatura acadêmica do mundo real, que inclui textos diversos em termos de extensão, complexidade das relações (diferentes níveis de explicitação, número de eventos e relações causais) e domínios e subdomínios. Até onde sabemos, nosso benchmark é o primeiro conjunto de dados do mundo real para essa tarefa. Nossos experimentos com LLMs de última geração avaliados em nosso benchmark proposto demonstram desafios significativos, com o modelo de melhor desempenho alcançando uma pontuação F1 média de apenas 0,477. A análise revela armadilhas comuns: dificuldade com informações implicitamente declaradas, em distinguir fatores causais relevantes de detalhes contextuais circundantes e em conectar informações causalmente relevantes espalhadas em passagens textuais extensas. Ao caracterizar sistematicamente essas deficiências, nosso benchmark oferece insights direcionados para pesquisas futuras visando avançar o raciocínio causal em LLMs.
Embora os grandes Modelos de Visão e Linguagem (VLMs) tenham demonstrado desempenho notável em uma ampla gama de tarefas multimodais, suas verdadeiras capacidades de raciocínio em testes de QI humanos permanecem pouco exploradas. Para avançar a pesquisa sobre a inteligência fluida dos VLMs, introduzimos o **IQBench**, um novo benchmark projetado para avaliar VLMs em testes de QI visual padronizados. Nosso foco está em avaliar as capacidades de raciocínio dos VLMs, que argumentamos serem mais importantes do que a precisão da previsão final. **Nosso benchmark é visualmente centrado, minimizando a dependência de conteúdo textual desnecessário**, incentivando assim os modelos a derivar respostas principalmente a partir de informações baseadas em imagens, em vez de conhecimento textual aprendido. Para isso, coletamos e anotamos manualmente 500 questões de QI visual para **evitar vazamentos de dados não intencionais durante o treinamento**. Diferentemente de trabalhos anteriores que se concentram principalmente na precisão da resposta final, avaliamos a capacidade de raciocínio dos modelos analisando suas explicações e os padrões usados para resolver cada problema, juntamente com a precisão da previsão final e a avaliação humana. Nossos experimentos mostram que há disparidades substanciais de desempenho entre as tarefas, com modelos como `o4-mini`, `gemini-2.5-flash` e `claude-3.7-sonnet` alcançando as maiores médias de precisão de 0,615, 0,578 e 0,548, respectivamente. No entanto, todos os modelos enfrentam dificuldades em tarefas de raciocínio espacial 3D e anagramas, destacando limitações significativas nas habilidades gerais de raciocínio dos VLMs atuais. Em termos de pontuação de raciocínio, `o4-mini`, `gemini-2.5-flash` e `claude-3.7-sonnet` alcançaram as maiores médias de 0,696, 0,586 e 0,516, respectivamente. Esses resultados destacam inconsistências entre os processos de raciocínio dos modelos e suas respostas finais, enfatizando a importância de avaliar a precisão do raciocínio além das previsões finais.