Artigos de pesquisa em IA selecionados diariamente com traduções
Embora o aprendizado profundo tenha alcançado sucesso notável em diversos domínios, historicamente ele tem apresentado desempenho inferior em tarefas de aprendizado tabular, que continuam sendo dominadas por árvores de decisão com boosting de gradiente (GBDTs). No entanto, avanços recentes estão abrindo caminho para Modelos de Fundação Tabular, que podem aproveitar conhecimento do mundo real e generalizar em diversos conjuntos de dados, especialmente quando os dados contêm texto livre. Embora a incorporação de capacidades de modelos de linguagem em tarefas tabulares tenha sido explorada, a maioria dos métodos existentes utiliza representações textuais estáticas e independentes do alvo, limitando sua eficácia. Apresentamos o TabSTAR: um Modelo de Fundação Tabular com Representações Semanticamente Conscientes do Alvo. O TabSTAR foi projetado para permitir a transferência de aprendizado em dados tabulares com características textuais, com uma arquitetura livre de parâmetros específicos do conjunto de dados. Ele descongela um codificador de texto pré-treinado e recebe como entrada tokens de alvo, que fornecem ao modelo o contexto necessário para aprender embeddings específicos da tarefa. O TabSTAR alcança desempenho de ponta tanto para conjuntos de dados de médio quanto de grande porte em benchmarks conhecidos de tarefas de classificação com características textuais, e sua fase de pré-treinamento exibe leis de escalabilidade no número de conjuntos de dados, oferecendo um caminho para melhorias adicionais de desempenho.
Modelos recentes de raciocínio em larga escala (LRMs, do inglês Large Reasoning Models) têm demonstrado fortes capacidades de raciocínio por meio de aprendizado por reforço (RL, do inglês Reinforcement Learning). Essas melhorias foram observadas principalmente em tarefas de raciocínio de contexto curto. Em contraste, estender LRMs para processar e raciocinar efetivamente sobre entradas de contexto longo via RL continua sendo um desafio crítico não resolvido. Para preencher essa lacuna, primeiro formalizamos o paradigma de RL para raciocínio em contexto longo e identificamos os principais desafios na eficiência de treinamento subótima e no processo de otimização instável. Para abordar esses problemas, propomos o QwenLong-L1, um framework que adapta LRMs de contexto curto para cenários de contexto longo por meio de escalonamento progressivo de contexto. Especificamente, utilizamos uma etapa de ajuste fino supervisionado (SFT, do inglês Supervised Fine-Tuning) de aquecimento para estabelecer uma política inicial robusta, seguida por uma técnica de RL faseada guiada por currículo para estabilizar a evolução da política, e aprimorada com uma estratégia de amostragem retrospectiva consciente da dificuldade para incentivar a exploração da política. Experimentos em sete benchmarks de questionamento e resposta em documentos de contexto longo demonstram que o QwenLong-L1-32B supera LRMs líderes como o OpenAI-o3-mini e o Qwen3-235B-A22B, alcançando desempenho comparável ao Claude-3.7-Sonnet-Thinking, demonstrando desempenho líder entre os LRMs de última geração. Este trabalho avança o desenvolvimento de LRMs práticos de contexto longo capazes de raciocínio robusto em ambientes intensivos em informação.
Modelos de linguagem de grande escala (LLMs) se destacam em tarefas complexas de raciocínio, mas permanecem computacionalmente caros, limitando sua implantação prática. Para abordar isso, trabalhos recentes têm se concentrado em destilar capacidades de raciocínio em modelos de linguagem menores (sLMs) usando traços de cadeia de pensamento (CoT) de LLMs professores. No entanto, essa abordagem enfrenta dificuldades em cenários que exigem conhecimento factual raro ou computação precisa, onde sLMs frequentemente alucinam devido à capacidade limitada. Neste trabalho, propomos a Destilação de Agentes, uma estrutura para transferir não apenas a capacidade de raciocínio, mas o comportamento completo de resolução de tarefas de agentes baseados em LLMs para sLMs com ferramentas de recuperação e código. Melhoramos a destilação de agentes ao longo de dois eixos complementares: (1) introduzimos um método de prompt chamado prefixo de primeiro pensamento para melhorar a qualidade das trajetórias geradas pelo professor; e (2) propomos uma geração de ação auto-consistente para melhorar a robustez no tempo de teste de pequenos agentes. Avaliamos nosso método em oito tarefas de raciocínio em domínios factuais e matemáticos, cobrindo generalização tanto dentro quanto fora do domínio. Nossos resultados mostram que sLMs com apenas 0,5B, 1,5B, 3B parâmetros podem alcançar desempenho competitivo com modelos maiores de 1,5B, 3B, 7B ajustados usando destilação CoT, demonstrando o potencial da destilação de agentes para construir pequenos agentes práticos que utilizam ferramentas. Nosso código está disponível em https://github.com/Nardien/agent-distillation.
O rápido avanço dos modelos de linguagem de grande escala (LLMs) tem sido acompanhado por aumentos sem precedentes nas demandas computacionais, com os custos de treinamento para modelos de última geração dobrando a cada poucos meses. Treinar modelos diretamente em aritmética de baixa precisão oferece uma solução, melhorando tanto a taxa de transferência computacional quanto a eficiência energética. Especificamente, a recente arquitetura Blackwell da NVIDIA facilita operações de precisão extremamente baixa, especificamente variantes FP4, prometendo ganhos substanciais de eficiência. No entanto, os algoritmos atuais para treinar LLMs em precisão FP4 enfrentam uma degradação significativa na precisão e frequentemente dependem de soluções de precisão mista. Neste artigo, investigamos sistematicamente o treinamento em FP4 suportado por hardware e introduzimos o Quartet, uma nova abordagem que permite o treinamento preciso e de ponta a ponta em FP4, com todos os principais cálculos (por exemplo, em camadas lineares) sendo realizados em baixa precisão. Por meio de avaliações extensas em modelos do tipo Llama, revelamos uma nova lei de escalonamento de baixa precisão que quantifica as compensações de desempenho em várias larguras de bits e nos permite identificar uma técnica de treinamento de baixa precisão "quase ótima" em termos de precisão versus computação, chamada Quartet. Implementamos o Quartet usando kernels CUDA otimizados para GPUs NVIDIA Blackwell e mostramos que ele pode alcançar precisão de última geração para precisão FP4, treinando com sucesso modelos em escala de bilhões. Nosso método demonstra que o treinamento totalmente baseado em FP4 é uma alternativa competitiva ao treinamento em precisão padrão e FP8. Nosso código está disponível em https://github.com/IST-DASLab/Quartet.
Modelos de linguagem de grande escala têm demonstrado proficiência notável em tarefas de raciocínio longas e complexas. No entanto, eles frequentemente exibem uma dependência problemática de padrões de raciocínio familiares, um fenômeno que denominamos rigidez de raciocínio. Apesar de instruções explícitas dos usuários, esses modelos frequentemente ignoram condições claramente estabelecidas e recorrem a trajetórias de raciocínio habituais, levando a conclusões incorretas. Esse comportamento apresenta desafios significativos, especialmente em domínios como matemática e quebra-cabeças lógicos, onde a adesão precisa a restrições especificadas é crucial. Para investigar sistematicamente a rigidez de raciocínio, um comportamento amplamente inexplorado em trabalhos anteriores, introduzimos um conjunto diagnóstico curado por especialistas. Nosso conjunto de dados inclui variantes especialmente modificadas de benchmarks matemáticos existentes, nomeadamente AIME e MATH500, além de quebra-cabeças conhecidos deliberadamente redesenhados para exigir desvios de estratégias de raciocínio familiares. Utilizando esse conjunto de dados, identificamos padrões recorrentes de contaminação que ocorrem quando os modelos recorrem a raciocínios enraizados. Especificamente, categorizamos essa contaminação em três modos distintos: (i) Sobrecarga de Interpretação, (ii) Desconfiança da Entrada e (iii) Atenção Parcial às Instruções, cada um fazendo com que os modelos ignorem ou distorçam as instruções fornecidas. Disponibilizamos publicamente nosso conjunto diagnóstico para facilitar pesquisas futuras sobre a mitigação da rigidez de raciocínio em modelos de linguagem.
O aprendizado por reforço (RL) avançou significativamente as capacidades de raciocínio dos modelos de visão e linguagem (VLMs). No entanto, o uso de RL além de tarefas de raciocínio permanece amplamente inexplorado, especialmente para tarefas intensivas em percepção, como detecção e localização de objetos. Propomos o V-Triune, um Sistema de Aprendizado por Reforço Triplo Unificado Visual que permite que VLMs aprendam conjuntamente tarefas de raciocínio visual e percepção dentro de um único pipeline de treinamento. O V-Triune compreende três componentes complementares: Formatação de Dados em Nível de Amostra (para unificar entradas de tarefas diversas), Computação de Recompensa em Nível de Verificador (para fornecer recompensas personalizadas por meio de verificadores especializados) e Monitoramento de Métricas em Nível de Fonte (para diagnosticar problemas no nível da fonte de dados). Além disso, introduzimos uma nova recompensa de IoU Dinâmica, que fornece feedback adaptativo, progressivo e definitivo para tarefas de percepção tratadas pelo V-Triune. Nossa abordagem é instanciada dentro de um framework de treinamento RL pronto para uso, utilizando modelos de base de código aberto de 7B e 32B. O modelo resultante, denominado Orsta (One RL to See Them All), demonstra melhorias consistentes tanto em tarefas de raciocínio quanto de percepção. Essa ampla capacidade é significativamente moldada por seu treinamento em um conjunto de dados diversificado, construído em torno de quatro tarefas representativas de raciocínio visual (Matemática, Quebra-cabeça, Gráfico e Ciência) e quatro tarefas de percepção visual (Localização, Detecção, Contagem e OCR). Posteriormente, o Orsta alcança ganhos substanciais no MEGA-Bench Core, com melhorias variando de +2,1 a impressionantes +14,1 em suas várias variantes de modelos de 7B e 32B, com benefícios de desempenho se estendendo a uma ampla gama de tarefas subsequentes. Esses resultados destacam a eficácia e escalabilidade de nossa abordagem unificada de RL para VLMs. O sistema V-Triune, juntamente com os modelos Orsta, está disponível publicamente em https://github.com/MiniMax-AI.
Os benchmarks existentes falham em capturar um aspecto crucial da inteligência: o raciocínio físico, a capacidade integrada de combinar conhecimento de domínio, raciocínio simbólico e compreensão das restrições do mundo real. Para abordar essa lacuna, apresentamos o PhyX: o primeiro benchmark em larga escala projetado para avaliar a capacidade dos modelos de raciocínio fundamentado em física em cenários visuais. O PhyX inclui 3 mil questões multimodais meticulosamente curadas, abrangendo 6 tipos de raciocínio em 25 subdomínios e 6 domínios principais da física: termodinâmica, eletromagnetismo, mecânica, física moderna, óptica e ondas e acústica. Em nossa avaliação abrangente, até mesmo os modelos state-of-the-art enfrentam dificuldades significativas com o raciocínio físico. GPT-4o, Claude3.7-Sonnet e GPT-o4-mini atingem apenas 32,5%, 42,2% e 45,8% de precisão, respectivamente — lacunas de desempenho que excedem 29% em comparação com especialistas humanos. Nossa análise expõe limitações críticas nos modelos atuais: excesso de dependência de conhecimento disciplinar memorizado, dependência excessiva de formulações matemáticas e correspondência superficial de padrões visuais em vez de uma compreensão física genuína. Fornecemos uma análise detalhada por meio de estatísticas refinadas, estudos de caso detalhados e múltiplos paradigmas de avaliação para examinar minuciosamente as capacidades de raciocínio físico. Para garantir a reprodutibilidade, implementamos um protocolo de avaliação compatível baseado em kits de ferramentas amplamente utilizados, como o VLMEvalKit, permitindo avaliação com um único clique.
Este relatório técnico apresenta o QwenLong-CPRS, uma estrutura de compressão de contexto projetada para otimização explícita de contextos longos, abordando o custo computacional proibitivo durante a etapa de preenchimento prévio e a degradação de desempenho "perdido no meio" dos modelos de linguagem de grande escala (LLMs) durante o processamento de sequências longas. Implementado por meio de um novo mecanismo de otimização dinâmica de contexto, o QwenLong-CPRS permite a compressão de contexto em múltiplas granularidades guiada por instruções em linguagem natural, alcançando tanto ganhos de eficiência quanto melhorias de desempenho. Evoluído da série de arquiteturas Qwen, o QwenLong-CPRS introduz quatro inovações principais: (1) Otimização dinâmica guiada por linguagem natural, (2) Camadas de raciocínio bidirecional para maior consciência de limites, (3) Mecanismos de crítica de tokens com cabeças de modelagem de linguagem, e (4) Inferência paralela em janelas. Avaliações abrangentes em cinco benchmarks (contextos de 4K a 2M palavras) demonstram a tripla eficácia do QwenLong-CPRS: (1) Superioridade consistente sobre outros métodos de gerenciamento de contexto, como RAG e atenção esparsa, tanto em precisão quanto em eficiência. (2) Integração agnóstica à arquitetura com todos os principais LLMs, incluindo GPT-4o, Gemini2.0-pro, Claude3.7-sonnet, DeepSeek-v3 e Qwen2.5-max, alcançando uma compressão de contexto de 21,59 vezes juntamente com ganhos médios de desempenho de 19,15 pontos; (3) Implantado com o Qwen2.5-32B-Instruct, o QwenLong-CPRS supera os principais LLMs proprietários em 4,85 e 10,88 pontos no Ruler-128K e InfiniteBench, estabelecendo um novo desempenho de estado da arte (SOTA).
À medida que o custo marginal de escalonamento de computação (dados e parâmetros) durante o pré-treinamento de modelos continua a aumentar substancialmente, o escalonamento em tempo de teste (TTS) surgiu como uma direção promissora para melhorar o desempenho de modelos generativos, alocando computação adicional no momento da inferência. Embora o TTS tenha demonstrado sucesso significativo em várias tarefas de linguagem, ainda há uma lacuna notável na compreensão dos comportamentos de escalonamento em tempo de teste de modelos generativos de imagem e vídeo (baseados em difusão ou fluxo). Embora trabalhos recentes tenham iniciado a exploração de estratégias de inferência para tarefas visuais, essas abordagens enfrentam limitações críticas: estão restritas a domínios específicos de tarefas, exibem baixa escalabilidade ou caem em uma sobre-otimização de recompensa que sacrifica a diversidade de amostras. Neste artigo, propomos o Evolutionary Search (EvoSearch), um método TTS novo, generalista e eficiente que melhora efetivamente a escalabilidade tanto da geração de imagens quanto de vídeos em modelos de difusão e fluxo, sem exigir treinamento adicional ou expansão do modelo. O EvoSearch reformula o escalonamento em tempo de teste para modelos de difusão e fluxo como um problema de busca evolutiva, aproveitando princípios da evolução biológica para explorar e refinar eficientemente a trajetória de remoção de ruído. Ao incorporar mecanismos de seleção e mutação cuidadosamente projetados e adaptados ao processo de remoção de ruído de equações diferenciais estocásticas, o EvoSearch gera iterativamente descendentes de maior qualidade enquanto preserva a diversidade da população. Por meio de uma avaliação extensa em arquiteturas de difusão e fluxo para tarefas de geração de imagens e vídeos, demonstramos que nosso método supera consistentemente as abordagens existentes, alcança maior diversidade e mostra forte generalização para métricas de avaliação não vistas. Nosso projeto está disponível no site https://tinnerhrhe.github.io/evosearch.
A escolha do ruído inicial afeta significativamente a qualidade e o alinhamento com o prompt em modelos de difusão de vídeo, onde diferentes sementes de ruído para o mesmo prompt podem levar a gerações drasticamente diferentes. Embora métodos recentes dependam de prioridades externamente projetadas, como filtros de frequência ou suavização inter-quadros, eles frequentemente ignoram sinais internos do modelo que indicam quais sementes de ruído são intrinsecamente preferíveis. Para abordar isso, propomos o ANSE (Seleção Ativa de Ruído para Geração), uma estrutura consciente do modelo que seleciona sementes de ruído de alta qualidade ao quantificar a incerteza baseada em atenção. Em seu núcleo está o BANSA (Seleção Ativa de Ruído Bayesiana via Atenção), uma função de aquisição que mede a discordância de entropia em múltiplas amostras estocásticas de atenção para estimar a confiança e a consistência do modelo. Para uma implantação eficiente no tempo de inferência, introduzimos uma aproximação mascarada por Bernoulli do BANSA que permite a estimativa de pontuação usando um único passo de difusão e um subconjunto de camadas de atenção. Experimentos no CogVideoX-2B e 5B demonstram que o ANSE melhora a qualidade do vídeo e a coerência temporal com apenas um aumento de 8% e 13% no tempo de inferência, respectivamente, fornecendo uma abordagem fundamentada e generalizável para a seleção de ruído em difusão de vídeo. Veja nossa página do projeto: https://anse-project.github.io/anse-project/
A classificação de hipóteses é um componente crucial da descoberta científica automatizada, especialmente nas ciências naturais, onde experimentos em laboratório são caros e limitados em termos de produtividade. As abordagens existentes focam na classificação pré-experimental, dependendo exclusivamente do raciocínio interno de modelos de linguagem de grande escala, sem incorporar resultados empíricos de experimentos. Introduzimos a tarefa de classificação guiada por experimentos, que visa priorizar hipóteses candidatas com base nos resultados de experimentos previamente testados. No entanto, desenvolver tais estratégias é desafiador devido à impraticabilidade de realizar repetidamente experimentos reais em domínios das ciências naturais. Para resolver isso, propomos um simulador baseado em três suposições informadas pelo domínio, modelando o desempenho das hipóteses como uma função de sua similaridade com uma hipótese verdadeira conhecida, perturbada por ruído. Compilamos um conjunto de dados de 124 hipóteses de química com resultados reportados experimentalmente para validar o simulador. Com base nesse simulador, desenvolvemos um método de classificação pseudo-guiada por experimentos que agrupa hipóteses por características funcionais compartilhadas e prioriza candidatos com base em insights derivados de feedback simulado de experimentos. Experimentos mostram que nosso método supera baselines pré-experimentais e ablações robustas.
Os Modelos de Raciocínio de Grande Escala (LRMs) se destacam em tarefas complexas utilizando o raciocínio em Cadeia de Pensamento (CoT). No entanto, sua tendência a "pensar demais" resulta em cadeias de raciocínio desnecessariamente longas, aumentando drasticamente os custos de inferência. Para mitigar esse problema, introduzimos o VeriThinker, uma abordagem inovadora para compressão de CoT. Diferente dos métodos convencionais que ajustam diretamente os LRMs na tarefa original de raciocínio usando dados sintéticos de CoT concisos, nós ajustamos o modelo de forma inovadora apenas através de uma tarefa auxiliar de verificação. Ao treinar os LRMs para verificar com precisão a correção das soluções de CoT, os LRMs se tornam intrinsecamente mais criteriosos sobre a necessidade de etapas subsequentes de autorreflexão, suprimindo efetivamente o excesso de pensamento. Experimentos extensivos validam que o VeriThinker reduz substancialmente o comprimento das cadeias de raciocínio enquanto mantém ou até mesmo melhora ligeiramente a precisão. Quando aplicado ao DeepSeek-R1-Distill-Qwen-7B, nossa abordagem reduz os tokens de raciocínio no MATH500 de 3790 para 2125, enquanto melhora a precisão em 0,8% (de 94,0% para 94,8%), e no AIME25, os tokens diminuem de 14321 para 10287 com um ganho de precisão de 2,1% (de 38,7% para 40,8%). Além disso, nossos experimentos demonstram que o VeriThinker também pode ser generalizado de forma zero-shot para raciocínio especulativo. O código está disponível em https://github.com/czg1225/VeriThinker.
Compreender cenas visuais é fundamental para a inteligência humana. Embora modelos discriminativos tenham avançado significativamente a visão computacional, eles frequentemente enfrentam dificuldades com o entendimento composicional. Em contraste, recentes modelos generativos de difusão texto-para-imagem se destacam na síntese de cenas complexas, sugerindo capacidades composicionais inerentes. Com base nisso, classificadores de difusão zero-shot foram propostos para reutilizar modelos de difusão em tarefas discriminativas. Embora trabalhos anteriores tenham apresentado resultados promissores em cenários discriminativos composicionais, esses resultados permanecem preliminares devido ao pequeno número de benchmarks e a uma análise relativamente superficial das condições sob as quais os modelos têm sucesso. Para abordar isso, apresentamos um estudo abrangente das capacidades discriminativas de classificadores de difusão em uma ampla gama de tarefas composicionais. Especificamente, nosso estudo abrange três modelos de difusão (SD 1.5, 2.0 e, pela primeira vez, 3-m) em 10 conjuntos de dados e mais de 30 tarefas. Além disso, esclarecemos o papel que os domínios dos conjuntos de dados alvo desempenham no desempenho respectivo; para isolar os efeitos do domínio, introduzimos um novo benchmark de diagnóstico chamado Self-Bench, composto por imagens criadas pelos próprios modelos de difusão. Por fim, exploramos a importância da ponderação de timesteps e descobrimos uma relação entre a lacuna de domínio e a sensibilidade ao timestep, particularmente para o SD3-m. Em resumo, classificadores de difusão entendem composicionalidade, mas há condições! O código e o conjunto de dados estão disponíveis em https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.
Gerar formas 3D de alta resolução usando representações volumétricas, como Funções de Distância Assinada, apresenta desafios computacionais e de memória substanciais. Apresentamos o Direct3D S2, uma estrutura escalável de geração 3D baseada em volumes esparsos que alcança qualidade superior de saída com custos de treinamento drasticamente reduzidos. Nossa principal inovação é o mecanismo de Atenção Espacial Esparsa (Spatial Sparse Attention - SSA), que aumenta significativamente a eficiência dos cálculos do Transformer de Difusão em dados volumétricos esparsos. O SSA permite que o modelo processe efetivamente grandes conjuntos de tokens dentro de volumes esparsos, reduzindo consideravelmente a sobrecarga computacional e alcançando um ganho de velocidade de 3,9x na passagem direta e 9,6x na passagem reversa. Nossa estrutura também inclui um autoencoder variacional que mantém um formato volumétrico esparso consistente nas etapas de entrada, latente e saída. Em comparação com métodos anteriores que utilizam representações heterogêneas em VAEs 3D, este design unificado melhora significativamente a eficiência e a estabilidade do treinamento. Nosso modelo foi treinado em conjuntos de dados publicamente disponíveis, e os experimentos demonstram que o Direct3D S2 não apenas supera os métodos state-of-the-art em qualidade e eficiência de geração, mas também permite o treinamento em resolução 1024 usando apenas 8 GPUs, uma tarefa que normalmente exigiria pelo menos 32 GPUs para representações volumétricas em resolução 256, tornando a geração 3D em escala gigante tanto prática quanto acessível. Página do projeto: https://nju3dv.github.io/projects/Direct3D-S2/.
Sistemas de geração aumentada por recuperação (RAG) capacitam modelos de linguagem de grande escala (LLMs) a acessar conhecimento externo durante a inferência. Avanços recentes permitiram que LLMs atuassem como agentes de busca por meio de aprendizado por reforço (RL), melhorando a aquisição de informações através de interações multi-turn com mecanismos de recuperação. No entanto, as abordagens existentes ou otimizam a recuperação usando métricas exclusivas de busca (por exemplo, NDCG) que ignoram a utilidade downstream ou ajustam todo o LLM para raciocinar e recuperar conjuntamente - entrelaçando a recuperação com a geração e limitando a utilidade real da busca e a compatibilidade com modelos congelados ou proprietários. Neste trabalho, propomos s3, um framework leve e agnóstico a modelos que desacopla o buscador do gerador e treina o buscador usando uma recompensa de Ganho Além do RAG: a melhoria na precisão da geração em relação ao RAG ingênuo. O s3 requer apenas 2,4 mil amostras de treinamento para superar baselines treinadas com mais de 70 vezes mais dados, entregando consistentemente um desempenho downstream superior em seis benchmarks de QA geral e cinco de QA médica.
Modelos de linguagem de grande escala exibem viés posicional — uma negligência sistemática de informações em posições específicas do contexto —, mas sua interação com a diversidade linguística ainda é pouco compreendida. Apresentamos um estudo translinguístico em cinco idiomas tipologicamente distintos (inglês, russo, alemão, hindi e vietnamita), examinando como o viés posicional interage com a incerteza do modelo, a sintaxe e o *prompting*. Principais descobertas: (1) O viés posicional é impulsionado pelo modelo, com variações específicas por idioma — o Qwen2.5-7B favorece posições tardias, desafiando suposições de viés em tokens iniciais; (2) A orientação posicional explícita (por exemplo, "o contexto correto está na posição X") reduz a precisão em todos os idiomas, prejudicando práticas de engenharia de *prompts*; (3) Alinhar o contexto com o viés posicional aumenta a entropia, mas a entropia mínima não prevê a precisão. (4) Descobrimos ainda que os LLMs impõem de forma diferente a ordem dominante de palavras em idiomas de ordem livre, como o hindi.
O rápido avanço e as aplicações em expansão dos Modelos de Linguagem de Grande Escala em Áudio (ALLMs, na sigla em inglês) exigem uma compreensão rigorosa de sua confiabilidade. No entanto, pesquisas sistemáticas sobre a avaliação desses modelos, particularmente em relação aos riscos exclusivos da modalidade de áudio, permanecem amplamente inexploradas. Os frameworks de avaliação existentes focam principalmente na modalidade de texto ou abordam apenas um conjunto restrito de dimensões de segurança, falhando em considerar adequadamente as características únicas e os cenários de aplicação inerentes à modalidade de áudio. Apresentamos o AudioTrust — o primeiro framework e benchmark multifacetado de avaliação de confiabilidade projetado especificamente para ALLMs. O AudioTrust facilita avaliações em seis dimensões-chave: justiça, alucinação, segurança, privacidade, robustez e autenticação. Para avaliar de forma abrangente essas dimensões, o AudioTrust é estruturado em torno de 18 configurações experimentais distintas. Seu núcleo é um conjunto de dados meticulosamente construído, com mais de 4.420 amostras de áudio/texto, extraídas de cenários do mundo real (por exemplo, conversas cotidianas, chamadas de emergência, interações com assistentes de voz), projetadas especificamente para investigar a confiabilidade multifacetada dos ALLMs. Para avaliação, o benchmark projeta cuidadosamente 9 métricas de avaliação específicas para áudio, e empregamos um pipeline automatizado em larga escala para pontuação objetiva e escalável das saídas dos modelos. Os resultados experimentais revelam os limites e as limitações de confiabilidade dos ALLMs de código aberto e proprietários mais avançados atuais quando confrontados com diversos cenários de áudio de alto risco, oferecendo insights valiosos para a implantação segura e confiável de futuros modelos de áudio. Nossa plataforma e benchmark estão disponíveis em https://github.com/JusperLee/AudioTrust.
Alinhar grandes modelos de linguagem (LLMs) para detectar alucinações com precisão continua sendo um desafio significativo devido à natureza sofisticada do texto alucinado. Reconhecendo que amostras alucinadas geralmente exibem uma qualidade enganosa maior do que amostras negativas tradicionais, utilizamos essas alucinações cuidadosamente projetadas como exemplos negativos no procedimento de alinhamento DPO. Nosso método incorpora uma estratégia de aprendizado curricular, transicionando gradualmente o treinamento de amostras mais fáceis, identificadas com base na maior redução nas pontuações de probabilidade de modelos independentes de verificação de fatos, para amostras progressivamente mais difíceis. Essa escala estruturada de dificuldade garante um aprendizado estável e incremental. A avaliação experimental demonstra que nossos modelos HaluCheck, treinados com a abordagem DPO curricular e amostras negativas de alta qualidade, melhoram significativamente o desempenho do modelo em várias métricas, alcançando melhorias de até 24% em benchmarks difíceis como MedHallu e HaluEval. Além disso, os modelos HaluCheck demonstram robustez em configurações zero-shot, superando significativamente modelos state-of-the-art maiores em vários benchmarks.
Os Modelos de Linguagem de Grande Escala (LLMs) demonstram capacidades impressionantes, mas carecem de inteligência temporal robusta, lutando para integrar o raciocínio sobre o passado com previsões e gerações plausíveis do futuro. Enquanto isso, os métodos existentes geralmente visam habilidades temporais isoladas, como responder a perguntas sobre eventos passados ou previsões básicas, e exibem má generalização, especialmente ao lidar com eventos além de seu limite de conhecimento ou que exigem previsão criativa. Para abordar essas limitações, introduzimos o Time-R1, o primeiro framework a dotar um LLM de tamanho moderado (3 bilhões de parâmetros) com habilidades temporais abrangentes: compreensão, previsão e geração criativa. Nossa abordagem apresenta um caminho de desenvolvimento em três estágios; os dois primeiros constituem um currículo de aprendizado por reforço (RL) impulsionado por um sistema de recompensas dinâmico e baseado em regras meticulosamente projetado. Esse framework constrói progressivamente (1) a compreensão temporal fundamental e mapeamentos lógicos de eventos-tempo a partir de dados históricos, (2) habilidades de previsão de eventos futuros para eventos além de seu limite de conhecimento e, finalmente, (3) permite uma generalização notável para a geração de cenários futuros criativos sem qualquer ajuste fino. Impressionantemente, os experimentos demonstram que o Time-R1 supera modelos mais de 200 vezes maiores, incluindo o estado da arte DeepSeek-R1 de 671 bilhões, em benchmarks altamente desafiadores de previsão de eventos futuros e geração de cenários criativos. Este trabalho fornece evidências sólidas de que o ajuste fino progressivo e bem projetado de RL permite que modelos menores e eficientes alcancem desempenho temporal superior, oferecendo um caminho prático e escalável para uma IA verdadeiramente consciente do tempo. Para promover mais pesquisas, também lançamos o Time-Bench, um conjunto de dados de raciocínio temporal de grande escala e multi-tarefa derivado de 10 anos de dados de notícias, e nossa série de checkpoints do Time-R1.
O aprendizado por reforço (RL, do inglês Reinforcement Learning) surgiu como um método eficaz para treinar modelos de raciocínio. No entanto, as abordagens de RL existentes tendem a enviesar a distribuição de saída do modelo em direção a caminhos que maximizam a recompensa, sem introduzir conhecimento externo. Isso limita sua capacidade de exploração e resulta em um limite de capacidade de raciocínio mais restrito em comparação com os modelos base. Para superar essa limitação, propomos o TAPO (Thought-Augmented Policy Optimization), uma nova estrutura que amplia o RL ao incorporar orientações externas de alto nível ("padrões de pensamento"). Ao integrar de forma adaptativa pensamentos estruturados durante o treinamento, o TAPO equilibra efetivamente a exploração interna do modelo e a exploração de orientações externas. Experimentos extensivos mostram que nossa abordagem supera significativamente o GRPO em 99% no AIME, 41% no AMC e 17% no Minerva Math. Notavelmente, esses padrões de pensamento de alto nível, abstraídos de apenas 500 amostras anteriores, generalizam-se efetivamente em várias tarefas e modelos. Isso destaca o potencial do TAPO para aplicações mais amplas em múltiplas tarefas e domínios. Nossa análise adicional revela que a introdução de orientações externas produz modelos de raciocínio poderosos com superior explicabilidade do comportamento de inferência e maior legibilidade das saídas.
O rápido crescimento dos assistentes de voz alimentados por modelos de linguagem de grande escala (LLM) destacou a necessidade de dados de instrução de fala para treinar esses sistemas. Apesar da abundância de dados de reconhecimento de fala, há uma escassez notável de dados de instrução de fala, que são essenciais para ajustar modelos a fim de compreender e executar comandos falados. A geração de fala sintética de alta qualidade requer um bom modelo de conversão de texto em fala (TTS), que pode não estar disponível para idiomas de baixos recursos. Nossa abordagem inovadora enfrenta esse desafio interrompendo a síntese no nível de representação semântica, eliminando a necessidade de TTS. Isso é alcançado alinhando representações semânticas sintéticas com o codificador Whisper pré-treinado, permitindo que um LLM seja ajustado em instruções de texto enquanto mantém a capacidade de compreender instruções faladas durante a inferência. Esse processo de treinamento simplificado é uma abordagem promissora para a construção de assistentes de voz para idiomas de baixos recursos.
A engenharia de front-end envolve um fluxo de trabalho complexo no qual os engenheiros conceituam designs, os traduzem em código e refinam iterativamente a implementação. Embora os benchmarks recentes se concentrem principalmente na conversão de designs visuais em código, apresentamos o FullFront, um benchmark projetado para avaliar Modelos de Linguagem Multimodais de Grande Escala (MLLMs) em todo o pipeline de desenvolvimento de front-end. O FullFront avalia três tarefas fundamentais que mapeiam diretamente o pipeline de engenharia de front-end: Design de Página Web (fase de conceituação), QA de Percepção de Página Web (compreensão da organização visual e dos elementos) e Geração de Código de Página Web (fase de implementação). Diferente dos benchmarks existentes, que utilizam sites raspados com código inflado ou HTML gerado por LLMs excessivamente simplificado, o FullFront emprega um processo inovador de duas etapas para transformar páginas web do mundo real em HTML limpo e padronizado, mantendo designs visuais diversos e evitando problemas de direitos autorais. Testes extensivos dos MLLMs mais avançados revelam limitações significativas na percepção de páginas, geração de código (especialmente no tratamento de imagens e layout) e implementação de interações. Nossos resultados demonstram quantitativamente as disparidades de desempenho entre modelos e tarefas, e destacam uma lacuna substancial entre as capacidades atuais dos MLLMs e o desempenho de especialistas humanos em engenharia de front-end. O benchmark FullFront e o código estão disponíveis em https://github.com/Mikivishy/FullFront.
O rápido avanço dos modelos nativos multimodais e omni-modelos, exemplificados por GPT-4o, Gemini e o3, com sua capacidade de processar e gerar conteúdo em múltiplas modalidades, como texto e imagens, marca um marco significativo na evolução da inteligência. A avaliação sistemática de suas capacidades de saída multimodal em processos de pensamento visual (também conhecido como cadeia de pensamento multimodal, M-CoT) torna-se extremamente importante. No entanto, os benchmarks existentes para avaliar modelos multimodais focam principalmente na avaliação de entradas multimodais e raciocínio baseado apenas em texto, negligenciando a importância do raciocínio por meio de saídas multimodais. Neste artigo, apresentamos um benchmark, denominado RBench-V, projetado para avaliar as habilidades de raciocínio indispensáveis à visão dos modelos. Para construir o RBench-V, selecionamos cuidadosamente 803 questões que abrangem matemática, física, contagem e jogos. Diferente de benchmarks anteriores que geralmente especificam certas modalidades de entrada, o RBench-V apresenta problemas centrados em saídas multimodais, que exigem manipulação de imagens, como a geração de novas imagens e a construção de linhas auxiliares para apoiar o processo de raciocínio. Avaliamos diversos modelos de código aberto e fechado no RBench-V, incluindo o3, Gemini 2.5 Pro, Qwen2.5-VL, entre outros. Mesmo o modelo de melhor desempenho, o3, alcança apenas 25,8% de precisão no RBench-V, muito abaixo da pontuação humana de 82,3%, destacando que os modelos atuais têm dificuldade em aproveitar o raciocínio multimodal. Dados e código estão disponíveis em https://evalmodels.github.io/rbenchv.
A restauração de imagens noturnas afetadas por múltiplas condições climáticas adversas é um problema de pesquisa prático, porém pouco explorado, uma vez que várias condições climáticas frequentemente coexistem no mundo real, juntamente com diversos efeitos de iluminação durante a noite. Este artigo explora pela primeira vez a tarefa desafiadora de restauração de imagens noturnas em múltiplas condições climáticas, onde vários tipos de degradações climáticas estão interligados com efeitos de flare. Para apoiar a pesquisa, contribuímos com o conjunto de dados AllWeatherNight, que apresenta imagens noturnas em grande escala e de alta qualidade com diversas degradações composicionais, sintetizadas usando nossa geração de degradação consciente da iluminação. Além disso, apresentamos o ClearNight, uma estrutura unificada de restauração de imagens noturnas, que remove efetivamente degradações complexas de uma só vez. Especificamente, o ClearNight extrai priores duais baseados em Retinex e guia explicitamente a rede para focar em regiões de iluminação irregular e conteúdos intrínsecos de textura, respectivamente, melhorando assim a eficácia da restauração em cenários noturnos. Para representar melhor as características comuns e únicas de múltiplas degradações climáticas, introduzimos um método de colaboração dinâmica específica-comum consciente do clima, que identifica degradações climáticas e seleciona adaptativamente as unidades candidatas ótimas associadas a tipos específicos de clima. Nosso ClearNight alcança desempenho de ponta tanto em imagens sintéticas quanto em imagens do mundo real. Experimentos abrangentes de ablação validam a necessidade do conjunto de dados AllWeatherNight, bem como a eficácia do ClearNight. Página do projeto: https://henlyta.github.io/ClearNight/mainpage.html
O raciocínio temporal é fundamental para que os Modelos de Linguagem de Grande Escala (LLMs) compreendam o mundo real. No entanto, trabalhos existentes negligenciam os desafios reais do raciocínio temporal: (1) informações temporais intensivas, (2) dinâmicas de eventos de rápida mudança e (3) dependências temporais complexas em interações sociais. Para preencher essa lacuna, propomos um benchmark multinível chamado TIME, projetado para raciocínio temporal em cenários do mundo real. O TIME consiste em 38.522 pares de perguntas e respostas, abrangendo 3 níveis com 11 sub-tarefas detalhadas. Esse benchmark engloba 3 subconjuntos de dados que refletem diferentes desafios do mundo real: TIME-Wiki, TIME-News e TIME-Dial. Realizamos experimentos extensivos em modelos de raciocínio e modelos sem raciocínio. Além disso, conduzimos uma análise aprofundada do desempenho do raciocínio temporal em diversos cenários e tarefas do mundo real, e resumimos o impacto do escalonamento no momento do teste nas capacidades de raciocínio temporal. Adicionalmente, lançamos o TIME-Lite, um subconjunto anotado manualmente para promover pesquisas futuras e avaliações padronizadas em raciocínio temporal. O código está disponível em https://github.com/sylvain-wei/TIME, e o conjunto de dados pode ser acessado em https://huggingface.co/datasets/SylvainWei/TIME.
O aprendizado por reforço (RL) é uma abordagem poderosa para adaptar modelos de base a tarefas especializadas, mas sua dependência de dados em grande escala rotulados por humanos limita sua adoção ampla. Introduzimos o Synthetic Data RL, uma estrutura simples e geral que ajusta modelos por reforço utilizando apenas dados sintéticos gerados a partir de uma definição de tarefa. Nosso método primeiro gera pares de perguntas e respostas a partir da definição da tarefa e de documentos recuperados, depois adapta a dificuldade da pergunta com base na capacidade de resolução do modelo, e seleciona perguntas usando a taxa média de acerto do modelo em amostras para o treinamento de RL. No Qwen-2.5-7B, nosso método alcança uma melhoria absoluta de 29,2% em relação ao modelo base no GSM8K (+2,9 pp vs. ajuste por instrução, +6,6 pp vs. Self-Instruct), 8,7% no MATH, 13,1% no GPQA (+7,0 pp vs. SynthLLM), 8,9% no MedQA, 17,7% no CQA (direito) e 13,7% no CFA (finanças). Ele supera o ajuste fino supervisionado sob o mesmo orçamento de dados e quase iguala o RL com dados humanos completos em diversos conjuntos de dados (por exemplo, +17,2 pp no GSM8K). A adição de 100 demonstrações humanas melhora o desempenho do GSM8K em apenas 0,4 pp, mostrando um valor agregado limitado. Ao reduzir a anotação de dados humanos, o Synthetic Data RL permite uma adaptação escalável e eficiente de modelos baseada em RL. Código e demonstrações estão disponíveis em https://github.com/gydpku/Data_Synthesis_RL/.
Ensinar grandes modelos de linguagem (LLMs) a serem fiéis ao contexto fornecido é crucial para a construção de sistemas confiáveis de busca de informações. Portanto, propomos um framework sistemático, CANOE, para melhorar a fidelidade dos LLMs em tarefas de geração tanto de curta quanto de longa duração, sem a necessidade de anotações humanas. Especificamente, primeiro sintetizamos dados de perguntas e respostas (QA) de curta duração com quatro tarefas diversas para construir dados de treinamento de alta qualidade e facilmente verificáveis sem anotação humana. Além disso, propomos o Dual-GRPO, um método de aprendizado por reforço baseado em regras que inclui três recompensas baseadas em regras personalizadas derivadas dos dados de QA de curta duração sintetizados, enquanto otimiza simultaneamente a geração de respostas tanto de curta quanto de longa duração. Notavelmente, o Dual-GRPO elimina a necessidade de rotular manualmente dados de preferência para treinar modelos de recompensa e evita a superotimização da geração de curta duração ao depender apenas dos dados de QA de curta duração sintetizados. Os resultados experimentais mostram que o CANOE melhora significativamente a fidelidade dos LLMs em 11 tarefas subsequentes diferentes, superando até mesmo os LLMs mais avançados, como o GPT-4o e o OpenAI o1.
O Trinity-RFT é uma estrutura de propósito geral, flexível e escalável projetada para o ajuste fino por reforço (RFT) de modelos de linguagem de grande escala. Ele é construído com um design desacoplado, consistindo em (1) um núcleo RFT que unifica e generaliza modos síncronos/assíncronos, on-policy/off-policy e online/offline de RFT, (2) uma integração perfeita para interação agente-ambiente com alta eficiência e robustez, e (3) pipelines de dados sistemáticos otimizados para RFT. O Trinity-RFT pode ser facilmente adaptado para diversos cenários de aplicação e serve como uma plataforma unificada para explorar paradigmas avançados de aprendizado por reforço. Este relatório técnico descreve a visão, características, design e implementações do Trinity-RFT, acompanhado por exemplos extensos que demonstram a utilidade e a facilidade de uso da estrutura proposta.
Apresentamos o ScanBot, um novo conjunto de dados projetado para varredura de superfície de alta precisão condicionada por instruções em sistemas robóticos. Em contraste com os conjuntos de dados existentes para aprendizado de robôs que se concentram em tarefas amplas, como preensão, navegação ou diálogo, o ScanBot visa atender às demandas de alta precisão da varredura a laser industrial, onde a continuidade do caminho em escala sub-milimétrica e a estabilidade dos parâmetros são críticas. O conjunto de dados abrange trajetórias de varredura a laser executadas por um robô em 12 objetos diversos e 6 tipos de tarefas, incluindo varreduras de superfície completa, regiões focadas em geometria, partes com referência espacial, estruturas funcionalmente relevantes, inspeção de defeitos e análise comparativa. Cada varredura é guiada por instruções em linguagem natural e acompanhada de perfis sincronizados de RGB, profundidade e laser, além da pose do robô e estados das juntas. Apesar dos avanços recentes, os modelos existentes de visão-linguagem-ação (VLA) ainda falham em gerar trajetórias de varredura estáveis sob instruções refinadas e demandas de precisão do mundo real. Para investigar essa limitação, avaliamos uma variedade de modelos de linguagem multimodal de grande escala (MLLMs) em todo o ciclo de percepção-planejamento-execução, revelando desafios persistentes no seguimento de instruções sob restrições realistas.
A rápida implantação de modelos de visão e linguagem (VLMs) amplifica os riscos de segurança, mas a maioria das avaliações depende de imagens artificiais. Este estudo questiona: Quão seguros são os VLMs atuais quando confrontados com imagens de memes que usuários comuns compartilham? Para investigar essa questão, introduzimos o MemeSafetyBench, um benchmark de 50.430 instâncias que emparelha imagens reais de memes com instruções tanto prejudiciais quanto benignas. Utilizando uma taxonomia abrangente de segurança e geração de instruções baseada em LLMs, avaliamos múltiplos VLMs em interações de turno único e múltiplos. Investigamos como os memes do mundo real influenciam saídas prejudiciais, os efeitos mitigadores do contexto conversacional e a relação entre a escala do modelo e as métricas de segurança. Nossos resultados demonstram que os VLMs mostram maior vulnerabilidade a prompts prejudiciais baseados em memes do que a imagens sintéticas ou tipográficas. Os memes aumentam significativamente as respostas prejudiciais e diminuem as recusas em comparação com entradas apenas de texto. Embora as interações de múltiplos turnos forneçam uma mitigação parcial, a vulnerabilidade elevada persiste. Esses resultados destacam a necessidade de avaliações ecologicamente válidas e mecanismos de segurança mais robustos.
Apesar dos recentes avanços na geração de texto para imagem (T2I), os modelos existentes frequentemente têm dificuldade em capturar fielmente as intenções do usuário a partir de prompts curtos e pouco especificados. Embora trabalhos anteriores tenham tentado aprimorar os prompts usando modelos de linguagem de grande escala (LLMs), esses métodos frequentemente geram conteúdo estilizado ou irrealista devido à falta de fundamentação em semântica visual e composição do mundo real. Inspirados pelos recentes avanços no raciocínio para modelos de linguagem, propomos o RePrompt, uma nova estrutura de reprompting que introduz raciocínio explícito no processo de aprimoramento de prompts por meio de aprendizado por reforço. Em vez de depender de regras manuais ou reescritas estilizadas, nosso método treina um modelo de linguagem para gerar prompts estruturados e autorreflexivos, otimizando os resultados em nível de imagem. Os modelos de recompensa personalizados avaliam as imagens geradas em termos de preferência humana, alinhamento semântico e composição visual, fornecendo supervisão indireta para refinar a geração de prompts. Nossa abordagem permite o treinamento de ponta a ponta sem dados anotados manualmente. Experimentos no GenEval e no T2I-Compbench mostram que o RePrompt aumenta significativamente a fidelidade do layout espacial e a generalização composicional em diversas arquiteturas T2I, estabelecendo novos resultados de estado da arte.
Modelos de linguagem de grande escala são tipicamente adaptados para tarefas subsequentes por meio de ajuste fino supervisionado em dados específicos de domínio. Embora o ajuste fino padrão se concentre em minimizar a perda de geração para otimizar os parâmetros do modelo, damos um passo mais profundo ao reter e aproveitar os sinais de aprendizado do próprio modelo, de forma análoga a como aprendizes humanos refletem sobre erros passados para melhorar o desempenho futuro. Primeiro, introduzimos o conceito de Registro de Erros (Mistake Log) para rastrear sistematicamente o comportamento de aprendizado do modelo e os erros recorrentes durante o ajuste fino. Tratando o modelo original baseado em transformadores como o Piloto, projetamos correspondentemente um modelo Copiloto para refinar o desempenho de inferência do Piloto por meio da retificação de logits. Nomeamos o framework geral de Piloto-Copiloto como Transformer Copilot, que introduz (i) um novo design de modelo Copiloto, (ii) um paradigma de treinamento conjunto onde o Copiloto aprende continuamente com o Registro de Erros em evolução ao lado do Piloto, e (iii) um paradigma de inferência fundida onde o Copiloto retifica os logits do Piloto para uma geração aprimorada. Fornecemos análises teóricas e empíricas sobre nosso novo framework de aprendizado. Experimentos em 12 benchmarks abrangendo tarefas de senso comum, aritmética e recomendação demonstram que o Transformer Copilot melhora consistentemente o desempenho em até 34,5%, enquanto introduz uma sobrecarga computacional marginal aos modelos Piloto e exibe forte escalabilidade e transferibilidade.
Apresentamos o RIPT-VLA, um paradigma simples e escalável de pós-treinamento interativo baseado em aprendizado por reforço que ajusta modelos pré-treinados de Visão-Linguagem-Ação (VLA) utilizando apenas recompensas binárias esparsas de sucesso. Os pipelines de treinamento de VLA existentes dependem fortemente de dados de demonstração especializada offline e de imitação supervisionada, limitando sua capacidade de se adaptar a novas tarefas e ambientes em regimes de baixo volume de dados. O RIPT-VLA aborda essa limitação ao permitir o pós-treinamento interativo com um algoritmo estável de otimização de políticas baseado em amostragem dinâmica de rollouts e estimativa de vantagem leave-one-out. O RIPT-VLA possui as seguintes características. Primeiro, ele se aplica a diversos modelos VLA, resultando em uma melhoria de 21,2% no modelo leve QueST e levando o modelo OpenVLA-OFT de 7B a uma taxa de sucesso sem precedentes de 97,5%. Segundo, ele é computacionalmente eficiente e eficiente em termos de dados: com apenas uma demonstração, o RIPT-VLA permite que um modelo SFT inicialmente inviável (4%) atinja uma taxa de sucesso de 97% em 15 iterações. Além disso, demonstramos que a política aprendida pelo RIPT-VLA generaliza-se em diferentes tarefas e cenários e é robusta ao contexto do estado inicial. Esses resultados destacam o RIPT-VLA como um paradigma prático e eficaz para o pós-treinamento de modelos VLA com supervisão mínima.
A geração de vídeo controlável (CVG) avançou rapidamente, mas os sistemas atuais falham quando mais de um ator precisa se mover, interagir e trocar de posições sob sinais de controle ruidosos. Abordamos essa lacuna com o DanceTogether, o primeiro framework de difusão end-to-end que transforma uma única imagem de referência mais fluxos independentes de máscaras de pose em vídeos longos e foto-realistas, preservando estritamente cada identidade. Um novo MaskPoseAdapter vincula "quem" e "como" em cada etapa de remoção de ruído, fundindo máscaras de rastreamento robustas com mapas de calor de pose semanticamente ricos, porém ruidosos, eliminando o desvio de identidade e a mistura de aparência que afetam pipelines baseados em quadros. Para treinar e avaliar em escala, introduzimos (i) PairFS-4K, 26 horas de filmagem de duplas de patinadores com mais de 7.000 IDs distintos, (ii) HumanRob-300, um conjunto de uma hora de interação humanoide-robô para transferência rápida entre domínios, e (iii) TogetherVideoBench, um benchmark de três trilhas centrado no conjunto de testes DanceTogEval-100, cobrindo dança, boxe, luta livre, ioga e patinação artística. No TogetherVideoBench, o DanceTogether supera os métodos anteriores por uma margem significativa. Além disso, mostramos que um ajuste fino de uma hora produz vídeos convincentes de humano-robô, destacando uma ampla generalização para tarefas de IA incorporada e interação humano-robô (HRI). Ablações extensas confirmam que a vinculação persistente entre identidade e ação é crucial para esses ganhos. Juntos, nosso modelo, conjuntos de dados e benchmark elevam a CVG da coreografia de um único sujeito para interações multi-ator controláveis de forma composicional, abrindo novas possibilidades para produção digital, simulação e inteligência incorporada. Nossos vídeos de demonstração e código estão disponíveis em https://DanceTog.github.io/.
Algoritmos de gradiente de política têm sido aplicados com sucesso para aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs). Apesar do uso generalizado da regularização de Kullback-Leibler (KL) em algoritmos de gradiente de política para estabilizar o treinamento, a exploração sistemática de como diferentes formulações de divergência KL podem ser estimadas e integradas em funções de perda substitutas para aprendizado por reforço (RL) online apresenta um espaço de design sutil e sistematicamente explorável. Neste artigo, propomos o gradiente de política regularizado (RPG), uma estrutura sistemática para derivar e analisar métodos de gradiente de política regularizados por KL no cenário de RL online. Derivamos gradientes de política e funções de perda substitutas correspondentes para objetivos regularizados por divergências KL direta e reversa, considerando distribuições de política normalizadas e não normalizadas. Além disso, apresentamos derivações para funções de perda totalmente diferenciáveis, bem como estimadores de gradiente no estilo REINFORCE, atendendo a diversas necessidades algorítmicas. Realizamos experimentos extensivos em RL para raciocínio em LLMs utilizando esses métodos, mostrando resultados melhorados ou competitivos em termos de estabilidade de treinamento e desempenho em comparação com baselines robustos como GRPO, REINFORCE++ e DAPO. O código está disponível em https://github.com/complex-reasoning/RPG.
Os avanços recentes em agentes de LLM têm se baseado amplamente em estruturas de raciocínio como o ReAct, que intercala pensamento e ação em ambientes complexos. No entanto, o ReAct frequentemente produz etapas de raciocínio desconexas ou sem fundamento, levando a um desalinhamento entre o estado real do agente e seu objetivo. Nossa análise revela que isso decorre da incapacidade do ReAct de manter crenças internas consistentes e alinhamento com o objetivo, causando erros cumulativos e alucinações. Para resolver isso, introduzimos o ReflAct, uma nova estrutura que muda o raciocínio de apenas planejar as próximas ações para refletir continuamente sobre o estado do agente em relação ao seu objetivo. Ao fundamentar explicitamente as decisões nos estados e reforçar o alinhamento contínuo com o objetivo, o ReflAct melhora drasticamente a confiabilidade estratégica. Esse design traz ganhos empíricos substanciais: o ReflAct supera o ReAct em média 27,7%, alcançando uma taxa de sucesso de 93,3% no ALFWorld. Notavelmente, o ReflAct até supera o ReAct com módulos de aprimoramento adicionais (por exemplo, Reflexion, WKM), mostrando que fortalecer a estrutura central de raciocínio é fundamental para o desempenho confiável do agente.
Neste artigo, propomos um método simples e eficiente para o treinamento de modelos de valor em traços de raciocínio de contexto longo. Em comparação com os modelos de recompensa de processo (PRMs) existentes, nosso método não requer uma noção detalhada de "etapa", que é difícil de definir para modelos de raciocínio de contexto longo. Ao coletar um conjunto de dados de 2,5 milhões de traços de raciocínio, treinamos um modelo de valor em nível de token de 1,5B e o aplicamos aos modelos DeepSeek para melhorar o desempenho com escalonamento de computação em tempo de teste. Descobrimos que a busca guiada por valor (VGS) em blocos com uma votação majoritária ponderada final alcança um escalonamento em tempo de teste melhor do que métodos padrão, como votação majoritária ou best-of-n. Com um orçamento de inferência de 64 gerações, o VGS com o DeepSeek-R1-Distill-1.5B alcança uma precisão média de 45,7% em quatro benchmarks de matemática competitiva (AIME 2024 & 2025, HMMT Fev 2024 & 2025), atingindo paridade com o o3-mini-medium. Além disso, o VGS reduz significativamente os FLOPs de inferência necessários para alcançar o mesmo desempenho da votação majoritária. Nosso conjunto de dados, modelo e base de código são de código aberto.
Este artigo apresenta uma descoberta fascinante: ao treinar um modelo de LLM auto-regressivo em tokens de texto, o modelo de texto desenvolve internamente, de forma inerente, a capacidade de compreender imagens e áudio, adquirindo assim a habilidade de ver e ouvir apenas por meio da leitura. Modelos populares de LLM para áudio e visão ajustam modelos de LLM de texto para gerar saídas de texto condicionadas a embeddings de imagens e áudio. Por outro lado, nossa arquitetura recebe como entrada segmentos de imagens, formas de onda de áudio ou tokens. Ela nos fornece embeddings ou rótulos de categoria típicos de um pipeline de classificação. Demonstramos a generalidade dos pesos de texto ao auxiliar a classificação de áudio para os conjuntos de dados FSD-50K e GTZAN. Além disso, mostramos que isso funciona para classificação de imagens no CIFAR-10 e Fashion-MNIST, bem como em segmentos de imagens. Isso reforça a noção de que LLMs de texto aprendem circuitos internos poderosos que podem ser utilizados ao ativar as conexões necessárias para diversas aplicações, em vez de treinar modelos do zero todas as vezes.
As conexões residuais são fundamentais para redes neurais profundas, permitindo maior profundidade ao mitigar o problema de gradientes que desaparecem. No entanto, nas atualizações residuais padrão, a saída do módulo é adicionada diretamente ao fluxo de entrada. Isso pode levar a atualizações que predominantemente reforçam ou modulam a direção do fluxo existente, potencialmente subutilizando a capacidade do módulo de aprender características completamente novas. Neste trabalho, introduzimos a Atualização Residual Ortogonal: decompomos a saída do módulo em relação ao fluxo de entrada e adicionamos apenas o componente ortogonal a esse fluxo. Esse design visa orientar os módulos a contribuir principalmente com novas direções de representação, promovendo um aprendizado de características mais rico e um treinamento mais eficiente. Demonstramos que nossa estratégia de atualização ortogonal melhora a acurácia de generalização e a estabilidade do treinamento em diversas arquiteturas (ResNetV2, Vision Transformers) e conjuntos de dados (CIFARs, TinyImageNet, ImageNet-1k), alcançando, por exemplo, um ganho de +4,3\%p na acurácia top-1 para o ViT-B no ImageNet-1k.
À medida que os Modelos de Linguagem de Grande Escala (LLMs) são cada vez mais implantados em domínios sensíveis, como empresas e governos, garantir que eles adiram às políticas de segurança definidas pelo usuário dentro do contexto é crucial — especialmente no que diz respeito à não divulgação de informações. Embora estudos anteriores sobre LLMs tenham se concentrado na segurança geral e em dados socialmente sensíveis, ainda faltam benchmarks em grande escala para a preservação da segurança contextual contra ataques. Para abordar essa lacuna, introduzimos um novo conjunto de dados de benchmark em grande escala, o CoPriva, que avalia a adesão dos LLMs a políticas contextuais de não divulgação em tarefas de resposta a perguntas. Derivado de contextos realistas, nosso conjunto de dados inclui políticas explícitas e consultas projetadas como ataques diretos e indiretos desafiadores que buscam informações proibidas. Avaliamos 10 LLMs em nosso benchmark e revelamos uma vulnerabilidade significativa: muitos modelos violam as políticas definidas pelo usuário e vazam informações sensíveis. Essa falha é particularmente grave contra ataques indiretos, destacando uma lacuna crítica no alinhamento de segurança dos LLMs atuais para aplicações sensíveis. Nossa análise revela que, embora os modelos frequentemente possam identificar a resposta correta para uma consulta, eles lutam para incorporar restrições de políticas durante a geração. Em contraste, eles exibem uma capacidade parcial de revisar as saídas quando explicitamente solicitados. Nossas descobertas ressaltam a necessidade urgente de métodos mais robustos para garantir a segurança contextual.
Avanços recentes, como o DeepSeek R1-Zero, destacam a eficácia do treinamento por incentivo, um paradigma de aprendizado por reforço que calcula recompensas com base apenas na parte final da resposta gerada por um modelo de linguagem, incentivando assim a geração de etapas intermediárias de raciocínio. No entanto, esses métodos dependem fundamentalmente de verificadores externos, o que limita sua aplicabilidade a domínios como matemática e programação, onde tais verificadores estão prontamente disponíveis. Embora modelos de recompensa possam atuar como verificadores, eles exigem dados anotados de alta qualidade e são custosos para treinar. Neste trabalho, propomos o NOVER, NO-VERifier Reinforcement Learning, um framework geral de aprendizado por reforço que requer apenas dados padrão de ajuste fino supervisionado, sem a necessidade de um verificador externo. O NOVER permite o treinamento por incentivo em uma ampla gama de tarefas de texto para texto e supera o modelo de mesmo tamanho destilado de grandes modelos de raciocínio, como o DeepSeek R1 671B, em 7,7%. Além disso, a flexibilidade do NOVER abre novas possibilidades para a otimização de grandes modelos de linguagem, como o treinamento por incentivo inverso.
O Mixture-of-Experts (MoE) permite a escalabilidade eficiente de grandes modelos de linguagem (LLMs) com especialistas esparsamente ativados durante a inferência. Para implantar efetivamente grandes modelos MoE em dispositivos com memória limitada, muitos sistemas introduzem o *offloading de especialistas*, que armazena em cache um subconjunto de especialistas na memória rápida, deixando outros na memória lenta para serem executados na CPU ou carregados sob demanda. Embora algumas pesquisas tenham explorado a localidade das ativações de especialistas, onde tokens consecutivos ativam especialistas semelhantes, o grau dessa **consistência de roteamento local** varia entre os modelos e permanece pouco estudado. Neste artigo, propomos duas métricas para medir a consistência de roteamento local de modelos MoE: (1) **Segment Routing Best Performance (SRP)**, que avalia quão bem um grupo fixo de especialistas pode cobrir as necessidades de um segmento de tokens, e (2) **Segment Cache Best Hit Rate (SCH)**, que mede a taxa de acerto ideal em nível de segmento sob um limite de tamanho de cache. Analisamos 20 LLMs MoE com diversos tamanhos e arquiteturas e descobrimos que modelos que aplicam MoE em todas as camadas e não usam especialistas compartilhados exibem a maior consistência de roteamento local. Além disso, mostramos que especialistas especializados em domínios contribuem mais para a consistência de roteamento do que aqueles especializados em vocabulário, e que a maioria dos modelos pode equilibrar eficácia e eficiência de cache com tamanhos de cache aproximadamente 2x o número de especialistas ativos. Essas descobertas abrem caminho para o design e implantação de MoE com eficiência de memória sem comprometer a velocidade de inferência. Publicamos o código para replicar os experimentos em https://github.com/ljcleo/moe-lrc.
Modelos de Raciocínio de Grande Escala (LRMs) demonstraram capacidades notáveis em raciocínio de múltiplos passos e em chamar motores de busca em etapas apropriadas. No entanto, as abordagens existentes de raciocínio aumentado por recuperação dependem de modelos de recuperação separados, limitando o papel do LRM na recuperação a decidir quando recuperar e como consultar. Essa separação não apenas aumenta os custos de hardware e operacionais, mas também leva a erros no processo de recuperação devido ao gargalo de representação, um fenômeno em que o espaço de incorporação do recuperador não é expressivo o suficiente para atender às necessidades do gerador. Para resolver isso, mudamos nossa perspectiva de correspondência sequência-para-sequência para localizar os caminhos que contêm a resposta dentro do corpus, e propomos uma nova estrutura chamada FREESON (Raciocínio Aumentado por Recuperação SEM Recuperador). Essa estrutura permite que os LRMs recuperem conhecimento relevante por conta própria, atuando tanto como gerador quanto como recuperador. Para alcançar isso, introduzimos uma variante do algoritmo MCTS especializada para a tarefa de recuperação, que chamamos de CT-MCTS (Busca em Árvore de Monte Carlo de Travessia de Corpus). Nesse algoritmo, os LRMs percorrem o corpus em direção a regiões que contêm respostas. Nossos resultados em cinco benchmarks de QA de domínio aberto, incluindo perguntas de salto único e de múltiplos saltos, mostram que o FREESON alcança uma melhoria média de 14,4% em EM e F1 sobre quatro modelos de raciocínio de múltiplos passos com um recuperador separado, e também tem um desempenho comparável ao baseline mais forte, superando-o em 3% no PopQA e 2WikiMultihopQA.
O RAG iterativo para respostas a perguntas de múltiplos saltos enfrenta desafios com contextos extensos e o acúmulo de informações irrelevantes. Isso prejudica a capacidade de um modelo de processar e raciocinar sobre o conteúdo recuperado e limita o desempenho. Embora métodos recentes se concentrem na compressão das informações recuperadas, eles são restritos ao RAG de rodada única, exigem ajuste fino ou carecem de escalabilidade no RAG iterativo. Para abordar esses desafios, propomos o método Notes Writing, que gera notas concisas e relevantes a partir de documentos recuperados em cada etapa, reduzindo assim o ruído e mantendo apenas as informações essenciais. Isso aumenta indiretamente o comprimento efetivo do contexto dos Modelos de Linguagem de Grande Escala (LLMs), permitindo que eles raciocinem e planejem de forma mais eficaz ao processar volumes maiores de texto de entrada. O Notes Writing é independente de framework e pode ser integrado a diferentes métodos de RAG iterativo. Demonstramos sua eficácia com três métodos de RAG iterativo, em dois modelos e quatro conjuntos de dados de avaliação. O Notes Writing resulta em uma melhoria média de 15,6 pontos percentuais no geral, com um aumento mínimo no número de tokens de saída.
Aprimorar as capacidades linguísticas dos Modelos de Linguagem de Grande Escala (LLMs) para incluir idiomas de baixo recurso é uma área de pesquisa crítica. As direções atuais de pesquisa dependem predominantemente de dados sintéticos gerados pela tradução de corpora em inglês, que, embora demonstrem compreensão linguística e habilidades de tradução promissoras, frequentemente resultam em modelos alinhados com a cultura do idioma de origem. Esses modelos frequentemente falham em representar o patrimônio cultural e os valores das comunidades locais. Este trabalho propõe uma metodologia para criar dados de pré-treinamento tanto sintéticos quanto baseados em recuperação, adaptados a uma comunidade específica, considerando (i) seu idioma, (ii) patrimônio cultural e (iii) valores culturais. Demonstramos nossa metodologia usando os dialetos egípcio e marroquino como casos de teste, escolhidos por sua riqueza linguística e cultural e sua atual sub-representação nos LLMs. Como prova de conceito, desenvolvemos o NileChat, um LLM com 3 bilhões de parâmetros adaptado para as comunidades egípcia e marroquina, incorporando seu idioma, patrimônio cultural e valores. Nossos resultados em vários benchmarks de compreensão, tradução e alinhamento cultural e de valores mostram que o NileChat supera os LLMs existentes voltados para o árabe de tamanho similar e tem desempenho comparável a modelos maiores. Compartilhamos nossos métodos, dados e modelos com a comunidade para promover a inclusão e cobertura de comunidades mais diversas no desenvolvimento de LLMs.
Neste artigo, apresentamos o FuxiMT, um modelo inovador de tradução automática multilíngue centrado no chinês, impulsionado por um modelo de linguagem grande (LLM) esparsificado. Adotamos uma estratégia de duas etapas para treinar o FuxiMT. Primeiro, pré-treinamos o modelo em um extenso corpus chinês e, em seguida, realizamos um ajuste fino multilíngue em um grande conjunto de dados paralelos que abrange 65 idiomas. O FuxiMT incorpora a abordagem Mixture-of-Experts (MoEs) e emprega uma estratégia de aprendizado curricular para garantir um desempenho robusto em diversos níveis de recursos. Os resultados experimentais demonstram que o FuxiMT supera significativamente as linhas de base fortes, incluindo LLMs e modelos de tradução automática de última geração, especialmente em cenários de baixos recursos. Além disso, o FuxiMT exibe capacidades notáveis de tradução zero-shot para pares de idiomas não vistos, indicando seu potencial para preencher lacunas de comunicação onde dados paralelos são escassos ou indisponíveis.
A sequenciação de novo de peptídeos é uma tarefa crítica em proteômica. No entanto, o desempenho dos métodos atuais baseados em aprendizado profundo é limitado pela complexidade inerente dos dados de espectrometria de massa e pela distribuição heterogênea de sinais de ruído, resultando em vieses específicos dos dados. Apresentamos o RankNovo, o primeiro framework de reclassificação profunda que aprimora a sequenciação de novo de peptídeos ao aproveitar os pontos fortes complementares de múltiplos modelos de sequenciação. O RankNovo emprega uma abordagem de reclassificação baseada em listas, modelando peptídeos candidatos como alinhamentos de múltiplas sequências e utilizando atenção axial para extrair características informativas entre os candidatos. Além disso, introduzimos duas novas métricas, PMD (Desvio de Massa de Peptídeo) e RMD (Desvio de Massa Residual), que oferecem supervisão refinada ao quantificar as diferenças de massa entre peptídeos tanto no nível da sequência quanto no nível dos resíduos. Experimentos extensivos demonstram que o RankNovo não apenas supera seus modelos base usados para gerar candidatos de treinamento para pré-treinamento de reclassificação, mas também estabelece um novo benchmark de estado da arte. Além disso, o RankNovo exibe forte generalização zero-shot para modelos não vistos cujas gerações não foram expostas durante o treinamento, destacando sua robustez e potencial como um framework universal de reclassificação para sequenciação de peptídeos. Nosso trabalho apresenta uma nova estratégia de reclassificação que desafia fundamentalmente os paradigmas existentes de modelo único e avança a fronteira da sequenciação de novo precisa. Nosso código-fonte está disponível no GitHub.