Artigos de pesquisa em IA selecionados diariamente com traduções
Neste relatório, apresentamos o ERNIE 5.0, um modelo de base nativamente autorregressivo projetado para compreensão e geração multimodal unificada em texto, imagem, vídeo e áudio. Todas as modalidades são treinadas desde o início sob um objetivo unificado de previsão do próximo grupo de *tokens*, com base numa arquitetura ultraesparsa de mistura de especialistas (*Mixture-of-Experts - MoE*) com roteamento de especialistas agnóstico à modalidade. Para enfrentar os desafios práticos da implantação em larga escala sob diversas restrições de recursos, o ERNIE 5.0 adota um novo paradigma de treinamento elástico. Num único ciclo de pré-treinamento, o modelo aprende uma família de submodelos com profundidades, capacidades de especialistas e esparsidade de roteamento variáveis, permitindo compensações flexíveis entre desempenho, tamanho do modelo e latência de inferência em cenários com restrições de memória ou tempo. Além disso, abordamos sistematicamente os desafios de escalar o aprendizado por reforço para modelos de base unificados, garantindo assim um pós-treinamento eficiente e estável sob arquiteturas MoE ultraesparsas e diversas configurações multimodais. Experimentos extensivos demonstram que o ERNIE 5.0 alcança um desempenho forte e equilibrado em múltiplas modalidades. Até onde sabemos, entre os modelos divulgados publicamente, o ERNIE 5.0 representa a primeira realização em escala de produção de um modelo autorregressivo unificado com parâmetros na ordem de trilhões que suporta tanto a compreensão quanto a geração multimodal. Para facilitar pesquisas futuras, apresentamos visualizações detalhadas do roteamento de especialistas agnóstico à modalidade no modelo unificado, juntamente com uma análise empírica abrangente do treinamento elástico, visando oferecer insights profundos para a comunidade.
A implantação de Modelos de Linguagem de Grande Porte (LLMs) enfrenta um gargalo crítico ao processar entradas extensas: a pegada de memória proibitiva da cache de Chave-Valor (KV). Para resolver este gargalo, o paradigma de poda de *tokens* aproveita a esparsidade da atenção para reter seletivamente um subconjunto pequeno e crítico de *tokens*. No entanto, as abordagens existentes são insuficientes: os métodos estáticos arriscam uma perda irreversível de informação, e as estratégias dinâmicas empregam heurísticas que capturam de forma insuficiente a natureza dependente da consulta da importância dos *tokens*. Propomos o FASA, uma nova estrutura que alcança a evicção de *tokens* consciente da consulta através da previsão dinâmica da sua importância. O FASA decorre de uma nova perceção sobre o RoPE: a descoberta de esparsidade funcional ao nível do segmento de frequência (FC). A nossa principal descoberta é que um subconjunto pequeno e identificável de FCs "dominantes" exibe consistentemente uma alta concordância contextual com a cabeça de atenção completa. Isto fornece um *proxy* robusto e computacionalmente gratuito para identificar *tokens* salientes. Com base nesta perceção, o FASA identifica primeiro um conjunto crítico de *tokens* usando FCs dominantes e, em seguida, executa o cálculo de atenção focado apenas neste subconjunto podado. Como acede apenas a uma pequena fração da cache KV, o FASA reduz drasticamente os requisitos de largura de banda de memória e o custo computacional. Num espectro de tarefas de contexto longo, desde a modelação de sequências até ao raciocínio CoT complexo, o FASA supera consistentemente todas as linhas de base de evicção de *tokens* e alcança uma precisão quase-oráculo, demonstrando uma robustez notável mesmo sob orçamentos restritos. Notablemente, no LongBench-V1, o FASA atinge quase 100% do desempenho da cache KV completa mantendo apenas 256 *tokens* e alcança uma aceleração de 2,56 vezes usando apenas 18,9% da cache no AIME24.
Os avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) têm-se concentrado principalmente na escala de profundidade, em que um único agente resolve problemas de longo horizonte com raciocínio multi-etapas e uso de ferramentas. No entanto, à medida que as tarefas se tornam mais amplas, o principal gargalo desloca-se da competência individual para a capacidade organizacional. Neste trabalho, exploramos uma dimensão complementar de escala de largura com sistemas multiagente para abordar a busca de informação abrangente. Os sistemas multiagente existentes frequentemente dependem de fluxos de trabalho manuais e interações de tomada de turnos que não conseguem paralelizar o trabalho de forma eficaz. Para colmatar esta lacuna, propomos o WideSeek-R1, uma arquitetura de agente-líder-subagente treinada via aprendizagem por reforço multiagente (MARL) para sinergizar orquestração escalável e execução paralela. Ao utilizar um LLM partilhado com contextos isolados e ferramentas especializadas, o WideSeek-R1 otimiza conjuntamente o agente líder e os subagentes paralelos num conjunto de dados curado de 20 mil tarefas de busca de informação abrangente. Experimentos extensivos mostram que o WideSeek-R1-4B alcança uma pontuação F1 de item de 40,0% no benchmark WideSearch, o que é comparável ao desempenho do agente único DeepSeek-R1-671B. Além disso, o WideSeek-R1-4B exibe ganhos de desempenho consistentes à medida que o número de subagentes paralelos aumenta, destacando a eficácia da escala de largura.
Os Modelos de Recompensa de Processo Multimodal (MPRMs) são centrais para a supervisão a nível de etapa no raciocínio visual em MLLMs. O treinamento de MPRMs geralmente requer corpora anotados em larga escala com Monte Carlo (MC), incorrendo em custos substanciais de treinamento. Este artigo estuda a eficiência de dados para o treinamento de MPRMs. Nossos experimentos preliminares revelam que o treinamento de MPRMs satura rapidamente sob subamostragem aleatória dos dados de treinamento, indicando redundância substancial nos corpora anotados com MC existentes. Para explicar isso, formalizamos um arcabouço teórico e revelamos que as atualizações informativas do gradiente dependem de dois fatores: misturas de rótulos de etapas positivas/negativas e a confiabilidade do rótulo (pontuações médias de MC das etapas positivas). Guiados por essas percepções, propomos o *Balanced-Information Score* (BIS), que prioriza tanto a mistura quanto a confiabilidade com base nos sinais de MC existentes a nível de *rollout*, sem incorrer em custos adicionais. Em duas arquiteturas (InternVL2.5-8B e Qwen2.5-VL-7B) no VisualProcessBench, subconjuntos selecionados por BIS consistentemente igualam e até superam o desempenho com todos os dados usando pequenas frações. Notavelmente, o subconjunto BIS atinge o desempenho de dados completos usando apenas 10% dos dados de treinamento, melhorando em relação à subamostragem aleatória em 4,1% relativo.
Os Modelos de Linguagem de Grande Porte Omni-modais (Omni-LLMs) têm demonstrado capacidades robustas em tarefas de compreensão áudio-visual. No entanto, a sua dependência de longas sequências de tokens multimodais resulta em uma sobrecarga computacional substancial. Apesar deste desafio, os métodos de compressão de tokens concebidos para Omni-LLMs permanecem limitados. Para colmatar esta lacuna, propomos o OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), uma estrutura de compressão de tokens assimétrica em termos de modalidade, especialmente concebida para Omni-LLMs. Especificamente, o OmniSIFT adopta uma estratégia de compressão em duas etapas: (i) um módulo de poda de vídeo espaço-temporal que remove a redundância vídeo decorrente da estrutura intra-frame e da sobreposição inter-frame, e (ii) um módulo de seleção de áudio guiado por visão que filtra os tokens de áudio. Toda a estrutura é otimizada de ponta a ponta (*end-to-end*) através de um estimador diferenciável de passagem direta (*straight-through estimator*). Experiências extensas em cinco *benchmarks* representativos demonstram a eficácia e robustez do OmniSIFT. De forma notável, para o Qwen2.5-Omni-7B, o OmniSIFT introduz apenas 4,85 milhões de parâmetros, mantendo uma latência inferior à de linhas de base sem treino, como o OmniZip. Com apenas 25% do contexto original de tokens, o OmniSIFT supera consistentemente todas as linhas de base de compressão e até excede o desempenho do modelo com todos os tokens em várias tarefas.
Este trabalho introduz a Atenção Híbrida Esparsa (HySparse), uma nova arquitetura que intercala cada camada de atenção completa com várias camadas de atenção esparsa. Embora conceitualmente simples, a HySparse deriva estrategicamente a seleção de *tokens* e as *caches* KV de cada camada esparsa diretamente da camada de atenção completa precedente. Esta arquitetura resolve duas limitações fundamentais dos métodos anteriores de atenção esparsa. Primeiro, as abordagens convencionais geralmente dependem de *proxies* adicionais para prever a importância dos *tokens*, introduzindo complexidade extra e potencialmente um desempenho subótimo. Em contraste, a HySparse usa a camada de atenção completa como um oráculo preciso para identificar *tokens* importantes. Segundo, os projetos existentes de atenção esparsa frequentemente reduzem a computação sem economizar na *cache* KV. A HySparse permite que as camadas de atenção esparsa reutilizem a *cache* KV da atenção completa, reduzindo assim tanto a computação quanto a memória. Avaliamos a HySparse em modelos densos de 7B e modelos MoE de 80B. Em todas as configurações, a HySparse supera consistentemente tanto a atenção completa quanto as linhas de base híbridas SWA. Notavelmente, no modelo MoE de 80B com 49 camadas no total, apenas 5 camadas empregam atenção completa, e ainda assim a HySparse alcança ganhos substanciais de desempenho enquanto reduz o armazenamento da *cache* KV em quase 10 vezes.
A implantação de robôs humanoides em ambientes do mundo real é fundamentalmente desafiadora, uma vez que exige a integração rigorosa de perceção, locomoção e manipulação sob observações de informação parcial e em ambientes em mudança dinâmica. Tal como a transição robusta entre sub-tarefas de diferentes tipos. Para enfrentar estes desafios, propomos uma nova tarefa - EgoActing - que requer o enraizamento direto de instruções de alto nível em várias ações humanoides precisas e espacialmente conscientes. Instanciamos ainda esta tarefa através da introdução do EgoActor, um modelo unificado e escalável de visão-linguagem (VLM) que pode prever primitivas de locomoção (por exemplo, andar, virar, mover-se lateralmente, alterar a altura), movimentos da cabeça, comandos de manipulação e interações homem-robô para coordenar a perceção e a execução em tempo real. Aproveitamos uma ampla supervisão de dados egocêntricos apenas em RGB a partir de demonstrações do mundo real, questionários de raciocínio espacial e demonstrações em ambientes simulados, permitindo ao EgoActor tomar decisões robustas e contextualmente conscientes e realizar inferências de ação fluidas (inferiores a 1s) com modelos de 8B e 4B de parâmetros. Avaliações extensivas em ambientes simulados e do mundo real demonstram que o EgoActor efetivamente liga o planeamento abstrato de tarefas e a execução motora concreta, generalizando simultaneamente entre diversas tarefas e ambientes não vistos.
Apesar dos rápidos avanços na difusão de vídeo autoregressiva, um gargalo algorítmico emergente nos sistemas limita tanto a implantabilidade quanto a capacidade de geração: a memória da cache KV. Nos modelos de geração de vídeo autoregressivos, a cache KV cresce com o histórico de geração e rapidamente domina a memória da GPU, frequentemente excedendo 30 GB, o que impede a implantação em hardwares amplamente disponíveis. Mais criticamente, orçamentos restritos para a cache KV limitam a memória de trabalho efetiva, degradando diretamente a consistência de longo prazo na identidade, no layout e no movimento. Para enfrentar este desafio, apresentamos o Quant VideoGen (QVG), uma estrutura de quantização da cache KV livre de treinamento para modelos de difusão de vídeo autoregressivos. O QVG aproveita a redundância espaço-temporal do vídeo por meio de Suavização Semântica Consciente, produzindo resíduos de baixa magnitude e amigáveis à quantização. Introduz ainda a Quantização Progressiva de Resíduos, um esquema multiestágio de granularidade grossa para fina que reduz o erro de quantização, permitindo uma transição suave entre qualidade e memória. Nos benchmarks LongCat Video, HY WorldPlay e Self Forcing, o QVG estabelece uma nova fronteira de Pareto entre qualidade e eficiência de memória, reduzindo a memória da cache KV em até 7,0 vezes com uma sobrecarga de latência de ponta a ponta inferior a 4%, superando consistentemente as linhas de base existentes em qualidade de geração.
Os recentes avanços em agentes de LLM autónomos demonstram a sua capacidade de melhorar o desempenho através da interação iterativa com o ambiente. Definimos este paradigma como Melhoria em Tempo de Teste (TTI, do inglês *Test-Time Improvement*). No entanto, os mecanismos subjacentes ao sucesso ou fracasso da TTI permanecem pouco compreendidos, e as métricas de avaliação existentes não conseguem captar a sua eficiência na otimização de tarefas, a adaptação do comportamento após ações erróneas e a utilidade específica da memória de trabalho para a conclusão de tarefas. Para colmatar estas lacunas, propomos a Avaliação de Diagnóstico de Melhoria em Tempo de Teste (TIDE, do inglês *Test-time Improvement Diagnostic Evaluation*), uma estrutura agnóstica de agente e de ambiente que decompõe a TTI em três dimensões abrangentes e interligadas. A estrutura mede (1) a dinâmica temporal global da conclusão de tarefas e (2) identifica se o desempenho está primariamente limitado por comportamentos de ciclo recursivo ou (3) por uma memória acumulada onerosa. Através de experiências extensas em diversos agentes e ambientes, a TIDE evidencia que melhorar o desempenho do agente exige mais do que escalar o raciocínio interno, apelando à otimização explícita das dinâmicas de interação entre o agente e o ambiente.
A simulação de objetos deformáveis sob interações complexas continua sendo um desafio fundamental para a manipulação robótica real-para-sim, com dinâmicas conduzidas conjuntamente por efeitos ambientais e ações do robô. Os simuladores existentes dependem de física predefinida ou dinâmicas baseadas em dados sem controle condicionado pelo robô, limitando a precisão, a estabilidade e a generalização. Este artigo apresenta o SoMA, um simulador baseado em *Splatting* de Gaussianas 3D para manipulação de corpos moles. O SoMA acopla dinâmicas deformáveis, forças ambientais e ações articuladas do robô em um espaço neural latente unificado para simulação real-para-sim de ponta a ponta. A modelagem de interações sobre *splats* gaussianos aprendidos permite uma manipulação controlável, estável de longo horizonte e generalização além das trajetórias observadas, sem a necessidade de modelos físicos predefinidos. O SoMA melhora a precisão da re-simulação e a generalização na manipulação robótica do mundo real em 20%, permitindo a simulação estável de tarefas complexas, como a dobragem de tecido em longo horizonte.
Os Modelos de Linguagem Grande por Difusão (dLLMs) surgiram como uma alternativa promissora aos modelos de linguagem puramente autoregressivos, pois podem decodificar múltiplos tokens em paralelo. No entanto, os dLLMs state-of-the-art baseados em blocos dependem de um mecanismo de "remascaramento" que decodifica apenas os tokens mais confiáveis e descarta o resto, desperdiçando efetivamente computação. Demonstramos que reciclar a computação dos tokens descartados é benéfico, uma vez que esses tokens retêm informações contextuais úteis para iterações subsequentes de decodificação. Diante disso, propomos a Difusão de Contexto Residual (RCD), um módulo que converte essas representações de tokens descartados em resíduos contextuais e os injeta de volta para a próxima etapa de remoção de ruído. O RCD utiliza um pipeline de treinamento em dois estágios desacoplado para contornar os gargalos de memória associados à retropropagação. Validamos nosso método em modelos de raciocínio CoT longo (SDAR) e de seguimento de instruções CoT curto (LLaDA). Demonstramos que um dLLM padrão pode ser convertido eficientemente para o paradigma RCD com apenas ~1 bilhão de tokens. O RCD melhora consistentemente os dLLMs de fronteira em 5-10 pontos de precisão com sobrecarga computacional extra mínima em uma ampla gama de benchmarks. Notavelmente, nas tarefas mais desafiadoras do AIME, o RCD quase duplica a precisão da linha de base e atinge até 4-5x menos etapas de remoção de ruído em níveis de precisão equivalentes.
O aprendizado por reforço (RL) tornou-se um pilar fundamental para o ajuste fino de Modelos de Linguagem de Grande Porte (LLMs), sendo o Proximal Policy Optimization (PPO) o algoritmo padrão de fato. Apesar de sua ubiquidade, argumentamos que o mecanismo central de *clipping* da razão no PPO é estruturalmente inadequado para os grandes vocabulários inerentes aos LLMs. O PPO restringe as atualizações da política com base na razão de probabilidade dos *tokens* amostrados, que funciona como uma estimativa de Monte Carlo ruidosa de uma única amostra para a verdadeira divergência da política. Isso cria uma dinâmica de aprendizado subótima: atualizações para *tokens* de baixa probabilidade são agressivamente superpenalizadas, enquanto mudanças potencialmente catastróficas em *tokens* de alta probabilidade são sub-restritas, levando a ineficiência e instabilidade no treinamento. Para resolver isso, propomos o Divergence Proximal Policy Optimization (DPPO), que substitui o *clipping* heurístico por uma restrição mais fundamentada, baseada numa estimativa direta da divergência da política (por exemplo, Variação Total ou KL). Para evitar uma enorme pegada de memória, introduzimos as aproximações eficientes Binária e Top-K para capturar a divergência essencial com sobrecarga insignificante. Extensas avaliações empíricas demonstram que o DPPO alcança estabilidade e eficiência de treinamento superiores em comparação com os métodos existentes, oferecendo uma base mais robusta para o ajuste fino de LLMs baseado em RL.
Os modelos recentes de geração de texto para imagem baseados em DiT (Diffusion Transformer) adotam cada vez mais LLMs como codificadores de texto. No entanto, a condicionamento por texto permanece amplamente estático e frequentemente utiliza apenas uma única camada do LLM, apesar da pronunciada hierarquia semântica entre as camadas do LLM e da dinâmica de remoção de ruído não estacionária ao longo do tempo de difusão e da profundidade da rede. Para corresponder melhor ao processo dinâmico da geração DiT e, assim, melhorar a capacidade generativa do modelo de difusão, introduzimos uma estrutura unificada de fusão convexa normalizada equipada com portas (*gates*) leves para organizar sistematicamente os estados ocultos multi-camada do LLM por meio de fusão temporal, por profundidade e conjunta. Os experimentos estabelecem o Roteamento Semântico por Profundidade como a estratégia de condicionamento superior, melhorando consistentemente o alinhamento texto-imagem e a geração composicional (por exemplo, +9,97 na tarefa de Contagem do GenAI-Bench). Por outro lado, descobrimos que a fusão puramente temporal pode, paradoxalmente, degradar a fidelidade da geração visual. Atribuímos isso a um descompasso entre as trajetórias de treinamento e inferência: sob a orientação *classifier-free*, os intervalos de tempo nominais não conseguem rastrear a SNR (Relação Sinal-Ruído) efetiva, causando uma injeção de características semanticamente dessincronizada durante a inferência. No geral, nossos resultados posicionam o roteamento por profundidade como uma linha de base forte e eficaz e destacam a necessidade crítica de sinais conscientes da trajetória para permitir um condicionamento dependente do tempo robusto.
Embora os avanços recentes em representações neurais e modelos generativos tenham revolucionado a criação de conteúdo 3D, a área ainda permanece limitada por significativos gargalos de processamento de dados. Para enfrentar este problema, apresentamos o HY3D-Bench, um ecossistema de código aberto projetado para estabelecer uma base unificada e de alta qualidade para a geração 3D. Nossas contribuições são triplas: (1) Curamos uma biblioteca de 250 mil objetos 3D de alta fidelidade, destilados de repositórios em larga escala, empregando um pipeline rigoroso para entregar artefatos prontos para treinamento, incluindo malhas estanques e renderizações multi-visão; (2) Introduzimos uma decomposição estruturada a nível de partes, fornecendo a granularidade essencial para percepção refinada e edição controlável; e (3) Preenchemos lacunas de distribuição do mundo real por meio de um pipeline escalável de síntese AIGC (Conteúdo Gerado por IA), contribuindo com 125 mil ativos sintéticos para aumentar a diversidade em categorias de cauda longa. Validado empiricamente pelo treinamento do Hunyuan3D-2.1-Small, o HY3D-Bench democratiza o acesso a recursos de dados robustos, visando catalisar a inovação nas áreas de percepção 3D, robótica e criação de conteúdo digital.
As ilustrações científicas de alta qualidade são cruciais para comunicar eficazmente conceitos científicos e técnicos complexos, mas a sua criação manual continua a ser um estrangulamento amplamente reconhecido tanto na academia como na indústria. Apresentamos o FigureBench, o primeiro *benchmark* em larga escala para geração de ilustrações científicas a partir de textos científicos longos. Este contém 3.300 pares texto-figura de alta qualidade, abrangendo diversas tarefas de conversão de texto em ilustração provenientes de artigos científicos, revisões bibliográficas, *blogs* e livros didáticos. Além disso, propomos o AutoFigure, o primeiro *framework* agentico que gera automaticamente ilustrações científicas de alta qualidade com base em textos científicos longos. Especificamente, antes de renderizar o resultado final, o AutoFigure envolve-se num processo extensivo de raciocínio, recombinação e validação para produzir um *layout* que seja estruturalmente sólido e esteticamente refinado, gerando uma ilustração científica que alcança tanto a completude estrutural como o apelo estético. Aproveitando os dados de alta qualidade do FigureBench, realizamos experiências extensivas para testar o desempenho do AutoFigure em comparação com vários métodos de base. Os resultados demonstram que o AutoFigure supera consistentemente todos os métodos de base, produzindo ilustrações científicas prontas para publicação. O código, o conjunto de dados e o espaço *HuggingFace* são disponibilizados em https://github.com/ResearAI/AutoFigure.
O Group Relative Policy Optimization (GRPO) surgiu recentemente como uma abordagem prática para alinhar grandes modelos de linguagem com objetivos verificáveis. No entanto, sob recompensas terminais esparsas, o GRPO frequentemente estagna, pois as execuções (rollouts) dentro de um grupo recebem frequentemente recompensas idênticas, fazendo com que as vantagens relativas colapsem e as atualizações desapareçam. Propomos o GRPO alinhado com auto-dica e supervisão privilegiada (SAGE), uma estrutura de aprendizagem por reforço *on-policy* que injeta dicas privilegiadas durante o treinamento para remodelar a distribuição de execuções sob a mesma recompensa terminal do verificador. Para cada prompt *x*, o modelo amostra uma dica compacta *h* (por exemplo, um plano ou decomposição) e depois gera uma solução τ condicionada a (*x,h*). Crucialmente, a recompensa da tarefa R(*x*,τ) permanece inalterada; as dicas apenas aumentam a diversidade de resultados dentro do grupo sob amostragem finita, impedindo o colapso das vantagens do GRPO sob recompensas esparsas. No momento do teste, definimos *h*=vazio e implantamos a política sem dica, sem qualquer informação privilegiada. Além disso, amostrar auto-dicas diversas funciona como um currículo adaptativo que acompanha os gargalos do aprendiz de forma mais eficaz do que dicas fixas de uma política inicial ou de um modelo externo mais forte. Experimentos em 6 benchmarks com 3 LLMs mostram que o SAGE supera consistentemente o GRPO, em média +2,0 no Llama-3.2-3B-Instruct, +1,2 no Qwen2.5-7B-Instruct e +1,3 no Qwen3-4B-Instruct. O código está disponível em https://github.com/BaohaoLiao/SAGE.
Os modelos de linguagem (MLs) atuais destacam-se no raciocínio sobre instruções utilizando conhecimento pré-treinado. No entanto, tarefas do mundo real são muito mais complexas e dependentes de contexto: os modelos devem aprender com contextos específicos da tarefa e alavancar novos conhecimentos além dos aprendidos durante o pré-treinamento para raciocinar e resolver tarefas. Denominamos esta capacidade de **aprendizagem contextual**, uma habilidade crucial que os humanos possuem naturalmente, mas que tem sido largamente negligenciada. Para tal, apresentamos o **CL-bench**, um benchmark do mundo real composto por 500 contextos complexos, 1.899 tarefas e 31.607 rubricas de verificação, todos elaborados por especialistas de domínio experientes. Cada tarefa é concebida de modo que o novo conteúdo necessário para a resolver está contido no contexto correspondente. Resolver tarefas no CL-bench exige que os modelos aprendam com o contexto, desde novos conhecimentos específicos de domínio, sistemas de regras e procedimentos complexos até leis derivadas de dados empíricos, todos ausentes do pré-treinamento. Isto vai muito além de tarefas de contexto longo que testam principalmente recuperação ou compreensão de leitura, e de tarefas de aprendizagem *in-context*, onde os modelos aprendem padrões simples de tarefas através de instruções e demonstrações. As nossas avaliações de dez MLs de fronteira revelam que os modelos resolvem em média apenas 17,2% das tarefas. Mesmo o modelo com melhor desempenho, o GPT-5.1, resolve apenas 23,7%, revelando que os MLs ainda não alcançaram uma aprendizagem contextual eficaz, o que constitui um estrangulamento crítico para enfrentar tarefas do mundo real, complexas e dependentes de contexto. O CL-bench representa um passo na direção de construir MLs com esta capacidade fundamental, tornando-os mais inteligentes e avançando a sua implementação em cenários do mundo real.
Na última década, a trajetória da inteligência artificial generativa (IA) foi dominada por um paradigma centrado no modelo, impulsionado pelas leis de escala. Apesar de saltos significativos na fidelidade visual, essa abordagem encontrou um "teto de usabilidade" manifestado como o *Intent-Execution Gap* (ou seja, a disparidade fundamental entre a intenção de alto nível de um criador e a natureza estocástica e de caixa-preta dos modelos atuais de execução única). Neste artigo, inspirados pelo *Vibe Coding*, introduzimos o Vibe AIGC, um novo paradigma para geração de conteúdo por meio de orquestração agentiva, que representa a síntese autônoma de fluxos de trabalho hierárquicos e multiagente. Sob este paradigma, o papel do usuário transcende a engenharia de *prompts* tradicional, evoluindo para um Comandante que fornece uma *Vibe* – uma representação de alto nível que engloba preferências estéticas, lógica funcional, etc. Um *Meta-Planner* centralizado atua então como um arquiteto de sistema, desconstruindo essa "Vibe" em *pipelines* agentivas executáveis, verificáveis e adaptáveis. Ao fazer a transição da inferência estocástica para a orquestração lógica, o Vibe AIGC preenche a lacuna entre a imaginação humana e a execução da máquina. Defendemos que essa mudança redefinirá a economia colaborativa homem-IA, transformando a IA de um motor de inferência frágil em um parceiro de engenharia robusto em nível de sistema, que democratiza a criação de ativos digitais complexos e de longo prazo.
Por que as políticas pré-treinadas de difusão ou correspondência de fluxo falham quando a mesma tarefa é executada perto de um obstáculo, sobre uma superfície de suporte deslocada ou em meio a uma desordem leve? Essas falhas raramente refletem habilidades motoras ausentes; em vez disso, expõem uma limitação da aprendizagem por imitação sob mudanças entre treino e teste, onde a geração de ações está fortemente acoplada a configurações espaciais e especificações de tarefa específicas do treinamento. Retreinar ou fazer ajuste fino para corrigir essas falhas é custoso e conceptualmente desalinhado, uma vez que os comportamentos necessários já existem, mas não podem ser adaptados seletivamente durante o teste. Propomos o Vision-Language Steering (VLS), uma estrutura livre de treinamento para adaptação em tempo de inferência de políticas robóticas generativas congeladas. O VLS trata a adaptação como um problema de controle em tempo de inferência, direcionando o processo de amostragem de uma política pré-treinada de difusão ou correspondência de fluxo em resposta a observações e entradas de linguagem fora da distribuição, sem modificar os parâmetros da política. Ao aproveitar modelos de visão e linguagem para sintetizar funções de recompensa diferenciáveis em relação à trajetória, o VLS guia a remoção de ruído em direção a trajetórias de ação que satisfazem os requisitos espaciais e de tarefa em tempo de teste. Em avaliações em simulação e no mundo real, o VLS supera consistentemente métodos de direcionamento anteriores, alcançando uma melhoria de 31% no CALVIN e um ganho de 13% no LIBERO-PRO. A implantação no mundo real em um robô Franka demonstra ainda uma adaptação robusta em tempo de inferência sob mudanças espaciais e semânticas durante o teste. Página do projeto: https://vision-language-steering.github.io/webpage/
Os modelos de linguagem de última geração demonstraram fortes capacidades de raciocínio e uso de ferramentas de longo alcance. No entanto, os sistemas RAG existentes não conseguem aproveitar essas capacidades. Eles ainda dependem de dois paradigmas: (1) projetar um algoritmo que recupere passagens em uma única etapa e as concatene na entrada do modelo, ou (2) predefinir um fluxo de trabalho e instruir o modelo a executá-lo passo a passo. Nenhum dos paradigmas permite que o modelo participe das decisões de recuperação, impedindo uma escalabilidade eficiente com as melhorias do modelo. Neste artigo, introduzimos o A-RAG, uma estrutura RAG Agêntica que expõe interfaces hierárquicas de recuperação diretamente ao modelo. O A-RAG fornece três ferramentas de recuperação: pesquisa por palavra-chave, pesquisa semântica e leitura de fragmentos, permitindo que o agente pesquise e recupere informações adaptativamente em múltiplas granularidades. Experimentos em várias bases de referência de QA de domínio aberto mostram que o A-RAG supera consistentemente as abordagens existentes com tokens recuperados comparáveis ou menores, demonstrando que o A-RAG aproveita efetivamente as capacidades do modelo e se adapta dinamicamente a diferentes tarefas RAG. Estudamos ainda sistematicamente como o A-RAG escala com o tamanho do modelo e a computação em tempo de teste. Liberaremos nosso código e conjunto de avaliação para facilitar pesquisas futuras. O código e o conjunto de avaliação estão disponíveis em https://github.com/Ayanami0730/arag.
Os agentes de busca são modelos de linguagem (LMs) que raciocinam e pesquisam em bases de conhecimento (ou na web) para responder a perguntas; métodos recentes supervisionam apenas a precisão da resposta final usando aprendizado por reforço com recompensas verificáveis (RLVR). A maioria dos agentes de busca RLVR aborda QA de domínio geral, o que limita sua relevância para sistemas de IA técnicos em ciência, engenharia e medicina. Neste trabalho, propomos treinar agentes para pesquisar e raciocinar sobre artigos científicos – isso testa a resposta a perguntas técnicas, é diretamente relevante para cientistas reais, e as capacidades serão cruciais para futuros sistemas de Cientista de IA. Concretamente, disponibilizamos um corpus de busca com 16 milhões de resumos de artigos biomédicos e construímos um conjunto de dados desafiador de QA factóide chamado PaperSearchQA com 60 mil amostras respondíveis a partir do corpus, juntamente com benchmarks. Treinamos agentes de busca neste ambiente para superar as linhas de base de recuperação não-RL; também realizamos análises quantitativas adicionais e observamos comportamentos interessantes dos agentes, como planejamento, raciocínio e autoverificação. Nosso corpus, conjuntos de dados e benchmarks são utilizáveis com a base de código Search-R1, popular para treinamento RLVR, e foram disponibilizados em https://huggingface.co/collections/jmhb/papersearchqa. Por fim, nossos métodos de criação de dados são escaláveis e facilmente extensíveis a outros domínios científicos.
O rápido crescimento dos grandes modelos de linguagem (LLMs) superou a evolução do hardware de GPU única, tornando a escala do modelo cada vez mais limitada pela capacidade de memória e não pela computação. Embora os sistemas modernos de treinamento estendam a memória da GPU por meio de paralelismo distribuído e descarregamento (offloading) através de hierarquias de CPU e armazenamento, eles mantêm fundamentalmente um paradigma de execução centrado na GPU, no qual as GPUs hospedam réplicas persistentes do modelo e grafos completos de autograd. Como resultado, a escalagem de grandes modelos permanece fortemente acoplada a clusters multi-GPU, tempos de execução distribuídos complexos e consumo imprevisível de memória do host, criando barreiras substanciais para cargas de trabalho pós-treinamento em escala de nó, como ajuste fino por instrução (instruction tuning), alinhamento (alignment) e adaptação de domínio. Apresentamos o Horizon-LM, um sistema de treinamento centrado na memória que redefine os papéis da CPU e da GPU para a otimização de grandes modelos. O Horizon-LM trata a memória do host como o repositório de parâmetros autoritativo e usa as GPUs apenas como unidades de computação transitórias por meio de um modelo de execução CPU-master, GPU-worker. Ao eliminar módulos persistentes residentes na GPU e grafos de autograd, empregar recomputação explícita com propagação manual de gradientes e introduzir um motor de execução pipeline com double-buffering, o Horizon-LM desacopla a escala do modelo do número de GPUs e limita o uso de memória à pegada teórica dos parâmetros. Em uma única GPU H200 com 1,5 TB de RAM do host, o Horizon-LM treina de forma confiável modelos com até 120 bilhões de parâmetros. Em uma máquina padrão com uma única A100, o Horizon-LM alcança um throughput de treinamento até 12,2 vezes maior que o DeepSpeed ZeRO-3 com descarregamento para CPU, preservando a correção numérica. Em diferentes plataformas e escalas, o Horizon-LM mantém alta utilização do dispositivo e crescimento de memória previsível, demonstrando que a memória do host, e não a memória da GPU, define o verdadeiro limite de viabilidade para o treinamento de grandes modelos em escala de nó.
A evolução de agentes baseados em Grandes Modelos de Linguagem (LLMs) para Engenharia de Software (ES) é limitada pela escassez de conjuntos de dados verificáveis, um gargalo decorrente da complexidade de construir ambientes executáveis em diversas linguagens. Para resolver isso, introduzimos o MEnvAgent, uma estrutura multi-linguagem para construção automatizada de ambientes que facilita a geração escalável de instâncias de tarefas verificáveis. O MEnvAgent emprega uma arquitetura multiagente de Planejamento-Execução-Verificação para resolver autonomamente falhas de construção e integra um novo Mecanismo de Reutilização de Ambiente que reduz a sobrecarga computacional através da aplicação incremental de correções em ambientes históricos. Avaliações no MEnvBench, um novo benchmark composto por 1.000 tarefas em 10 linguagens, demonstram que o MEnvAgent supera os métodos de base, melhorando as taxas de Falha-para-Sucesso (F2P) em 8,6% enquanto reduz os custos de tempo em 43%. Adicionalmente, demonstramos a utilidade do MEnvAgent através da construção do MEnvData-SWE, o maior conjunto de dados poliglota de código aberto com ambientes Docker realistas e verificáveis até à data, juntamente com trajetórias de solução que permitem ganhos de desempenho consistentes em tarefas de ES para uma ampla gama de modelos. O nosso código, benchmark e conjunto de dados estão disponíveis em https://github.com/ernie-research/MEnvAgent.
Os Modelos de Linguagem de Grande Escala (LLMs) podem adquirir vieses não intencionais a partir de dados de treinamento aparentemente benignos, mesmo sem pistas explícitas ou conteúdo malicioso. Os métodos existentes têm dificuldade em detectar tais riscos antes do ajuste fino, tornando a avaliação post hoc dispendiosa e ineficiente. Para enfrentar este desafio, introduzimos o Data2Behavior, uma nova tarefa para prever comportamentos indesejados do modelo antes do treinamento. Também propomos a Manipulação de Características dos Dados (MDF), uma abordagem leve que resume os dados candidatos através das suas representações médias e as injeta no passe direto de um modelo base, permitindo que sinais estatísticos latentes nos dados moldem as ativações do modelo e revelem vieses potenciais e riscos de segurança sem atualizar quaisquer parâmetros. O MDF alcança previsão confiável enquanto consome apenas cerca de 20% dos recursos de GPU necessários para o ajuste fino. Experimentos com Qwen3-14B, Qwen2.5-32B-Instruct e Gemma-3-12b-it confirmam que o MDF pode antecipar comportamentos não intencionais e fornecer insights sobre vulnerabilidades no pré-treinamento.
A gestão do pensamento e da observação do agente durante interações multi-turno entre agente e ambiente é uma estratégia emergente para melhorar a eficiência do agente. No entanto, os estudos existentes tratam todas as trajetórias de interação de forma igualitária, ignorando que a necessidade de pensamento e a utilidade da observação variam conforme o turno. Para isso, primeiro realizamos investigações quantitativas sobre como o pensamento e a observação afetam a eficácia e a eficiência do agente. Com base nas nossas descobertas, propomos o Agent-Omit, um framework de treinamento unificado que capacita agentes de LLM a omitir adaptativamente pensamentos e observações redundantes. Especificamente, primeiro sintetizamos uma pequena quantidade de dados de *cold-start*, incluindo cenários de omissão de turno único e multi-turno, para afinar o agente para comportamentos de omissão. Além disso, introduzimos uma abordagem de aprendizagem por reforço agentiva consciente da omissão, incorporando um mecanismo de amostragem dupla e uma recompensa de omissão personalizada para incentivar a capacidade de omissão adaptativa do agente. Teoricamente, provamos que o desvio da nossa política de omissão é limitado superiormente pela divergência KL. Resultados experimentais em cinco benchmarks de agentes mostram que o nosso Agent-Omit-8B construído pode obter um desempenho comparável a sete agentes de LLM de ponta e alcançar o melhor compromisso eficácia-eficiência do que sete métodos de agentes de LLM eficientes. O nosso código e dados estão disponíveis em https://github.com/usail-hkust/Agent-Omit.
O uso eficaz de ferramentas e o raciocínio são capacidades essenciais para os grandes modelos de raciocínio (LRMs) resolverem problemas complexos do mundo real. Através de análise empírica, identificamos que os LRMs atuais carecem da capacidade de decomposição de subtarefas em cenários complexos de uso de ferramentas, levando a um Raciocínio Preguiçoso. Para resolver isso, propomos uma estrutura de treinamento em duas etapas, D-CORE (Decompondo tarefas e Compondo processos de Raciocínio), que primeiro incentiva a capacidade de raciocínio por decomposição de tarefas dos LRMs via auto-distilação, seguida por aprendizado por reforço com consciência de diversidade (RL) para restaurar a capacidade de raciocínio reflexivo dos LRMs. O D-CORE alcança melhorias robustas no uso de ferramentas em diversos benchmarks e escalas de modelo. Experimentos no BFCLv3 demonstram a superioridade do nosso método: D-CORE-8B atinge 77,7% de precisão, superando o melhor modelo de 8B em 5,7%. Enquanto isso, o D-CORE-14B estabelece um novo estado da arte em 79,3%, superando modelos de 70B apesar de ser 5 vezes menor. O código-fonte está disponível em https://github.com/alibaba/EfficientAI.
Avanços recentes em modelos multimodais unificados (UMM) demonstraram progressos notáveis em tarefas de compreensão e geração. No entanto, permanece incerto se essas duas capacidades estão genuinamente alinhadas e integradas em um único modelo. Para investigar essa questão, apresentamos o GapEval, um benchmark bidirecional projetado para quantificar a lacuna entre as capacidades de compreensão e geração, medindo quantitativamente a coerência cognitiva das duas direções "unificadas". Cada questão pode ser respondida em ambas as modalidades (imagem e texto), permitindo uma avaliação simétrica da capacidade de inferência bidirecional e da consistência cross-modal de um modelo. Experimentos revelam uma lacuna persistente entre as duas direções em uma ampla gama de UMMs com diferentes arquiteturas, sugerindo que os modelos atuais alcançam apenas uma unificação superficial em vez de uma convergência cognitiva profunda das duas capacidades. Para explorar melhor o mecanismo subjacente, conduzimos um estudo empírico sob a perspectiva da manipulação de conhecimento para ilustrar as limitações fundamentais. Nossos achados indicam que o conhecimento dentro dos UMMs frequentemente permanece fragmentado. A emergência de capacidades e o conhecimento entre modalidades não são sincronizados, abrindo caminho para novas explorações.
O raciocínio espacial é um aspecto fundamental da cognição humana, mas continua a ser um grande desafio para os modelos visão-linguagem (VLMs) contemporâneos. Trabalhos anteriores basearam-se largamente em ambientes sintéticos ou gerados por LLM com projetos de tarefas limitados e configurações semelhantes a quebra-cabeças, não conseguindo capturar a complexidade do mundo real, o ruído visual e as diversas relações espaciais que os VLMs encontram. Para resolver isto, introduzimos o SpatiaLab, um benchmark abrangente para avaliar o raciocínio espacial dos VLMs em contextos realistas e sem restrições. O SpatiaLab compreende 1.400 pares de perguntas-respostas visuais em seis categorias principais: Posicionamento Relativo, Profundidade & Oclusão, Orientação, Tamanho & Escala, Navegação Espacial e Geometria 3D, cada uma com cinco subcategorias, totalizando 30 tipos de tarefas distintos. Cada subcategoria contém pelo menos 25 perguntas, e cada categoria principal inclui pelo menos 200 perguntas, suportando avaliação de escolha múltipla e de resposta aberta. Experiências com diversos VLMs state-of-the-art, incluindo modelos open-source e closed-source, modelos focados em raciocínio e modelos especializados em raciocínio espacial, revelam uma lacuna substancial nas capacidades de raciocínio espacial em comparação com os humanos. Na configuração de escolha múltipla, o InternVL3.5-72B atinge 54,93% de precisão contra 87,57% dos humanos. No cenário de resposta aberta, todos os modelos mostram uma queda de desempenho de cerca de 10-25%, com o GPT-5-mini a obter a pontuação mais alta de 40,93% contra 64,93% dos humanos. Estes resultados destacam limitações-chave no tratamento de relações espaciais complexas, perceção de profundidade, navegação e geometria 3D. Ao fornecer um quadro de avaliação diversificado e baseado no mundo real, o SpatiaLab expõe desafios e oportunidades críticos para o avanço do raciocínio espacial dos VLMs, oferecendo um benchmark para orientar a investigação futura no sentido de uma compreensão espacial robusta e alinhada com a humana. O SpatiaLab está disponível em: https://spatialab-reasoning.github.io/.
O treinamento de LLMs para tarefas relacionadas a código geralmente depende de pares código-documentação de alta qualidade, que são dispendiosos de curar e frequentemente escassos para linguagens de programação de nicho. Apresentamos o BatCoder, uma estrutura de aprendizado por reforço autossupervisionada projetada para otimizar conjuntamente a geração de código e a produção de documentação. O BatCoder emprega uma estratégia de retro-tradução: uma documentação é primeiro gerada a partir do código e, em seguida, a documentação gerada é usada para reconstruir o código original. A similaridade semântica entre o código original e o reconstruído serve como uma recompensa implícita, permitindo que o aprendizado por reforço melhore o desempenho do modelo tanto na geração de código a partir da documentação quanto vice-versa. Essa abordagem permite que os modelos sejam treinados usando apenas código, aumentando substancialmente os exemplos de treinamento disponíveis. Avaliado no HumanEval e no MBPP com um modelo de 7B, o BatCoder alcançou 83,5% e 81,0% em pass@1, superando bases de código aberto robustas. Além disso, a estrutura demonstra escalabilidade consistente em relação ao tamanho do corpus de treinamento e à capacidade do modelo.
O ajuste fino de grandes modelos de linguagem (LLMs) em benchmarks de raciocínio através de aprendizagem por reforço requer uma função de recompensa específica, frequentemente binária, para cada benchmark. Isto acarreta duas limitações potenciais: a necessidade de conceber a recompensa e a natureza potencialmente esparsa das recompensas binárias. Aqui, investigamos sistematicamente recompensas derivadas da probabilidade ou log-probabilidade de emitir a resposta de referência (ou qualquer outra continuação de *prompt* presente nos dados), que têm a vantagem de não depender de verificadores específicos e de estarem disponíveis em escala. Vários trabalhos recentes têm defendido a utilização de recompensas semelhantes (por exemplo, VeriFree, JEPO, RLPR, NOVER). Comparamos sistematicamente variantes de recompensas baseadas em verosimilhança com *baselines* padrão, testando o desempenho tanto em benchmarks padrão de raciocínio matemático, como em respostas de longo formato onde não existe um verificador externo disponível. Concluímos que utilizar a log-probabilidade da resposta de referência como recompensa para a aprendizagem de *chain-of-thought* (CoT) é a única opção que apresenta bom desempenho em todas as configurações. Esta recompensa é também consistente com a perda de log-verosimilhança do próximo *token* utilizada durante o pré-treinamento. Em contextos verificáveis, as recompensas de log-probabilidade proporcionam taxas de sucesso comparáveis ou superiores às obtidas com as recompensas binárias padrão, e produzem uma perplexidade muito melhor. Em contextos não verificáveis, o seu desempenho é equivalente ao do SFT (*Supervised Fine-Tuning*). Por outro lado, métodos baseados em probabilidade, como o VeriFree, estagnam em contextos não verificáveis devido ao desaparecimento das probabilidades de obter a resposta correta. Globalmente, isto estabelece as recompensas de log-probabilidade como um método viável para o ajuste fino de CoT, estabelecendo uma ponte entre os contextos de respostas curtas e verificáveis e os de respostas longas e não verificáveis.
A avaliação atual de VLMs incorporados depende de benchmarks estáticos, definidos por especialistas e anotados manualmente, que exibem severa redundância e desequilíbrio de cobertura. Este paradigma intensivo em mão de obra drena recursos computacionais e de anotação, inflaciona custos e distorce o ranking dos modelos, sufocando, em última análise, o desenvolvimento iterativo. Para resolver isso, propomos a Avaliação Automática Agêntica (A2Eval), o primeiro framework agêntico que automatiza a curadoria e avaliação de benchmarks através de dois agentes colaborativos. O Agente de Dados induz autonomamente dimensões de capacidade e monta um conjunto de avaliação balanceado e compacto, enquanto o Agente de Avaliação sintetiza e valida pipelines de avaliação executáveis, permitindo uma avaliação totalmente autónoma e de alta fidelidade. Avaliado em 10 benchmarks e 13 modelos, o A2Eval comprime os conjuntos de avaliação em 85%, reduz os custos computacionais totais em 77% e proporciona uma aceleração de 4,6x, mantendo a qualidade da avaliação. Crucialmente, o A2Eval corrige vieses sistemáticos de ranking, melhora o alinhamento humano para Spearman's rho=0,85 e mantém alta fidelidade de ranking (Kendall's tau=0,81), estabelecendo um novo padrão para avaliação incorporada de alta fidelidade e baixo custo. O nosso código e dados serão públicos em breve.
A Detecção de Entidades Nomeadas Multimodal Aterrada (GMNER) tem como objetivo extrair entidades baseadas em texto, atribuir-lhes categorias semânticas e aterrá-las a regiões visuais correspondentes. Neste trabalho, exploramos o potencial dos Modelos de Linguagem Grandes Multimodais (MLLMs) para realizar GMNER de forma ponta a ponta, indo além do seu papel típico como ferramentas auxiliares em pipelines em cascata. Crucialmente, nossa investigação revela um desafio fundamental: os MLLMs exibem viés de modalidade, incluindo viés visual e viés textual, que decorre da sua tendência a tomar atalhos unimodais em vez de realizar uma verificação cruzada rigorosa. Para resolver isso, propomos o Raciocínio de Consistência com Consciência de Modalidade (MCR), que impõe um raciocínio cruzado estruturado através da Injeção de Esquemas de Raciocínio Multi-estilo (MRSI) e da Otimização Verificável Guiada por Restrições (CVO). O MRSI transforma restrições abstratas em cadeias de raciocínio executáveis, enquanto o CVO capacita o modelo a alinhar dinamicamente suas trajetórias de raciocínio com a Otimização de Política Relativa ao Grupo (GRPO). Experimentos em tarefas de GMNER e aterramento visual demonstram que o MCR mitiga efetivamente o viés de modalidade e alcança um desempenho superior em comparação com as linhas de base existentes.
O modelo de difusão de vídeo autoregressivo tem recentemente despertado considerável interesse de pesquisa devido à sua modelagem causal e desruído iterativo. Neste trabalho, identificamos que a autoatenção de múltiplas cabeças nestes modelos subutiliza os quadros históricos: aproximadamente 25% das cabeças atendem quase exclusivamente ao quadro atual, e descartar suas caches KV incorre em apenas uma degradação menor de desempenho. Com base nisso, propomos o Dummy Forcing, um método simples mas eficaz para controlar a acessibilidade do contexto entre diferentes cabeças. Especificamente, a proposta de alocação heterogênea de memória reduz a redundância contextual por cabeça, acompanhada por programação dinâmica de cabeças para classificar adaptivamente os tipos de cabeça. Além disso, desenvolvemos uma técnica de empacotamento de contexto para alcançar uma compressão de cache mais agressiva. Sem treinamento adicional, nosso Dummy Forcing proporciona uma aceleração de até 2.0x em relação à linha de base, suportando geração de vídeo a 24.3 FPS com menos de 0.5% de queda de qualidade. A página do projeto está disponível em https://csguoh.github.io/project/DummyForcing/.
Exploramos a tradução automática para cinco pares de línguas turcas: Russo-Bashkir, Russo-Cazaque, Russo-Quirguiz, Inglês-Tatar e Inglês-Chuvash. O *fine-tuning* do modelo nllb-200-distilled-600M com LoRA em dados sintéticos alcançou chrF++ 49,71 para o cazaque e 46,94 para o bashkir. A técnica de *prompting* do modelo DeepSeek-V3.2 com exemplos similares recuperados alcançou chrF++ 39,47 para o chuvash. Para o tatar, abordagens baseadas em *zero-shot* ou recuperação de exemplos alcançaram chrF++ 41,6, enquanto para o quirguiz a abordagem *zero-shot* atingiu 45,6. Disponibilizamos o conjunto de dados e os pesos obtidos.
A Discussão Multiagente (MAD, na sigla em inglês) tem recebido crescente atenção recentemente, na qual múltiplas instâncias de LLM resolvem problemas colaborativamente por meio de discussões estruturadas. No entanto, verificamos que os métodos atuais de MAD são facilmente afetados por inconsistência na discussão, onde os LLMs não conseguem chegar a uma solução coerente devido ao desalinhamento entre os seus contextos individuais. Neste artigo, introduzimos um método de aprendizagem de contexto multi-LLM (M2CL) que aprende um gerador de contexto para cada agente, capaz de gerar dinamicamente instruções de contexto a cada rodada de discussão por meio da organização e refinamento automático de informações. Especificamente, inspirados pelas nossas percepções teóricas sobre a instrução de contexto, o M2CL treina os geradores para controlar a coerência do contexto e as discrepâncias de saída por meio de um mecanismo de auto-adaptação cuidadosamente elaborado. Isso permite que os LLMs evitem a convergência prematura para ruído majoritário e atinjam progressivamente o consenso correto. Avaliamos o M2CL em tarefas desafiadoras, incluindo raciocínio académico, tarefas corporificadas e controlo móvel. Os resultados mostram que o desempenho do M2CL supera significativamente os métodos existentes em 20% a 50%, apresentando ainda uma transferibilidade e eficiência computacional favoráveis.
A rápida proliferação de modelos generativos 3D criou um gargalo crítico nos pipelines de animação: a rigging (criação de estruturas de animação). Os métodos automatizados existentes são fundamentalmente limitados pela sua abordagem à skinning (atribuição de pesos de influência), tratando-a como uma tarefa de regressão mal colocada e de alta dimensionalidade que é ineficiente de otimizar e normalmente é dissociada da geração do esqueleto. Nós postulamos que isto é um problema de representação e introduzimos os SkinTokens: uma representação aprendida, compacta e discreta para pesos de skinning. Ao aproveitar um FSQ-CVAE para capturar a esparsidade intrínseca da skinning, reformulamos a tarefa de uma regressão contínua para um problema mais tratável de previsão de sequência de *tokens*. Esta representação permite o TokenRig, um framework autoregressivo unificado que modela todo o *rig* como uma única sequência de parâmetros esqueléticos e SkinTokens, aprendendo as complexas dependências entre esqueletos e deformações da pele. O modelo unificado é então passível de um estágio de aprendizado por reforço, onde recompensas geométricas e semânticas personalizadas melhoram a generalização para ativos complexos fora da distribuição original. Quantitativamente, a representação SkinTokens leva a uma melhoria de 98% a 133% na precisão da skinning em relação aos métodos state-of-the-art, enquanto o framework completo TokenRig, refinado com RL, melhora a previsão óssea em 17% a 22%. O nosso trabalho apresenta uma abordagem generativa e unificada para a criação de *rigs* que resulta em maior fidelidade e robustez, oferecendo uma solução escalável para um desafio de longa data na criação de conteúdo 3D.
Este trabalho apresenta o método de Monte Carlo Sequencial com Autopremiação (SMC), um algoritmo de escalonamento durante a inferência que possibilita a amostragem eficaz de modelos de linguagem de difusão mascarada (MDLMs). Nosso algoritmo surge da observação de que a maioria dos MDLMs existentes depende de uma estratégia de amostragem baseada em confiança, na qual apenas os tokens com a maior confiança de predição são preservados a cada etapa. Isso restringe a geração a um paradigma de decodificação gulosa e sensível ao ruído, resultando em um colapso inevitável na diversidade de caminhos possíveis. Nós abordamos este problema lançando múltiplos processos de difusão interagentes em paralelo, denominados partículas, para a exploração de trajetórias. De forma crucial, introduzimos a confiança a nível de trajetória como um sinal de autopremiação para atribuir pesos de importância às partículas. Durante a amostragem, as partículas são iterativamente ponderadas e reamostradas para orientar sistematicamente a geração em direção a amostras globalmente confiantes e de alta qualidade. O nosso SMC com autopremiação é validado em vários modelos de linguagem de difusão mascarada e benchmarks, alcançando uma melhoria significativa sem treinamento adicional ou orientação por recompensas, ao mesmo tempo que converte eficazmente a capacidade de inferência paralela em qualidade de amostragem aprimorada. Nosso código está disponível em https://github.com/Algolzw/self-rewarding-smc.
Apresentamos a modelagem autoregressiva de proteínas (PAR), a primeira estrutura autoregressiva multiescala para geração de backbone proteico por meio de predição próxima-à-escala do grosso para o refinado. Utilizando a natureza hierárquica das proteínas, a PAR gera estruturas que imitam o esculpir de uma estátua, formando uma topologia grosseira e refinando detalhes estruturais ao longo das escalas. Para alcançar isto, a PAR consiste em três componentes-chave: (i) operações de redução de amostragem multiescala que representam estruturas proteicas em múltiplas escalas durante o treinamento; (ii) um transformer autoregressivo que codifica informações multiescala e produz *embeddings* condicionais para guiar a geração de estruturas; (iii) um decodificador de backbone baseado em fluxo que gera átomos do backbone condicionados a esses *embeddings*. Adicionalmente, modelos autoregressivos sofrem de *exposure bias*, causado pela discrepância entre o procedimento de treinamento e o de geração, o que degrada substancialmente a qualidade da geração de estruturas. Nós aliviamos efetivamente este problema adotando aprendizado de contexto ruidoso e amostragem programada, permitindo uma geração de backbone robusta. Notavelmente, a PAR exibe forte generalização *zero-shot*, suportando geração condicional flexível com prompts humanos e *scaffolding* de motivos sem a necessidade de *fine-tuning*. No *benchmark* de geração incondicional, a PAR aprende efetivamente as distribuições de proteínas e produz backbones de alta qualidade de projeto, além de exibir comportamento de escalonamento favorável. Em conjunto, estas propriedades estabelecem a PAR como uma estrutura promissora para a geração de estruturas proteicas.
A análise radiológica beneficia cada vez mais de representações visuais pré-treinadas que podem suportar tarefas posteriores heterogéneas em diversas modalidades de imagem. Neste trabalho, introduzimos o OmniRad, um modelo de base radiológica auto-supervisionado pré-treinado em 1,2 milhões de imagens médicas, concebido com princípios inspirados na radiologia que enfatizam a reutilização de representações e a transferibilidade entre tarefas. Avaliamos o codificador pré-treinado sob múltiplos regimes de adaptação posteriores, incluindo adaptadores leves específicos por tarefa com uma backbone congelada, bem como o afinamento completo de ponta a ponta para classificação, permitindo-nos avaliar tanto a qualidade da representação como o desempenho específico da tarefa. O OmniRad é avaliado num amplo conjunto de benchmarks públicos que abrangem classificação e segmentação em múltiplas modalidades. Na coleção MedMNISTv2, o OmniRad melhora o F1 de classificação em até 2,05% em comparação com modelos de base concorrentes. Para previsão densa, o OmniRad atinge melhorias médias no índice Dice em seis conjuntos de dados do MedSegBench ao utilizar representações congeladas. Análises qualitativas e visualizações do espaço latente sugerem uma melhor agregação de características e separação relacionada com a modalidade.
A Otimização de Políticas Proximais (PPO) tem sido posicionada pela literatura recente como o método canônico para a parte de RL do RLHF. Embora a PPO apresente bom desempenho empírico, sua motivação é heurística e ela lida com a restrição de divergência KL utilizada no LM-RLHF de maneira ad-hoc, além de sofrer com oscilações de recompensa, colapso de entropia, desvio da função de valor e divergência súbita da política, que exigem reinícios frequentes e um extenso ajuste de hiperparâmetros. Neste artigo, desenvolvemos um novo método de RL puramente *on-policy* do tipo ator-crítico para o cenário de LM-RLHF. Apresentamos o SAFE (Stable Alignment Finetuning with Entropy-aware control), um novo algoritmo de RLHF que combina um Crítico de Duplo Mínimo Suave (*Double Soft-Min Critic*) para estimativa de valor pessimista com uma nova estrutura de estabilização de múltiplas camadas que combina regulação KL com portão de entropia (*entropy-gated*) e limiares adaptativos controlados por PID. Diferente das penalidades simétricas de KL da PPO padrão, o SAFE distingue a exploração de alta entropia do colapso modal de baixa entropia e ajusta as penalidades dinamicamente com base na velocidade da recompensa (*reward velocity*). Experimentos em um modelo de 3B de parâmetros mostram que o SAFE alcança uma recompensa média de treinamento +5,15% superior à PPO (0,725 vs 0,689), colapsos de recompensa negligenciáveis e um controle de KL superior ao da PPO. Nosso método adiciona sobrecarga computacional mínima e fornece uma estrutura de RLHF interpretável e resistente a colapsos, que mantém uma velocidade de aprendizagem agressiva enquanto garante uma otimização estável de longo horizonte adequada para implantação em produção. O código está disponível em https://github.com/ryyzn9/SAFE.
Os modelos de linguagem modernos são treinados quase exclusivamente em sequências de tokens produzidas por um tokenizador fixo — um compressor externo sem perdas geralmente aplicado sobre sequências de bytes UTF-8 —, acoplando assim o modelo a esse compressor. Este trabalho introduz a compressão por proxy, um esquema alternativo de treinamento que preserva os benefícios de eficiência das entradas comprimidas, ao mesmo tempo que oferece uma interface de bytes brutos de ponta a ponta no momento da inferência. Durante o treinamento, um modelo de linguagem é treinado conjuntamente em sequências de bytes brutos e em visões comprimidas geradas por compressores externos; por meio desse processo, o modelo aprende a alinhar internamente sequências comprimidas e bytes brutos. Esse alinhamento permite uma forte transferência entre os dois formatos, mesmo quando o treinamento ocorre predominantemente em entradas comprimidas, que são descartadas na inferência. Experimentos extensivos em modelagem de linguagem para código demonstram que a compressão por proxy melhora substancialmente a eficiência do treinamento e supera significativamente as linhas de base puramente em nível de byte, considerando orçamentos computacionais fixos. À medida que a escala do modelo aumenta, esses ganhos tornam-se mais pronunciados, e os modelos treinados por proxy acabam por igualar ou rivalizar com abordagens baseadas em tokenizadores, tudo enquanto operam exclusivamente em bytes brutos e mantêm a robustez inerente da modelagem em nível de byte.
A geração 4D tem feito progressos notáveis na síntese de objetos 3D dinâmicos a partir de texto, imagens ou vídeos de entrada. No entanto, os métodos existentes frequentemente representam o movimento como um campo de deformação implícito, o que limita o controle direto e a editabilidade. Para resolver esta questão, propomos o SkeletonGaussian, uma nova estrutura para gerar Gaussianos 3D dinâmicos e editáveis a partir de vídeo monocular. Nossa abordagem introduz uma representação articulada hierárquica que decompõe o movimento em movimento rígido esparso, explicitamente orientado por um esqueleto, e movimento não rígido de granularidade fina. Concretamente, extraímos um esqueleto robusto e orientamos o movimento rígido via *linear blend skinning*, seguido por um refinamento baseado em *hexplane* para deformações não rígidas, aumentando a interpretabilidade e a editabilidade. Resultados experimentais demonstram que o SkeletonGaussian supera os métodos existentes em qualidade de geração, permitindo ao mesmo tempo uma edição de movimento intuitiva, estabelecendo um novo paradigma para a geração 4D editável. Página do projeto: https://wusar.github.io/projects/skeletongaussian/
Embora os sistemas de múltiplos agentes baseados em grandes modelos de linguagem (LLMs) alcancem desempenho de raciocínio superior por meio de debates iterativos, a implantação prática é limitada por seu alto custo computacional e pela propagação de erros. Este artigo propõe o AgentArk, uma nova estrutura para destilar a dinâmica de múltiplos agentes nos pesos de um único modelo, transformando efetivamente as interações explícitas em tempo de teste em capacidades implícitas do modelo. Isso equipa um único agente com a inteligência dos sistemas multiagentes, mantendo a eficiência computacional. Especificamente, investigamos três estratégias de destilação hierárquica em vários modelos, tarefas, escalas e cenários: *fine-tuning* aprimorado por raciocínio; aumento baseado em trajetória; e destilação consciente do processo. Ao transferir a carga computacional da inferência para o treinamento, os modelos destilados preservam a eficiência de um agente enquanto exibem um forte desempenho de raciocínio e autocorreção de múltiplos agentes. Eles demonstram ainda maior robustez e generalização em diversas tarefas de raciocínio. Esperamos que este trabalho possa lançar luz sobre pesquisas futuras no desenvolvimento de sistemas multiagentes eficientes e robustos. Nosso código está disponível em https://github.com/AIFrontierLab/AgentArk.
As falhas de raciocínio em modelos de linguagem de grande escala (LLMs) são tipicamente medidas apenas no final de uma geração, no entanto, muitas falhas se manifestam como uma quebra a nível do processo: o modelo "perde o fio da meada" durante o raciocínio. Investigamos se tais quebras são detectáveis a partir de observáveis disponíveis em tempo de inferência nas APIs padrão (probabilidades logarítmicas dos tokens), sem qualquer treinamento ou ajuste fino. Definimos um sinal simples de instabilidade que combina a variação distribucional em etapas consecutivas (JSD) e a incerteza (entropia), resumimos cada traço pela sua força de instabilidade de pico e mostramos que este sinal prevê falhas de forma confiável. Através dos conjuntos GSM8K e HotpotQA, a força de instabilidade prevê respostas erradas com AUC acima do acaso e produz um declínio monotónico na precisão a nível de grupos em grande escala e através de diferentes tamanhos de modelos. Crucialmente, mostramos que a instabilidade não é uniformemente prejudicial: a instabilidade precoce pode refletir uma subsequente estabilização e uma resposta final correta (instabilidade corretiva), enquanto a instabilidade tardia é mais frequentemente seguida de falha (instabilidade destrutiva), mesmo com magnitudes de pico comparáveis, indicando que a recuperabilidade depende não apenas da intensidade da mudança na distribuição, mas também de quando tais mudanças ocorrem em relação ao horizonte de decodificação restante. O método é independente do modelo, livre de treinamento e reproduzível, sendo apresentado como uma lente de diagnóstico e não como um mecanismo corretivo ou de controlo.
Os métodos de alinhamento direto são cada vez mais utilizados para alinhar grandes modelos de linguagem (LLMs) com as preferências humanas. No entanto, muitos problemas de alinhamento do mundo real envolvem múltiplos objetivos conflitantes, nos quais a agregação ingénua de preferências pode levar a treino instável e a compromissos (trade-offs) insatisfatórios. Em particular, os métodos de perda ponderada podem falhar na identificação de direções de atualização que melhorem simultaneamente todos os objetivos, e as abordagens multiobjetivo existentes frequentemente dependem de modelos de recompensa explícitos, introduzindo complexidade adicional e distorcendo as preferências especificadas pelo utilizador. As contribuições deste artigo são duplas. Primeiro, propomos uma estrutura de Alinhamento sem Recompensa para Objetivos Conflituosos (RACO) que aproveita diretamente dados de preferência pareada e resolve conflitos de gradiente através de uma nova variante, com corte (clipped), da descida de gradiente avessa a conflitos. Fornecemos garantias de convergência para pontos Pareto-críticos que respeitam os pesos objetivos especificados pelo utilizador, e mostramos ainda que o corte pode melhorar estritamente a taxa de convergência no cenário de dois objetivos. Segundo, melhoramos o nosso método usando algumas heurísticas e conduzimos experiências para demonstrar a compatibilidade da estrutura proposta para o alinhamento de LLMs. Avaliações qualitativas e quantitativas em tarefas de sumarização multiobjetivo e de alinhamento de segurança, realizadas em várias famílias de LLMs (Qwen 3, Llama 3, Gemma 3), mostram que o nosso método atinge consistentemente melhores compromissos de Pareto em comparação com as linhas de base existentes de alinhamento multiobjetivo.
Apresentamos o LongVPO, uma nova estrutura de Otimização Direta de Preferências em dois estágios que permite a modelos visão-linguagem de contexto curto compreenderem vídeos ultra-longos de forma robusta, sem qualquer anotação de vídeos longos. No Estágio 1, sintetizamos triplas de preferência ancorando perguntas a clipes curtos individuais, intercalando-os com elementos de distração e aplicando filtros de similaridade visual e especificidade da pergunta para mitigar o viés posicional e garantir supervisão inequívoca. Também aproximamos a pontuação do modelo de referência em contextos longos avaliando apenas o clipe âncora, reduzindo a sobrecarga computacional. No Estágio 2, empregamos um pipeline de legendagem recursiva em vídeos longos para gerar metadados em nível de cena e, em seguida, usamos um modelo de linguagem grande para criar consultas de raciocínio multi-segmento e respostas indesejadas, alinhando as preferências do modelo por meio de tarefas de raciocínio multi-segmento. Com apenas 16 mil exemplos sintéticos e sem rótulos humanos dispendiosos, o LongVPO supera os modelos de código aberto mais avançados em múltiplos benchmarks de vídeos longos, mantendo um desempenho forte em vídeos curtos (por exemplo, no MVBench), oferecendo um paradigma escalável para uma compreensão eficiente de vídeos de longa duração.
Apresentamos o FOTBCD, um conjunto de dados em larga escala para detecção de mudanças em edificações, derivado de ortofotos francesas oficiais e dados topográficos de edificações fornecidos pelo IGN France. Diferentemente de benchmarks existentes, que estão geograficamente restritos a cidades únicas ou regiões limitadas, o FOTBCD abrange 28 departamentos da França metropolitana, sendo 25 utilizados para treinamento e três departamentos geograficamente distintos reservados para avaliação. O conjunto de dados cobre diversos ambientes urbanos, suburbanos e rurais com uma resolução de 0,2m/pixel. Disponibilizamos publicamente o FOTBCD-Binary, um conjunto de dados composto por aproximadamente 28.000 pares de imagens "antes/depois" com máscaras binárias de mudança de edificações em nível de pixel, cada um associado a metadados espaciais em nível de *patch*. O conjunto de dados foi concebido para *benchmarking* e avaliação em larga escala sob deslocamento de domínio geográfico, com amostras de validação e teste provenientes dos departamentos reservados e verificadas manualmente para garantir a qualidade dos rótulos. Adicionalmente, disponibilizamos publicamente o FOTBCD-Instances, um subconjunto anotado em nível de instância, compreendendo vários milhares de pares de imagens, que ilustra o esquema de anotação completo utilizado na versão completa do FOTBCD em nível de instância. Utilizando uma linha de base de referência fixa, avaliamos o FOTBCD-Binary em comparação com o LEVIR-CD+ e o WHU-CD, fornecendo fortes evidências empíricas de que a diversidade geográfica em nível de conjunto de dados está associada a uma melhoria na generalização cruzada de domínio na detecção de mudanças em edificações.
Os transformadores apenas com codificador continuam indispensáveis em sistemas de recuperação, classificação e ranqueamento onde latência, estabilidade e custo são primordiais. Contudo, a maioria dos codificadores de propósito geral é treinada em corpora genéricos com cobertura limitada de domínios especializados. Apresentamos o RexBERT, uma família de codificadores no estilo BERT projetada especificamente para semântica de comércio eletrônico. Realizamos três contribuições. Primeiro, disponibilizamos o Ecom-niverse, um corpus de 350 bilhões de tokens curado a partir de diversas fontes de varejo e compras. Descrevemos um pipeline modular que isola e extrai conteúdo de e-commerce do FineFineWeb e de outros recursos web abertos, e caracterizamos a distribuição de domínio resultante. Segundo, apresentamos uma receita reprodutível de pré-treinamento baseada nos avanços arquiteturais do ModernBERT. A receita consiste em três fases: pré-treinamento geral, extensão de contexto e especialização de domínio com recozimento. Terceiro, treinamos modelos RexBERT variando de 17M a 400M de parâmetros e os avaliamos em tarefas de classificação de tokens, similaridade semântica e compreensão geral de linguagem natural usando conjuntos de dados de e-commerce. Apesar de ter 2-3 vezes menos parâmetros, o RexBERT supera codificadores de propósito geral maiores e iguala ou ultrapassa modelos modernos de contexto longo em benchmarks de domínio específico. Nossos resultados demonstram que dados de alta qualidade dentro do domínio, combinados com uma abordagem de treinamento fundamentada, fornecem uma base mais sólida para aplicações de e-commerce do que o simples escalonamento indiscriminado.
Os grandes modelos de linguagem (LLMs) ainda produzem afirmações factuais que soam plausíveis, mas sem fundamentação, um problema que se agrava no diálogo multi-turno à medida que o contexto cresce e os erros iniciais se propagam. Apresentamos o HalluHard, um benchmark desafiador de alucinação multi-turno com 950 perguntas iniciais abrangendo quatro domínios de alto risco: casos jurídicos, questões de pesquisa, diretrizes médicas e programação. Operacionalizamos a fundamentação exigindo citações em linha para asserções factuais. Para apoiar uma avaliação confiável em cenários de resposta aberta, propomos um pipeline de julgamento que recupera evidências iterativamente por meio de busca na web. Ele pode buscar, filtrar e analisar fontes de texto integral (incluindo PDFs) para avaliar se o material citado realmente suporta o conteúdo gerado. Em um conjunto diversificado de modelos proprietários de ponta e de pesos abertos, as alucinações permanecem substanciais mesmo com busca na web (aproximadamente 30% para a configuração mais forte, Opus-4.5 com busca na web), com erros de fundamentação do conteúdo persistindo em taxas elevadas. Finalmente, mostramos que o comportamento de alucinação é moldado pela capacidade do modelo, posição no turno, raciocínio efetivo e o tipo de conhecimento exigido.