Artigos de pesquisa em IA selecionados diariamente com traduções
Apesar de suas capacidades notáveis, os Modelos de Linguagem de Grande Escala (LLMs) enfrentam dificuldades para aproveitar efetivamente as informações de interações históricas em ambientes dinâmicos e complexos. Sistemas de memória permitem que os LLMs vão além de interações sem estado, introduzindo mecanismos de armazenamento, recuperação e utilização persistentes de informações. No entanto, os sistemas de memória existentes frequentemente introduzem sobrecargas significativas de tempo e computação. Para isso, apresentamos um novo sistema de memória chamado LightMem, que equilibra desempenho e eficiência nos sistemas de memória. Inspirado pelo modelo de memória humana de Atkinson-Shiffrin, o LightMem organiza a memória em três estágios complementares. Primeiro, a memória sensorial inspirada na cognição filtra rapidamente informações irrelevantes por meio de compressão leve e agrupa as informações de acordo com seus tópicos. Em seguida, a memória de curto prazo consciente do tópico consolida esses grupos baseados em tópicos, organizando e resumindo o conteúdo para um acesso mais estruturado. Por fim, a memória de longo prazo com atualização durante o sono emprega um procedimento offline que desacopla a consolidação da inferência online. Experimentos no LongMemEval com backbones GPT e Qwen mostram que o LightMem supera as linhas de base fortes em precisão (ganhos de até 10,9%) enquanto reduz o uso de tokens em até 117x, chamadas de API em até 159x e o tempo de execução em mais de 12x. O código está disponível em https://github.com/zjunlp/LightMem.
Apresentamos a técnica de desagregação de atenção central (CAD, do inglês Core Attention Disaggregation), que melhora o treinamento de modelos de linguagem de grande contexto ao desacoplar o cálculo da atenção central, softmax(QK^T)V, do restante do modelo e executá-lo em um pool separado de dispositivos. Nos sistemas existentes, a atenção central é colocalizada com outras camadas; em contextos longos, seu crescimento quadrático de computação em comparação com o crescimento quase linear de outros componentes causa desequilíbrio de carga e gargalos entre grupos de paralelismo de dados e pipeline. A CAD é viabilizada por duas observações. Primeiro, a atenção central é sem estado: ela não possui parâmetros treináveis e apenas dados transitórios mínimos, portanto, o equilíbrio se reduz ao agendamento de tarefas limitadas por computação. Segundo, ela é composável: kernels de atenção modernos mantêm alta eficiência ao processar lotes fundidos de fragmentos em nível de token com comprimentos arbitrários. A CAD particiona a atenção central em tarefas em nível de token e as distribui para servidores de atenção dedicados, que reúnem dinamicamente as tarefas para equalizar a computação sem sacrificar a eficiência do kernel. Implementamos a CAD em um sistema chamado DistCA, que utiliza um esquema de execução ping-pong para sobrepor completamente a comunicação com a computação e execução in-place nos servidores de atenção para reduzir o uso de memória. Em 512 GPUs H200 e comprimentos de contexto de até 512 mil tokens, o DistCA melhora a taxa de transferência de treinamento de ponta a ponta em até 1,35x, elimina gargalos de paralelismo de dados e pipeline e alcança um equilíbrio quase perfeito de computação e memória.
Modelos generativos de mundos (WMs) agora podem simular mundos com um realismo visual impressionante, o que naturalmente levanta a questão de se eles podem dotar agentes incorporados de percepção preditiva para tomada de decisões. O progresso nessa questão tem sido limitado pela avaliação fragmentada: a maioria dos benchmarks existentes adota protocolos de loop aberto que enfatizam a qualidade visual de forma isolada, deixando a questão central da utilidade incorporada sem resolução, ou seja, os WMs realmente ajudam os agentes a terem sucesso em tarefas incorporadas? Para abordar essa lacuna, introduzimos o World-in-World, a primeira plataforma aberta que avalia WMs em um mundo de loop fechado que espelha as interações reais entre agente e ambiente. O World-in-World fornece uma estratégia unificada de planejamento online e uma API de ação padronizada, permitindo que WMs heterogêneos sejam usados para tomada de decisões. Nós selecionamos quatro ambientes de loop fechado que avaliam rigorosamente diversos WMs, priorizam o sucesso da tarefa como a métrica principal e vão além do foco comum na qualidade visual; também apresentamos a primeira lei de escalonamento de dados para modelos de mundos em cenários incorporados. Nosso estudo revela três surpresas: (1) a qualidade visual por si só não garante o sucesso da tarefa, a controlabilidade importa mais; (2) escalonar pós-treinamento com dados de ação-observação é mais eficaz do que atualizar os geradores de vídeo pré-treinados; e (3) alocar mais recursos computacionais durante a inferência permite que os WMs melhorem substancialmente o desempenho em loop fechado.
Os avanços recentes na geração de texto para imagem (T2I) destacam a importância de benchmarks confiáveis para avaliar com que precisão as imagens geradas refletem a semântica de seus prompts textuais. No entanto, (1) os benchmarks existentes carecem de diversidade de cenários de prompts e suporte multilíngue, ambos essenciais para a aplicabilidade no mundo real; (2) eles oferecem apenas avaliações grosseiras nas dimensões principais, cobrindo uma gama estreita de subdimensões, e falham em avaliações refinadas de subdimensões. Para abordar essas limitações, introduzimos o UniGenBench++, um benchmark unificado de avaliação semântica para geração T2I. Especificamente, ele compreende 600 prompts organizados hierarquicamente para garantir cobertura e eficiência: (1) abrange diversos cenários do mundo real, ou seja, 5 temas principais de prompts e 20 subtemas; (2) investiga de forma abrangente a consistência semântica dos modelos T2I em 10 critérios primários e 27 subcritérios de avaliação, com cada prompt avaliando múltiplos pontos de teste. Para avaliar rigorosamente a robustez dos modelos a variações de idioma e comprimento de prompt, fornecemos versões em inglês e chinês de cada prompt, em formatos curtos e longos. Aproveitando o conhecimento geral do mundo e as capacidades refinadas de compreensão de imagens de um Modelo de Linguagem Multimodal de Grande Escala (MLLM) de código fechado, ou seja, o Gemini-2.5-Pro, desenvolvemos um pipeline eficaz para a construção confiável do benchmark e a avaliação simplificada de modelos. Além disso, para facilitar ainda mais o uso pela comunidade, treinamos um modelo de avaliação robusto que permite a avaliação offline das saídas dos modelos T2I. Por meio de benchmarking abrangente de modelos T2I de código aberto e fechado, revelamos sistematicamente seus pontos fortes e fracos em vários aspectos.
Apresentamos o Ring-1T, o primeiro modelo de pensamento de código aberto e estado da arte com parâmetros em escala de trilhão. Ele possui 1 trilhão de parâmetros totais e ativa aproximadamente 50 bilhões por token. Treinar modelos nessa escala de parâmetros introduz desafios sem precedentes, incluindo desalinhamento entre treinamento e inferência, ineficiências no processamento de rollouts e gargalos no sistema de RL (Reinforcement Learning). Para abordar esses problemas, pioneiramos três inovações interconectadas: (1) O IcePop estabiliza o treinamento de RL por meio de mascaramento e corte de discrepâncias em nível de token, resolvendo instabilidades causadas por incompatibilidades entre treinamento e inferência; (2) O C3PO++ melhora a utilização de recursos para rollouts longos sob um orçamento de token, particionando-os dinamicamente, obtendo assim alta eficiência temporal; e (3) O ASystem, uma estrutura de RL de alto desempenho projetada para superar os gargalos sistêmicos que impedem o treinamento de modelos com parâmetros em escala de trilhão. O Ring-1T alcança resultados revolucionários em benchmarks críticos: 93,4 no AIME-2025, 86,72 no HMMT-2025, 2088 no CodeForces e 55,94 no ARC-AGI-v1. Notavelmente, ele atinge um resultado de nível medalha de prata na IMO-2025, destacando suas capacidades excepcionais de raciocínio. Ao liberar o modelo completo de 1T parâmetros MoE (Mixture of Experts) para a comunidade, fornecemos acesso direto a capacidades de raciocínio de ponta para a comunidade de pesquisa. Essa contribuição marca um marco significativo na democratização da inteligência de raciocínio em larga escala e estabelece um novo padrão para o desempenho de modelos de código aberto.
Embora os grandes modelos de linguagem (LLMs) tenham um potencial significativo para avançar a descoberta química, os LLMs atuais carecem de conhecimento químico essencial, produzem trajetórias de raciocínio pouco confiáveis e apresentam desempenho subótimo em diversas tarefas químicas. Para enfrentar esses desafios, propomos o Chem-R, um modelo de Raciocínio Químico generalizável projetado para emular os processos deliberativos de químicos. O Chem-R é treinado por meio de uma estrutura de três fases que constrói progressivamente capacidades avançadas de raciocínio, incluindo: 1) Treinamento de Fundamentos Químicos, que estabelece o conhecimento químico essencial. 2) Destilação de Protocolos de Raciocínio Químico, incorporando traços de raciocínio estruturados, semelhantes aos de especialistas, para orientar a resolução sistemática e confiável de problemas. 3) Otimização de Política Relativa em Grupo Multi-tarefa, que ajusta o modelo para um desempenho equilibrado em diversas tarefas moleculares e de reação. Esse pipeline estruturado permite que o Chem-R alcance desempenho de ponta em benchmarks abrangentes, superando os principais grandes modelos de linguagem, incluindo o Gemini-2.5-Pro e o DeepSeek-R1, em até 46% em tarefas moleculares e 66% em tarefas de reação. Enquanto isso, o Chem-R também supera consistentemente os modelos de fundamentos químicos existentes em tarefas tanto moleculares quanto de nível de reação. Esses resultados destacam a robusta generalização, interpretabilidade e potencial do Chem-R como base para a próxima geração de descoberta química impulsionada por IA.
A geração de vídeos longos com Transformers de Difusão (DiTs) é limitada pela escala quadrática da atenção completa em relação ao comprimento da sequência. Como a atenção é altamente redundante, as saídas são dominadas por um pequeno subconjunto de pares query-key. Os métodos esparsos existentes dependem de estimativas grosseiras em blocos, cujos compromissos entre precisão e eficiência são restringidos pelo tamanho do bloco. Este artigo introduz a Atenção de Mistura de Grupos (MoGA), uma atenção esparsa eficiente que utiliza um roteador de tokens leve e aprendível para corresponder precisamente os tokens sem estimativas em blocos. Por meio de roteamento semântico, o MoGA permite interações eficazes de longo alcance. Como um método sem kernel, o MoGA integra-se perfeitamente com pilhas de atenção modernas, incluindo FlashAttention e paralelismo de sequência. Com base no MoGA, desenvolvemos um modelo eficiente de geração de vídeos longos que produz, de ponta a ponta, vídeos de nível minuto, com múltiplas cenas, em 480p a 24 fps, com um comprimento de contexto de aproximadamente 580k. Experimentos abrangentes em várias tarefas de geração de vídeos validam a eficácia da nossa abordagem.
Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) se destaquem na compreensão holística, eles enfrentam dificuldades em capturar o mundo denso com cenas complexas, exigindo uma análise refinada de detalhes intrincados e das inter-relações entre objetos. Os MLLMs em nível de região têm sido um passo promissor. No entanto, tentativas anteriores geralmente são otimizadas para entender regiões específicas de forma isolada, negligenciando contextos globais cruciais. Para abordar isso, introduzimos o Grasp Any Region (GAR) para uma compreensão visual abrangente em nível de região. Potencializado por uma técnica eficaz de replay de características alinhadas à Região de Interesse (RoI), o GAR suporta (1) percepção precisa ao aproveitar contextos globais necessários e (2) modelar interações entre múltiplos prompts. Juntos, eles naturalmente alcançam (3) raciocínio composicional avançado para responder a perguntas específicas de forma livre sobre qualquer região, mudando o paradigma da descrição passiva para o diálogo ativo. Além disso, construímos o GAR-Bench, que não apenas fornece uma avaliação mais precisa da compreensão de uma única região, mas também, e mais importante, mede interações e raciocínios complexos entre múltiplas regiões. Experimentos extensivos demonstraram que o GAR-1B não apenas mantém as capacidades de legendagem de última geração, por exemplo, superando o DAM-3B em +4,5 no DLC-Bench, mas também se destaca na modelagem de relações entre múltiplos prompts com capacidades avançadas de compreensão, superando até mesmo o InternVL3-78B no GAR-Bench-VQA. Mais importante ainda, nosso GAR-8B zero-shot supera até mesmo o VideoRefer-7B no VideoRefer-BenchQ, indicando que suas fortes capacidades podem ser facilmente transferidas para vídeos.
Apresentamos o DeepSeek-OCR como uma investigação inicial sobre a viabilidade de comprimir contextos longos por meio de mapeamento óptico 2D. O DeepSeek-OCR consiste em dois componentes: o DeepEncoder e o DeepSeek3B-MoE-A570M como decodificador. Especificamente, o DeepEncoder serve como o núcleo principal, projetado para manter baixas ativações sob entradas de alta resolução enquanto alcança altas taxas de compressão para garantir um número ideal e gerenciável de tokens visuais. Experimentos mostram que, quando o número de tokens de texto está dentro de 10 vezes o número de tokens visuais (ou seja, uma taxa de compressão < 10x), o modelo pode alcançar uma precisão de decodificação (OCR) de 97%. Mesmo com uma taxa de compressão de 20x, a precisão do OCR ainda permanece em cerca de 60%. Isso mostra um potencial considerável para áreas de pesquisa como compressão de contextos históricos longos e mecanismos de esquecimento de memória em LLMs. Além disso, o DeepSeek-OCR também demonstra alto valor prático. No OmniDocBench, ele supera o GOT-OCR2.0 (256 tokens/página) usando apenas 100 tokens visuais, e supera o MinerU2.0 (6000+ tokens por página em média) enquanto utiliza menos de 800 tokens visuais. Em produção, o DeepSeek-OCR pode gerar dados de treinamento para LLMs/VLMs em uma escala de 200k+ páginas por dia (um único A100-40G). Códigos e pesos do modelo estão publicamente acessíveis em http://github.com/deepseek-ai/DeepSeek-OCR.
Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tenham demonstrado proficiência na descrição de vídeos, aplicações práticas exigem legendas que sigam instruções específicas do usuário, em vez de gerar descrições exaustivas e sem restrições. No entanto, os benchmarks atuais avaliam principalmente a abrangência descritiva, enquanto negligenciam amplamente as capacidades de seguir instruções. Para preencher essa lacuna, introduzimos o IF-VidCap, um novo benchmark para avaliar a descrição de vídeos controlável, que contém 1.400 amostras de alta qualidade. Diferente dos benchmarks existentes de descrição de vídeos ou de seguir instruções gerais, o IF-VidCap incorpora uma estrutura sistemática que avalia as legendas em duas dimensões: correção de formato e correção de conteúdo. Nossa avaliação abrangente de mais de 20 modelos proeminentes revela um cenário complexo: apesar da contínua dominância dos modelos proprietários, a diferença de desempenho está diminuindo, com as melhores soluções de código aberto agora alcançando uma paridade quase total. Além disso, descobrimos que modelos especializados em descrição densa têm desempenho inferior aos MLLMs de propósito geral em instruções complexas, indicando que trabalhos futuros devem avançar simultaneamente tanto na riqueza descritiva quanto na fidelidade ao seguir instruções.
Embora os modelos de difusão alcancem a melhor qualidade de geração, eles ainda sofrem com amostragem computacionalmente cara. Trabalhos recentes abordam esse problema com métodos de otimização baseados em gradiente que destilam um solucionador ODE de difusão de poucos passos a partir do processo completo de amostragem, reduzindo o número de avaliações de função de dezenas para apenas algumas. No entanto, essas abordagens frequentemente dependem de técnicas de treinamento intrincadas e não se concentram explicitamente em preservar detalhes de alta granularidade. Neste artigo, introduzimos o Solucionador Generalizado: uma parametrização simples do amostrador ODE que não requer truques adicionais de treinamento e melhora a qualidade em relação às abordagens existentes. Além disso, combinamos a perda de destilação original com treinamento adversarial, o que mitiga artefatos e melhora a fidelidade dos detalhes. Chamamos o método resultante de Solucionador Adversarial Generalizado e demonstramos seu desempenho superior em comparação com os métodos existentes de treinamento de solucionadores sob restrições de recursos semelhantes. O código está disponível em https://github.com/3145tttt/GAS.
Personalizar fielmente grandes modelos de linguagem (LLMs) para alinhá-los às preferências individuais dos usuários é uma tarefa crítica, mas desafiadora. Enquanto o ajuste fino supervisionado (SFT) rapidamente atinge um platô de desempenho, o aprendizado por reforço padrão com feedback humano (RLHF) também luta com as nuances da personalização. Modelos de recompensa baseados em escalares são propensos a "hacking de recompensa", o que leva a respostas verbosas e superficialmente personalizadas. Para abordar essas limitações, propomos o Critique-Post-Edit, um framework robusto de aprendizado por reforço que permite uma personalização mais fiel e controlável. Nosso framework integra dois componentes principais: (1) um Modelo de Recompensa Generativa Personalizado (GRM) que fornece pontuações multidimensionais e críticas textuais para resistir ao hacking de recompensa, e (2) um mecanismo Critique-Post-Edit, onde o modelo de política revisa suas próprias saídas com base nessas críticas para um aprendizado mais direcionado e eficiente. Sob uma avaliação rigorosa com controle de comprimento, nosso método supera substancialmente o PPO padrão em benchmarks de personalização. O modelo Qwen2.5-7B personalizado alcança uma melhoria média de 11% na taxa de vitória, e o modelo Qwen2.5-14B personalizado supera o desempenho do GPT-4.1. Esses resultados demonstram um caminho prático para uma personalização fiel, eficiente e controlável.
Embora os avanços recentes em modelos de visão e linguagem (VLMs) tenham alcançado progressos notáveis em uma ampla gama de tarefas multimodais, a compreensão de relações espaciais 3D a partir de visões limitadas continua sendo um desafio significativo. Métodos de raciocínio anteriores geralmente dependem de texto puro (por exemplo, mapas cognitivos topológicos) ou de pistas visuais 2D. No entanto, sua capacidade representativa limitada prejudica o desempenho em tarefas específicas que exigem imaginação espacial 3D. Para superar essa limitação, propomos o 3DThinker, um framework que pode explorar efetivamente as ricas informações geométricas embutidas nas imagens durante o raciocínio, assim como os humanos fazem. Nosso framework é o primeiro a permitir o mentalização 3D durante o raciocínio sem qualquer entrada prévia 3D, e não depende de dados 3D explicitamente rotulados para treinamento. Especificamente, nosso treinamento consiste em duas etapas. Primeiro, realizamos um treinamento supervisionado para alinhar o latente 3D gerado pelo VLM durante o raciocínio com o de um modelo de fundação 3D (por exemplo, VGGT). Em seguida, otimizamos toda a trajetória de raciocínio com base apenas em sinais de resultado, refinando assim a mentalização 3D subjacente. Experimentos extensos em vários benchmarks mostram que o 3DThinker supera consistentemente as linhas de base fortes e oferece uma nova perspectiva para unificar representações 3D no raciocínio multimodal. Nosso código estará disponível em https://github.com/zhangquanchen/3DThinker.
A marcação d'água multilingue visa tornar as saídas de modelos de linguagem de grande escala (LLMs) rastreáveis entre idiomas, mas os métodos atuais ainda não atingem esse objetivo. Apesar das alegações de robustez translinguística, eles são avaliados apenas em idiomas de alta disponibilidade de recursos. Demonstramos que os métodos existentes de marcação d'água multilingue não são verdadeiramente multilingues: eles falham em manter a robustez sob ataques de tradução em idiomas de recursos médios e baixos. Rastreamos essa falha ao agrupamento semântico, que falha quando o vocabulário do tokenizador contém poucos tokens de palavras completas para um determinado idioma. Para resolver isso, introduzimos o STEAM, um método de detecção baseado em retro-tradução que restaura a força da marcação d'água perdida durante a tradução. O STEAM é compatível com qualquer método de marcação d'água, robusto em diferentes tokenizadores e idiomas, não invasivo e facilmente extensível a novos idiomas. Com ganhos médios de +0,19 AUC e +40%p TPR@1% em 17 idiomas, o STEAM oferece um caminho simples e robusto para uma marcação d'água mais justa em diversos idiomas.
O recente desenvolvimento de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) avançou significativamente a capacidade da IA de compreender modalidades visuais. No entanto, os benchmarks de avaliação existentes permanecem limitados a questionários de resposta única, negligenciando a complexidade dos diálogos multi-turnos em cenários do mundo real. Para preencher essa lacuna, introduzimos o MT-Video-Bench, um benchmark holístico de compreensão de vídeo para avaliar MLLMs em diálogos multi-turnos. Especificamente, nosso MT-Video-Bench avalia principalmente seis competências centrais que focam na perceptividade e interatividade, abrangendo 987 diálogos multi-turnos meticulosamente curados de diversos domínios. Essas capacidades estão rigorosamente alinhadas com aplicações do mundo real, como análise interativa de esportes e tutoria inteligente baseada em vídeo multi-turno. Com o MT-Video-Bench, avaliamos extensivamente vários MLLMs de última geração, tanto de código aberto quanto proprietários, revelando suas discrepâncias significativas de desempenho e limitações no manuseio de diálogos multi-turnos em vídeo. O benchmark estará publicamente disponível para promover pesquisas futuras.
Avanços recentes na geração de vídeos tornaram possível produzir vídeos visualmente impressionantes, com amplas aplicações em criação de conteúdo, entretenimento e realidade virtual. No entanto, a maioria dos modelos existentes de geração de vídeos baseados em transformadores de difusão é limitada a saídas de baixa resolução (<=720P) devido à complexidade computacional quadrática do mecanismo de atenção em relação à largura e altura da saída. Esse gargalo computacional torna a geração nativa de vídeos de alta resolução (1080P/2K/4K) impraticável tanto para treinamento quanto para inferência. Para enfrentar esse desafio, apresentamos o UltraGen, uma nova estrutura de geração de vídeos que permite i) síntese eficiente e ii) nativa de vídeos de alta resolução de ponta a ponta. Especificamente, o UltraGen apresenta uma arquitetura hierárquica de atenção de duplo ramo baseada na decomposição de atenção global-local, que desacopla a atenção completa em um ramo de atenção local para conteúdo regional de alta fidelidade e um ramo de atenção global para consistência semântica geral. Propomos ainda uma estratégia de modelagem global espacialmente comprimida para aprender eficientemente dependências globais, e um mecanismo hierárquico de atenção local entre janelas para reduzir custos computacionais enquanto melhora o fluxo de informações entre diferentes janelas locais. Experimentos extensivos demonstram que o UltraGen pode efetivamente escalar modelos pré-treinados de vídeos de baixa resolução para 1080P e até 4K pela primeira vez, superando métodos state-of-the-art existentes e pipelines de duas etapas baseados em super-resolução em avaliações qualitativas e quantitativas.
A qualidade dos dados desempenha um papel crucial no aprimoramento do ajuste fino supervisionado (SFT) para modelos de linguagem de grande escala (LLMs), e a seleção de dados em nível de token surgiu como uma direção promissora devido à sua natureza refinada. Apesar do forte desempenho empírico, os métodos existentes de seleção em nível de token compartilham duas limitações principais: (1) exigem o treinamento ou acesso a um modelo de referência adicional, e (2) dependem exclusivamente de informações de perda para a seleção de tokens, o que não consegue preservar adequadamente tokens semanticamente importantes que não são favorecidos por métricas baseadas em perda. Para enfrentar esses desafios, propomos o ssToken, uma abordagem de Seleção de Tokens Automodulada e Consciente da Semântica. O ssToken aproveita modelos históricos facilmente acessíveis para calcular a diferença de perda por token com o modelo atual, que serve como um sinal automodulado que permite ao modelo selecionar tokens de forma adaptativa ao longo de sua trajetória de otimização, em vez de depender da perda excessiva de um modelo de referência treinado offline, como em trabalhos anteriores. Além disso, introduzimos uma métrica de estimativa de importância de tokens baseada em atenção e consciente da semântica, ortogonal à seleção baseada em perda e fornecendo informações semânticas complementares para uma filtragem mais eficaz. Experimentos extensivos em diferentes famílias e escalas de modelos demonstram que tanto a seleção automodulada quanto a seleção consciente da semântica superam individualmente o ajuste fino com todos os dados, enquanto sua integração—o ssToken—alcança ganhos sinérgicos e supera ainda mais os métodos anteriores de seleção em nível de token, proporcionando melhorias de desempenho enquanto mantém a eficiência do treinamento.
O codificador de texto original do CLIP é limitado por um comprimento máximo de entrada de 77 tokens, o que prejudica sua capacidade de processar textos longos de forma eficaz e realizar uma compreensão semântica refinada. Além disso, o codificador de texto do CLIP não oferece suporte a entradas multilingues. Todas essas limitações restringem significativamente sua aplicabilidade em uma gama mais ampla de tarefas. Estudos recentes tentaram substituir o codificador de texto do CLIP por um incorporador baseado em LLM (Modelo de Linguagem de Grande Escala) para aprimorar sua capacidade de processar textos longos, compreensão multilingue e compreensão semântica refinada. No entanto, como os espaços de representação dos LLMs e o espaço visão-linguagem do CLIP são pré-treinados independentemente sem alinhamentos prévios, o alinhamento direto usando aprendizado contrastivo pode perturbar o alinhamento intrínseco visão-linguagem no codificador de imagem do CLIP, levando a uma subutilização do conhecimento adquirido durante o pré-treinamento. Para enfrentar esse desafio, propomos o ProCLIP, uma estrutura progressiva de alinhamento visão-linguagem baseada em aprendizado curricular, para alinhar efetivamente o codificador de imagem do CLIP com um incorporador baseado em LLM. Especificamente, o ProCLIP primeiro destila o conhecimento do codificador de texto do CLIP para o incorporador baseado em LLM, aproveitando o rico conhecimento pré-treinado do CLIP enquanto estabelece um alinhamento inicial entre o incorporador LLM e o codificador de imagem do CLIP. Posteriormente, o ProCLIP alinha ainda mais o codificador de imagem do CLIP com o incorporador baseado em LLM por meio de ajuste contrastivo imagem-texto, empregando regularização de auto-destilação para evitar sobreajuste. Para alcançar um alinhamento mais eficaz, são utilizadas perdas de alinhamento semântico de instância e perdas de alinhamento de estrutura de incorporação durante a herança de representação e o ajuste contrastivo. O código está disponível em https://github.com/VisionXLab/ProCLIP.
Nos últimos anos, modelos generativos em larga escala para conteúdo visual (por exemplo, imagens, vídeos e objetos/cenas 3D) tiveram progressos notáveis. No entanto, o treinamento de modelos de geração de vídeo em larga escala continua sendo particularmente desafiador e intensivo em recursos devido ao alinhamento multimodal texto-vídeo, às longas sequências envolvidas e às complexas dependências espaço-temporais. Para enfrentar esses desafios, apresentamos uma estrutura de treinamento que otimiza quatro pilares: (i) processamento de dados, (ii) arquitetura do modelo, (iii) estratégia de treinamento e (iv) infraestrutura para modelos de geração de vídeo em larga escala. Essas otimizações resultaram em ganhos significativos de eficiência e melhorias de desempenho em todas as etapas de pré-processamento de dados, compressão de vídeo, escalonamento de parâmetros, pré-treinamento baseado em currículo e pós-treinamento focado em alinhamento. Nosso modelo resultante, MUG-V 10B, iguala os geradores de vídeo mais recentes de ponta em geral e, em tarefas de geração de vídeo orientadas para e-commerce, supera as principais baselines de código aberto em avaliações humanas. Mais importante, disponibilizamos a pilha completa em código aberto, incluindo os pesos do modelo, o código de treinamento em larga escala baseado no Megatron-Core e pipelines de inferência para geração e aprimoramento de vídeo. Até onde sabemos, esta é a primeira liberação pública de código de treinamento para geração de vídeo em larga escala que explora o Megatron-Core para alcançar alta eficiência de treinamento e escalonamento quase linear em múltiplos nós. Detalhes estão disponíveis em https://github.com/Shopee-MUG/MUG-V{nossa página}.
Raciocinar sobre relações espaciais dinâmicas é essencial, pois tanto os observadores quanto os objetos frequentemente se movem simultaneamente. Embora os modelos de visão e linguagem (VLMs) e os modelos de expertise visual se destaquem em tarefas 2D e cenários estáticos, sua capacidade de compreender plenamente cenários 3D dinâmicos permanece limitada. Introduzimos a Inteligência Espacial Dinâmica e propomos o DSI-Bench, um benchmark com quase 1.000 vídeos dinâmicos e mais de 1.700 questões anotadas manualmente, abrangendo nove padrões de movimento desacoplados de observadores e objetos. Projetos espacial e temporalmente simétricos reduzem vieses e permitem uma avaliação sistemática do raciocínio dos modelos sobre o movimento próprio e o movimento dos objetos. Nossa avaliação de 14 VLMs e modelos especializados revela limitações importantes: os modelos frequentemente confundem o movimento do observador com o do objeto, exibem vieses semânticos e falham em inferir com precisão relações relativas em cenários dinâmicos. Nosso DSI-Bench fornece descobertas e insights valiosos para o desenvolvimento futuro de modelos gerais e especializados com inteligência espacial dinâmica.
Embora os agentes de Modelos de Linguagem de Grande Escala (LLM) mostrem potencial no trading automatizado, eles ainda enfrentam limitações críticas. Estruturas multiagentes proeminentes frequentemente sofrem com ineficiência, produzem sinais inconsistentes e carecem da otimização de ponta a ponta necessária para aprender uma estratégia coerente com base no feedback do mercado. Para abordar isso, introduzimos o AlphaQuanter, uma estrutura de agente único que utiliza aprendizado por reforço (RL) para aprender uma política dinâmica sobre um fluxo de trabalho de decisão transparente e aumentado por ferramentas, capacitando um único agente a orquestrar ferramentas de forma autônoma e adquirir informações proativamente sob demanda, estabelecendo um processo de raciocínio transparente e auditável. Experimentos extensivos demonstram que o AlphaQuanter alcança desempenho de ponta em métricas financeiras-chave. Além disso, seu raciocínio interpretável revela estratégias sofisticadas, oferecendo insights novos e valiosos para traders humanos. Nosso código para aquisição de dados e treinamento do agente está publicamente disponível em: https://github.com/AlphaQuanter/AlphaQuanter
Neste trabalho, demonstramos que é possível extrair quantidades significativas de dados de treinamento de alinhamento de um modelo pós-treinado -- úteis para direcionar o modelo a melhorar certas capacidades, como raciocínio de contexto longo, segurança, seguimento de instruções e matemática. Enquanto a maioria dos trabalhos relacionados sobre memorização tem se concentrado em medir o sucesso da extração de dados de treinamento por meio de correspondência de strings, argumentamos que modelos de embeddings são mais adequados para nossos objetivos específicos. Distâncias medidas por meio de um modelo de embedding de alta qualidade podem identificar similaridades semânticas entre strings que uma métrica diferente, como a distância de edição, teria dificuldade em capturar. De fato, em nossa investigação, a correspondência aproximada de strings teria subestimado severamente (por uma estimativa conservadora de 10 vezes) a quantidade de dados que podem ser extraídos devido a artefatos triviais que reduzem a métrica. Curiosamente, descobrimos que os modelos regurgitam prontamente dados de treinamento que foram usados em fases de pós-treinamento, como SFT ou RL. Mostramos que esses dados podem então ser usados para treinar um modelo base, recuperando uma quantidade significativa do desempenho original. Acreditamos que nosso trabalho expõe um risco potencialmente negligenciado em relação à extração de dados de alinhamento. Por fim, nosso trabalho abre uma discussão interessante sobre os efeitos subsequentes das práticas de destilação: como os modelos parecem regurgitar aspectos de seu conjunto de treinamento, a destilação pode, portanto, ser pensada como um treinamento indireto no conjunto de dados original do modelo.
O raciocínio em vídeo utilizando Modelos Multimodais de Grande Escala (LMMs) depende de caro aprendizado por reforço (RL) e de cadeias de pensamento verbosas, resultando em um custo computacional substancial tanto durante o treinamento quanto na inferência. Além disso, os mecanismos que controlam o processo de pensamento nesses modelos de raciocínio são muito limitados. Neste artigo, utilizando a entropia da saída do modelo como um sinal, descobrimos que modelos de alta qualidade passam por uma série de micro-explorações e micro-explorações que mantêm o processo de raciocínio fundamentado (ou seja, evitam excesso de aleatoriedade enquanto o modelo está explorando ou pensando em uma resposta). Observamos ainda que, uma vez que esse processo de "pensamento" é concluído, modelos mais precisos demonstram uma melhor convergência ao reduzir significativamente a entropia por meio de uma fase final de exploração (ou seja, uma convergência mais certa em direção a uma trajetória de solução). Em seguida, utilizamos essas novas percepções teoricamente fundamentadas para ajustar o comportamento do modelo diretamente durante a inferência, sem usar qualquer RL ou ajuste fino supervisionado. Especificamente, durante a inferência, nossa abordagem proposta, chamada V-Reason (Video-Reason), adapta o cache de valor do LMM por meio de alguns passos de otimização em um pequeno controlador treinável utilizando um objetivo baseado em entropia, ou seja, nenhuma supervisão de qualquer conjunto de dados ou RL é necessária. Esse ajuste melhora o comportamento de micro-exploração e exploração do modelo durante a inferência. Nossos experimentos mostram que nosso método proposto alcança melhorias significativas em relação aos modelos base ajustados por instrução em vários conjuntos de dados de raciocínio em vídeo, reduzindo a lacuna com modelos treinados por RL para dentro de 0,6% de precisão média sem qualquer treinamento, enquanto oferece benefícios massivos de eficiência: os tokens de saída são reduzidos em 58,6% em comparação com o modelo RL.
Aplicações de diagnóstico médico exigem modelos capazes de processar entradas médicas multimodais (imagens, históricos de pacientes, resultados de laboratório) e gerar saídas diversificadas, incluindo relatórios textuais e conteúdo visual (anotações, máscaras de segmentação e imagens). Apesar dessa necessidade, os sistemas de IA médica existentes fragmentam esse processo unificado: modelos de compreensão de imagens médicas interpretam imagens, mas não conseguem gerar saídas visuais, enquanto modelos de geração de imagens médicas sintetizam imagens, mas não fornecem explicações textuais. Isso resulta em lacunas na representação de dados, integração de características e capacidades multimodais em nível de tarefa. Para abordar isso, propomos uma estrutura multinível que se inspira nos fluxos de trabalho de diagnóstico por meio do paradigma Observação-Conhecimento-Análise (OKA). Especificamente, no nível de observação, construímos o UniMed-5M, um conjunto de dados com mais de 5,6 milhões de amostras que reformatam dados unimodais diversos em pares multimodais para observação fundamental. No nível de conhecimento, propomos o Aprendizado Progressivo por Currículo, que introduz sistematicamente conhecimento multimodal médico. No nível de análise, introduzimos o UniMedVL, o primeiro modelo médico unificado multimodal para a análise simultânea de tarefas de compreensão e geração de imagens em uma única arquitetura. O UniMedVL alcança desempenho superior em cinco benchmarks de compreensão de imagens médicas, enquanto iguala modelos especializados em qualidade de geração em oito modalidades de imagem médica. Crucialmente, nossa arquitetura unificada permite o compartilhamento bidirecional de conhecimento: tarefas de geração aprimoram características de compreensão visual, demonstrando que a integração de capacidades tradicionalmente separadas em um único framework médico desbloqueia melhorias em diversas tarefas de visão e linguagem médica. O código está disponível em https://github.com/uni-medical/UniMedVL.
Apresentamos o Mono4DGS-HDR, o primeiro sistema para reconstruir cenas 4D de alta faixa dinâmica (HDR) renderizáveis a partir de vídeos monoculares de baixa faixa dinâmica (LDR) capturados com exposições alternadas e sem pose conhecida. Para abordar um problema tão desafiador, propomos um framework unificado com uma abordagem de otimização em duas etapas baseada em Gaussian Splatting. A primeira etapa aprende uma representação HDR do vídeo em espaço de coordenadas de câmera ortográfica, eliminando a necessidade de poses da câmera e permitindo uma reconstrução inicial robusta do vídeo HDR. A segunda etapa transforma os Gaussianos do vídeo para o espaço mundial e refina conjuntamente os Gaussianos mundiais com as poses da câmera. Além disso, propomos uma estratégia de regularização temporal de luminância para melhorar a consistência temporal da aparência HDR. Como essa tarefa não foi estudada anteriormente, construímos um novo benchmark de avaliação utilizando conjuntos de dados publicamente disponíveis para reconstrução de vídeo HDR. Experimentos extensivos demonstram que o Mono4DGS-HDR supera significativamente soluções alternativas adaptadas de métodos state-of-the-art tanto em qualidade de renderização quanto em velocidade.
Modelos de Linguagem de Grande Escala (LLMs) são poderosos raciocinadores em linguagem natural, mas suas ações são tipicamente limitadas à geração de tokens de vocabulário. Como resultado, interações com ambientes externos — como operadores simbólicos ou simuladores — precisam ser expressas por meio de texto em formatos predefinidos, analisadas e direcionadas para interfaces externas. Isso sobrecarrega a linguagem do modelo com tarefas de raciocínio e controle, exigindo um analisador manualmente criado, externo ao LLM. Para resolver isso, desacoplamos as interações com o ambiente da linguagem, internalizando-as em um Espaço de Ação Expandido (ExpA), além do vocabulário. O modelo começa raciocinando no ambiente de linguagem padrão, mas pode acionar ações de roteamento e alternar para um ambiente externo a qualquer momento. A partir daí, o modelo só pode invocar ações específicas do ambiente, receber feedback do ambiente e potencialmente retornar à linguagem como resultado. Para promover uma exploração eficaz do espaço de ação expandido e de novos ambientes, introduzimos o Aprendizado por Reforço em ExpA (EARL) com otimização de política contrafactual. Em tarefas que exigem interações de múltiplos turnos e planejamento contingente, o EARL supera fortes baselines com ações restritas ao vocabulário. Ele se desempenha de forma robusta em aprendizado multitarefa baseado em calculadora e, no problema de ordenação parcialmente observado, alcança precisão perfeita no Sort-4 enquanto descobre de forma autônoma um algoritmo eficiente competitivo com designs clássicos.
Agentes de código estão sendo cada vez mais confiados para corrigir bugs de forma autônoma em plataformas como o GitHub, mas sua avaliação de segurança se concentra quase exclusivamente na correção funcional. Neste artigo, revelamos um novo tipo de ameaça a agentes de código no mundo real: patches Funcionalmente Corretos, mas Vulneráveis (FCV), que passam em todos os casos de teste, mas contêm código vulnerável. Com o nosso FCV-Ataque proposto, que pode ser deliberadamente criado por atacantes maliciosos ou implicitamente introduzido por desenvolvedores bem-intencionados, mostramos que LLMs de última geração (por exemplo, ChatGPT e Claude) e estruturas de agentes (por exemplo, SWE-agent e OpenHands) são todos vulneráveis a essa ameaça FCV; em 12 combinações de agente-modelo no SWE-Bench, o ataque requer apenas acesso de caixa preta e uma única consulta ao agente de código para ser executado. Por exemplo, para a CWE-538 (vulnerabilidade de exposição de informações), o FCV-Ataque alcança uma taxa de sucesso de 40,7% no GPT-5 Mini + OpenHands. Nossos resultados revelam uma importante ameaça de segurança negligenciada pelos paradigmas de avaliação atuais e exigem o desenvolvimento de defesas conscientes da segurança para agentes de código.
Os Modelos Multimodais de Grande Escala (LMMs) estão sendo cada vez mais aplicados à pesquisa científica, mas ainda não está claro se eles podem compreender e raciocinar de forma confiável sobre a complexidade multimodal dos artigos. Um desafio central reside na detecção e resolução de inconsistências entre texto, figuras, tabelas e equações, problemas que muitas vezes são sutis, específicos do domínio e, em última análise, prejudicam a clareza, a reprodutibilidade e a confiança. Os benchmarks existentes ignoram essa questão, isolando modalidades únicas ou dependendo de erros sintéticos que não capturam a complexidade do mundo real. Apresentamos o PRISMM-Bench (Conjunto de Inconsistências Baseado em Revisão por Pares para Modelos Multimodais), o primeiro benchmark fundamentado em inconsistências reais sinalizadas por revisores em artigos científicos. Por meio de um pipeline de múltiplas etapas que inclui mineração de revisões, filtragem assistida por LLM e verificação humana, curamos 262 inconsistências de 242 artigos. Com base nesse conjunto, projetamos três tarefas: identificação de inconsistências, correção e correspondência de pares, que avaliam a capacidade de um modelo de detectar, corrigir e raciocinar sobre inconsistências em diferentes modalidades. Além disso, para abordar o notório problema de atalhos de escolha única na avaliação de múltipla escolha, onde os modelos exploram padrões de resposta sem realmente entender a pergunta, introduzimos representações de resposta baseadas em JSON estruturado que minimizam vieses linguísticos, reduzindo a dependência de pistas estilísticas superficiais. Avaliamos 21 LMMs líderes, incluindo modelos de grande porte de código aberto (GLM-4.5V 106B, InternVL3 78B) e modelos proprietários (Gemini 2.5 Pro, GPT-5 com alto raciocínio). Os resultados revelam um desempenho surpreendentemente baixo (26,1-54,2%), destacando o desafio do raciocínio científico multimodal e motivando avanços em direção a assistentes científicos confiáveis.
A base da ciência reprodutível reside em protocolos que são precisos, logicamente ordenados e executáveis. A geração autônoma desses protocolos por meio de consultas em linguagem natural poderia melhorar significativamente a eficiência do processo de reprodução. No entanto, os principais modelos de linguagem de grande escala (LLMs) atuais frequentemente geram protocolos incompletos ou inconsistentes, limitando sua utilidade. Para abordar essa limitação, primeiro apresentamos o SciRecipe, um conjunto de dados em larga escala com mais de 12 mil protocolos estruturados abrangendo 27 subáreas da biologia e incluindo tarefas de compreensão e resolução de problemas. Para melhorar ainda mais a geração de protocolos, propomos o paradigma "Esboçar-e-Preencher", que separa análise, estruturação e expressão para garantir que cada etapa seja explícita e verificável. Complementando isso, o mecanismo de recompensa baseado em componentes estruturados avalia a granularidade das etapas, a ordem das ações e a fidelidade semântica, alinhando a otimização do modelo com a confiabilidade experimental. Com base nesses componentes, desenvolvemos o Thoth, treinado por meio de um processo estagiado de Conhecimento-para-Ação que progride da aquisição de conhecimento para o raciocínio operacional e, finalmente, para a geração robusta de protocolos executáveis. Em vários benchmarks, o Thoth consistentemente supera tanto LLMs proprietários quanto de código aberto, alcançando melhorias significativas no alinhamento de etapas, sequenciamento lógico e precisão semântica. Nossa abordagem abre caminho para assistentes científicos confiáveis que conectam conhecimento com execução experimental. Todos os dados, códigos e modelos serão disponibilizados publicamente.
A qualidade da imagem é um fator crítico para a entrega de conteúdo visualmente atraente em plataformas web. No entanto, as imagens frequentemente sofrem degradação devido a operações com perdas aplicadas por redes sociais online (OSNs), impactando negativamente a experiência do usuário. A restauração de imagens é o processo de recuperar uma imagem limpa e de alta qualidade a partir de uma entrada degradada. Recentemente, modelos de restauração de imagens multitarefa (tudo-em-um) ganharam atenção significativa, devido à sua capacidade de lidar simultaneamente com diferentes tipos de degradações de imagem. No entanto, esses modelos geralmente possuem um número excessivamente alto de parâmetros treináveis, tornando-os computacionalmente ineficientes. Neste artigo, propomos uma estratégia para comprimir modelos de restauração de imagens multitarefa. Nosso objetivo é descobrir sub-redes altamente esparsas dentro de modelos profundos superparametrizados que possam igualar ou até superar o desempenho de suas contrapartes densas. O modelo proposto, denominado MIR-L, utiliza uma estratégia de poda iterativa que remove pesos de baixa magnitude em várias rodadas, enquanto redefine os pesos restantes para sua inicialização original. Esse processo iterativo é importante para a otimização do modelo de restauração de imagens multitarefa, revelando efetivamente "bilhetes vencedores" que mantêm ou superam o desempenho de ponta em níveis altos de esparsidade. A avaliação experimental em conjuntos de dados de referência para tarefas de remoção de chuva, desembaçamento e redução de ruído mostra que o MIR-L retém apenas 10% dos parâmetros treináveis, mantendo um alto desempenho na restauração de imagens. Nosso código, conjuntos de dados e modelos pré-treinados estão disponíveis publicamente em https://github.com/Thomkat/MIR-L.
Um desafio central na inferência de modelos de linguagem de grande escala é o equilíbrio entre velocidade de geração e qualidade da saída. Modelos autoregressivos produzem textos de alta qualidade, mas geram tokens sequencialmente. Modelos de difusão podem gerar tokens em paralelo, mas frequentemente precisam de muitas iterações para alcançar a mesma qualidade. Propomos a difusão planejada, um método híbrido que combina as vantagens de ambos os paradigmas. A difusão planejada funciona em duas etapas: primeiro, o modelo cria um plano autoregressivo curto que divide a saída em trechos menores e independentes. Em seguida, o modelo gera esses trechos simultaneamente usando difusão. Essa abordagem expande a fronteira de Pareto entre velocidade e qualidade e oferece um caminho prático para a geração de textos rápidos e de alta qualidade. No AlpacaEval, um conjunto de 805 prompts de seguimento de instruções, a difusão planejada alcança um equilíbrio Pareto-ótimo entre qualidade e latência, obtendo um aumento de velocidade de 1,27x a 1,81x em relação à geração autoregressiva, com uma queda de apenas 0,87% a 5,4% na taxa de vitória, respectivamente. Nossa análise de sensibilidade mostra que o mecanismo de planejamento da difusão planejada é mínimo e confiável, e existem controles simples de tempo de execução para fornecer um controle flexível do equilíbrio entre qualidade e latência.
Modelos de Linguagem de Grande Escala (LLMs) exibem um alinhamento forte, mas superficial: eles recusam diretamente consultas prejudiciais quando uma recusa é esperada logo no início de uma interação assistente, mas essa proteção colapsa uma vez que uma continuação prejudicial está em andamento (seja por meio de ataques adversariais ou por ataques de preenchimento assistente prejudicial). Isso levanta uma questão fundamental: O alinhamento superficial inerente aos LLMs pode ser desbloqueado para garantir segurança em profundidades arbitrárias de geração? Para alcançar esse objetivo, propomos o Alinhamento em Qualquer Profundidade (ADA), uma defesa eficaz no tempo de inferência com sobrecarga insignificante. O ADA é construído com base em nossa observação de que o alinhamento está concentrado nos tokens de cabeçalho do assistente por meio do uso repetido em treinamentos de recusa superficial, e esses tokens possuem fortes prioridades de alinhamento do modelo. Ao reintroduzir esses tokens no meio do processo, o ADA induz o modelo a reavaliar a nocividade e recuperar recusas em qualquer ponto da geração. Em diversas famílias de modelos de código aberto (Llama, Gemma, Mistral, Qwen, DeepSeek e gpt-oss), o ADA alcança um desempenho robusto de segurança sem exigir qualquer alteração nos parâmetros do modelo base. Ele garante uma taxa de recusa próxima de 100% contra ataques adversariais de preenchimento desafiadores, variando de dezenas a milhares de tokens. Além disso, o ADA reduz a taxa média de sucesso de ataques adversariais de prompt proeminentes (como GCG, AutoDAN, PAIR e TAP) para menos de 3%. Tudo isso é alcançado enquanto preserva a utilidade em tarefas benignas com recusas excessivas mínimas. O ADA mantém essa resiliência mesmo após o modelo base passar por ajustes de instrução subsequentes (benignos ou adversariais).
Modelos de linguagem grandes ajustados por instrução (IT-LLMs) exibem um forte raciocínio zero-shot, mas sua capacidade de executar instruções simples e autossuficientes permanece pouco explorada, apesar de ser fundamental para o seguimento de instruções complexas. Avaliamos 20 IT-LLMs em benchmarks modificados do MMLU e MMLU-Pro, variando sistematicamente o formato dos rótulos das opções (alfabético, numérico, romano) enquanto mantemos seu significado idêntico sob quatro paradigmas, a saber: (1) Com instruções explícitas, mudanças nos rótulos causam grandes variações de desempenho (por exemplo, -30,45% para rótulos romanos vs. numéricos), revelando um viés de formato de instrução. (2) Sem instruções, o desempenho cai ainda mais (até -10,84%) e a sensibilidade aos rótulos se intensifica, destacando o papel da orientação explícita. (3) Quando o conteúdo das opções é removido, os modelos falham em superar baselines de escolha aleatória, exceto com rótulos numéricos, sugerindo uma adesão fraca a diretivas atômicas. (4) Exemplos de três tentativas não geram ganhos significativos em robustez ou fidelidade, e análises de geração mostram erros persistentes nos rótulos, especialmente para formatos não numéricos. Em diferentes tamanhos de modelos, LLMs maiores alcançam maior precisão, mas permanecem inconsistentes na adesão às instruções. Esses resultados expõem as insuficiências dos paradigmas atuais de ajuste por instrução e destacam a necessidade de métodos de avaliação e estratégias de treinamento que visem explicitamente o seguimento de instruções atômicas.
E se os agentes artificiais pudessem não apenas se comunicar, mas também evoluir, se adaptar e remodelar seus mundos de maneiras que não podemos prever completamente? Com os LLMs (Large Language Models) agora impulsionando sistemas multiagentes e simulações sociais, estamos testemunhando novas possibilidades para modelar ambientes abertos e em constante mudança. No entanto, a maioria das simulações atuais permanece restrita a sandboxes estáticas, caracterizadas por tarefas predefinidas, dinâmicas limitadas e critérios de avaliação rígidos. Essas limitações impedem que elas capturem a complexidade das sociedades do mundo real. Neste artigo, argumentamos que benchmarks estáticos e específicos para tarefas são fundamentalmente inadequados e precisam ser repensados. Revisamos criticamente arquiteturas emergentes que combinam LLMs com dinâmicas multiagentes, destacamos desafios cruciais, como equilibrar estabilidade e diversidade, avaliar comportamentos inesperados e escalar para maior complexidade, e introduzimos uma nova taxonomia para este campo em rápida evolução. Por fim, apresentamos um roteiro de pesquisa centrado na abertura, na coevolução contínua e no desenvolvimento de ecossistemas de IA resilientes e socialmente alinhados. Convocamos a comunidade a ir além dos paradigmas estáticos e ajudar a moldar a próxima geração de simulações multiagentes adaptativas e socialmente conscientes.
Estudamos a previsão de curto prazo de contagens semanais de incidentes terroristas utilizando o Global Terrorism Database (GTD, 1970--2016). Construímos um pipeline reproduzível com divisões temporais fixas e avaliamos uma LSTM Bidirecional (BiLSTM) em comparação com âncoras clássicas robustas (sazonal-ingênua, linear/ARIMA) e uma linha de base profunda LSTM-Atenção. No conjunto de teste reservado, a BiLSTM atinge um RMSE de 6,38, superando a LSTM-Atenção (9,19; +30,6\%) e uma linha de base de regressão linear com defasagem (+35,4\% de ganho no RMSE), com melhorias paralelas em MAE e MAPE. Ablações variando a memória temporal, o comprimento do histórico de treinamento, a granularidade espacial, o tamanho do lookback e os grupos de características mostram que os modelos treinados com dados históricos longos generalizam melhor; um lookback moderado (20--30 semanas) fornece um contexto forte; e a codificação bidirecional é crucial para capturar padrões de preparação e consequências dentro da janela. A análise de grupos de características indica que a estrutura de curto prazo (contagens defasadas e estatísticas móveis) contribui mais, com características geográficas e de vítimas adicionando ganhos incrementais. Disponibilizamos código, configurações e tabelas compactas de resultados, e fornecemos um documento de declaração de dados/ética documentando o licenciamento do GTD e o uso exclusivo para pesquisa. No geral, o estudo oferece uma referência transparente e superadora de linhas de base para a previsão de incidentes no GTD.
Dados verificáveis e confiáveis tornaram-se um fator chave para ganhos de capacidade em modelos de linguagem modernos, permitindo aprendizado por reforço estável com recompensas verificáveis e destilação eficaz que transfere competência em tarefas de matemática, programação e agentes. No entanto, a construção de dados sintéticos verificáveis e generalizáveis permanece difícil devido à geração propensa a alucinações e a artefatos de verificação fracos ou triviais que falham em separar soluções fortes de soluções fracas. As abordagens existentes frequentemente dependem de heurísticas específicas para tarefas ou filtros pós-hoc que não se transferem entre domínios e carecem de um avaliador universal e fundamentado de verificabilidade. Neste trabalho, introduzimos um framework de síntese de dados evolutivo, agnóstico a tarefas, guiado por estratégias e verificável por execução que, a partir de supervisão mínima inicial, sintetiza conjuntamente problemas, soluções candidatas diversas e artefatos de verificação, e descobre iterativamente estratégias por meio de um avaliador baseado em consistência que impõe concordância entre verificações anotadas por humanos e induzidas por estratégias. Esse pipeline transforma a filtragem em síntese fundamentada: ele monta de forma confiável instâncias de treinamento coerentes e verificáveis e generaliza sem regras específicas de domínio. Nossos experimentos demonstram a eficácia da abordagem proposta tanto sob paradigmas de treinamento RLVR quanto de destilação de modelos. Os resultados mostram que o treinamento com nossos dados sintetizados produz melhorias significativas nas tarefas do LiveCodeBench e do AgentBench-OS, destacando a robusta generalização do nosso framework.
Modelos de linguagem de grande escala (LLMs) aumentados por ferramentas estão surgindo como agentes de pesquisa profundos, sistemas que decompõem consultas complexas, recuperam evidências externas e sintetizam respostas fundamentadas. No entanto, os agentes atuais ainda são limitados por recuperações superficiais, métricas de alinhamento fracas e comportamento frágil no uso de ferramentas. Apresentamos o PokeeResearch-7B, um agente de pesquisa profundo com 7 bilhões de parâmetros, construído sob um framework unificado de aprendizado por reforço para robustez, alinhamento e escalabilidade. O PokeeResearch-7B é treinado por um framework de Aprendizado por Reforço a partir de Feedback de IA (RLAIF) sem anotações, para otimizar políticas usando sinais de recompensa baseados em LLM que capturam precisão factual, fidelidade de citação e aderência às instruções. Um andaime de raciocínio de múltiplas chamadas guiado por cadeia de pensamento aprimora ainda mais a robustez por meio de autoverificação e recuperação adaptativa de falhas de ferramentas. Entre 10 benchmarks populares de pesquisa profunda, o PokeeResearch-7B alcança desempenho de ponta entre agentes de pesquisa profunda em escala de 7B. Isso destaca que um design cuidadoso de aprendizado por reforço e raciocínio pode produzir agentes de IA eficientes, resilientes e de nível de pesquisa. O modelo e o código de inferência são disponibilizados como código aberto sob licença MIT em https://github.com/Pokee-AI/PokeeResearchOSS.